12:13a |
*** 112 Всякий, кто работает со сканированными материалами, знает, что иметь под картинкой распознанный текст -- это удобно, полезно и правильно.
Acrobat с версии 7 распознает, но не очень качественно (хотя вполне терпимо), а продукты ABBYY до сих пор не умеют распознавать pdf (не разбирая его на картинки и не убивая нотсы, букмарки и прочую начинку)
Я решил посмотреть на ближайших конкурентов аббии: Omni Page.
Исследовав рынок, нашел программу Nuance® PDF Converter Professional (v.5). Stand alone вьюер и редактор pdf со встроенным модулем Omni Page.
Скажу честно, большего гумна среди распознавалок я не видел.
Пример (французский текст).
1. Результат распознавалки, встроенной в Acrobat 7 (ошибок нет):
tiples; les sens sont flexibles. Ceci posé, l'élément
2. Результат Nuance® PDF Converter (текст скопирован прямо из редактора):
tiples; les sena sent flexibles. Ceci pose, ]'element
3. Результат Nuance® PDF Converter (этот же сохраненный pdf открыт в акробате, откуда скопирован текст):
tpl l n nt flxbl. p, t rvll , ln ltr ____________________________
Почему такой глюк в п.3, не знаю. Т.е. Nuance® PDF Converter косячит, когда генерит pdf. Разбираться смысла нет, т.к. результата из п.2 вполне хватает для выводов. |