kassian's Journal

*** 112

Всякий, кто работает со сканированными материалами, знает, что иметь под картинкой распознанный текст -- это удобно, полезно и правильно.

Acrobat с версии 7 распознает, но не очень качественно (хотя вполне терпимо), а продукты ABBYY до сих пор не умеют распознавать pdf (не разбирая его на картинки и не убивая нотсы, букмарки и прочую начинку)

Я решил посмотреть на ближайших конкурентов аббии: Omni Page.

Исследовав рынок, нашел программу Nuance® PDF Converter Professional (v.5).
Stand alone вьюер и редактор pdf со встроенным модулем Omni Page.

Скажу честно, большего гумна среди распознавалок я не видел.

Пример (французский текст).

1. Результат распознавалки, встроенной в Acrobat 7 (ошибок нет):

tiples; les sens sont flexibles. Ceci posé, l'élément

2. Результат Nuance® PDF Converter (текст скопирован прямо из редактора):

tiples; les sena sent flexibles. Ceci pose, ]'element

3. Результат Nuance® PDF Converter (этот же сохраненный pdf открыт в акробате, откуда скопирован текст):

tpl l n nt flxbl. p, t rvll , ln ltr
____________________________

Почему такой глюк в п.3, не знаю. Т.е. Nuance® PDF Converter косячит, когда генерит pdf. Разбираться смысла нет, т.к. результата из п.2 вполне хватает для выводов.