kassian's Journal
 
[Most Recent Entries] [Calendar View] [Friends View]

Sunday, March 29th, 2009

    Time Event
    12:13a
    *** 112

    Всякий, кто работает со сканированными материалами, знает, что иметь под картинкой распознанный текст -- это удобно, полезно и правильно.

    Acrobat с версии 7 распознает, но не очень качественно (хотя вполне терпимо), а продукты ABBYY до сих пор не умеют распознавать pdf (не разбирая его на картинки и не убивая нотсы, букмарки и прочую начинку)

    Я решил посмотреть на ближайших конкурентов аббии: Omni Page.

    Исследовав рынок, нашел программу Nuance® PDF Converter Professional (v.5).
    Stand alone вьюер и редактор pdf со встроенным модулем Omni Page.

    Скажу честно, большего гумна среди распознавалок я не видел.

    Пример (французский текст).

    1. Результат распознавалки, встроенной в Acrobat 7 (ошибок нет):

    tiples; les sens sont flexibles. Ceci posé, l'élément

    2. Результат Nuance® PDF Converter (текст скопирован прямо из редактора):

    tiples; les sena sent flexibles. Ceci pose, ]'element

    3. Результат Nuance® PDF Converter (этот же сохраненный pdf открыт в акробате, откуда скопирован текст):

    tpl l n nt flxbl. p, t rvll , ln ltr
    ____________________________

    Почему такой глюк в п.3, не знаю. Т.е. Nuance® PDF Converter косячит, когда генерит pdf. Разбираться смысла нет, т.к. результата из п.2 вполне хватает для выводов.

    Imported event Original

    << Previous Day 2009/03/29
    [Calendar]
    Next Day >>

About LJ.Rossia.org