Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет Марина ([info]mochalkina)
@ 2007-12-09 21:34:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
сканированный текст в pdf
Друзья, простите чайника,

приветствуются практические соображения вот по какому вопросу. Если он дурацкий, скажите мне об этом сразу, я пост уберу.

Мне периодически приходится переводить всякие тексты, полученные по е-мейлу в виде сосканированных образов каждой страницы. Последний раз получила неслабых размеров текст в формате pdf и с удивлением обнаружила, что хотя речь явно идет о графических образах всех страниц, тем не менее отдельные фрагменты текста можно выделить курсором, закачать куда-нибудь через cut'n'paste, и они распознаются как текст.

Это такая фича адобовских программ? Если да, то начиная с какой версии (в старых такого не припомню)? Распознавание происходит на этапе сканирования или уже во время пользовательской работы с файлом?

Если у них там встроенная распознавалка, то есть ли шанс ее настроить? Скажем, сказать ей, что символ "l" в середине слова - это обязательно буква "эль", а не единица (а если отдельно, то наоборот). Потому что качество сейчас ниже плинтуса, текст проще перебить, а вот если бы удавалось распознавать чуть получше, это бы мне несколько облегчило жизнь.

Adobe Reader 8.1; чем сканировали - не знаю, но могу спросить.

UPD: вопрос прояснен, спасибо [info]chva@lj.


(Читать комментарии) - (Добавить комментарий)


[info]chva@lj
2007-12-09 15:49 (ссылка)
Я имел в виду — нет распознавалки в Adobe Reader. Это просто программа для просмотра файла формата PDF. А вот в программе для создания распознавалка вполне может быть.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]mochalkina@lj
2007-12-09 15:54 (ссылка)
а вот тут написали, что в Adobe Professional (я с ним не работала) распознавалка была. Или одно другому не противоречит? ;-)

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]chva@lj
2007-12-09 16:01 (ссылка)
Adobe Professional это программа, с помощью которой можно делать файлы формата PDF. Одна из. Я обычно пользуюсь FineReader для этих целей. Есть и множество других программ, обычно они выглядят в системе как виртуальные принтеры, то есть посылаешь текст на печать в такой принтер, а получаешь файл PDF. Вы же читаете эти файлы программой Adobe Reader, она только выводит содержание файла, системы распознавания в ней нет. Тот же FineReader может открыть файл PDF, состоящий из графических копий страниц и распознать текст, если он вам нужен. Качество распознавания зависит от качества картинки (желательно 300 dpi и хорошая чёткость), а также от вида шрифта. Например, многие дореволюционные тексты из Google Books системам OCR просто не по зубам.

(Ответить) (Уровень выше)


[info]mochalkina@lj
2007-12-09 16:00 (ссылка)
ага - я даже поняла, как это доказать. ;-) Один и тот же кусок текста распознается одинаково вне зависимости от того, как (в составе чего) его выделять.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]chva@lj
2007-12-09 16:02 (ссылка)
В вашем случае текст уже распознан при подготовке файла. Вы выделяете уже готовый текст, который расположен как бы «вторым слоем» над графической копией.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]mochalkina@lj
2007-12-09 16:05 (ссылка)
именно-именно.

Просто я про возможность двух слоев не знала. Спасибо, теперь буду умнее. ;-)

А тогда еще вопрос про распознавалку. А как ее учить, если в самом тексте есть какие-то посторонние пометки - подчеркивания, маргиналии и так далее?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]chva@lj
2007-12-09 16:09 (ссылка)
Учить её надо по образцам шрифта. Вот так буквально переходишь в режим обучения и показываешь — это буква «a», это буква «l» и т.п. В FineReader это режим «Распознавание с обучением».

(Ответить) (Уровень выше)


[info]chva@lj
2007-12-09 16:10 (ссылка)
При распознавании обычно выделяют блоки — то есть прямо указывают где текст, где пометка (картинка), иногда подчищают что-то вручную. Программа может это сделать и сама, но не всегда корректно.

(Ответить) (Уровень выше)


(Читать комментарии) -