mochalkina: сканированный текст в pdf

сканированный текст в pdf
Друзья, простите чайника,

приветствуются практические соображения вот по какому вопросу. Если он дурацкий, скажите мне об этом сразу, я пост уберу.

Мне периодически приходится переводить всякие тексты, полученные по е-мейлу в виде сосканированных образов каждой страницы. Последний раз получила неслабых размеров текст в формате pdf и с удивлением обнаружила, что хотя речь явно идет о графических образах всех страниц, тем не менее отдельные фрагменты текста можно выделить курсором, закачать куда-нибудь через cut'n'paste, и они распознаются как текст.

Это такая фича адобовских программ? Если да, то начиная с какой версии (в старых такого не припомню)? Распознавание происходит на этапе сканирования или уже во время пользовательской работы с файлом?

Если у них там встроенная распознавалка, то есть ли шанс ее настроить? Скажем, сказать ей, что символ "l" в середине слова - это обязательно буква "эль", а не единица (а если отдельно, то наоборот). Потому что качество сейчас ниже плинтуса, текст проще перебить, а вот если бы удавалось распознавать чуть получше, это бы мне несколько облегчило жизнь.

Adobe Reader 8.1; чем сканировали - не знаю, но могу спросить.

UPD: вопрос прояснен, спасибо

chva@lj.

(Читать комментарии) - (Добавить комментарий)

	chva@lj 2007-12-09 15:49 (ссылка)
	Я имел в виду — нет распознавалки в Adobe Reader. Это просто программа для просмотра файла формата PDF. А вот в программе для создания распознавалка вполне может быть. (Ответить) (Уровень выше) (Ветвь дискуссии)

	mochalkina@lj 2007-12-09 15:54 (ссылка)
	а вот тут написали, что в Adobe Professional (я с ним не работала) распознавалка была. Или одно другому не противоречит? ;-) (Ответить) (Уровень выше) (Ветвь дискуссии)

chva@lj
2007-12-09 16:01 (ссылка)

Adobe Professional это программа, с помощью которой можно делать файлы формата PDF. Одна из. Я обычно пользуюсь FineReader для этих целей. Есть и множество других программ, обычно они выглядят в системе как виртуальные принтеры, то есть посылаешь текст на печать в такой принтер, а получаешь файл PDF. Вы же читаете эти файлы программой Adobe Reader, она только выводит содержание файла, системы распознавания в ней нет. Тот же FineReader может открыть файл PDF, состоящий из графических копий страниц и распознать текст, если он вам нужен. Качество распознавания зависит от качества картинки (желательно 300 dpi и хорошая чёткость), а также от вида шрифта. Например, многие дореволюционные тексты из Google Books системам OCR просто не по зубам.

(Ответить) (Уровень выше)

	mochalkina@lj 2007-12-09 16:00 (ссылка)
	ага - я даже поняла, как это доказать. ;-) Один и тот же кусок текста распознается одинаково вне зависимости от того, как (в составе чего) его выделять. (Ответить) (Уровень выше) (Ветвь дискуссии)

	chva@lj 2007-12-09 16:02 (ссылка)
	В вашем случае текст уже распознан при подготовке файла. Вы выделяете уже готовый текст, который расположен как бы «вторым слоем» над графической копией. (Ответить) (Уровень выше) (Ветвь дискуссии)

mochalkina@lj
2007-12-09 16:05 (ссылка)

именно-именно.

Просто я про возможность двух слоев не знала. Спасибо, теперь буду умнее. ;-)

А тогда еще вопрос про распознавалку. А как ее учить, если в самом тексте есть какие-то посторонние пометки - подчеркивания, маргиналии и так далее?

(Ответить) (Уровень выше) (Ветвь дискуссии)

	chva@lj 2007-12-09 16:09 (ссылка)
	Учить её надо по образцам шрифта. Вот так буквально переходишь в режим обучения и показываешь — это буква «a», это буква «l» и т.п. В FineReader это режим «Распознавание с обучением». (Ответить) (Уровень выше)

	chva@lj 2007-12-09 16:10 (ссылка)
	При распознавании обычно выделяют блоки — то есть прямо указывают где текст, где пометка (картинка), иногда подчищают что-то вручную. Программа может это сделать и сама, но не всегда корректно. (Ответить) (Уровень выше)

(Читать комментарии) -