Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет Марина ([info]mochalkina)
@ 2007-12-09 21:34:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
сканированный текст в pdf
Друзья, простите чайника,

приветствуются практические соображения вот по какому вопросу. Если он дурацкий, скажите мне об этом сразу, я пост уберу.

Мне периодически приходится переводить всякие тексты, полученные по е-мейлу в виде сосканированных образов каждой страницы. Последний раз получила неслабых размеров текст в формате pdf и с удивлением обнаружила, что хотя речь явно идет о графических образах всех страниц, тем не менее отдельные фрагменты текста можно выделить курсором, закачать куда-нибудь через cut'n'paste, и они распознаются как текст.

Это такая фича адобовских программ? Если да, то начиная с какой версии (в старых такого не припомню)? Распознавание происходит на этапе сканирования или уже во время пользовательской работы с файлом?

Если у них там встроенная распознавалка, то есть ли шанс ее настроить? Скажем, сказать ей, что символ "l" в середине слова - это обязательно буква "эль", а не единица (а если отдельно, то наоборот). Потому что качество сейчас ниже плинтуса, текст проще перебить, а вот если бы удавалось распознавать чуть получше, это бы мне несколько облегчило жизнь.

Adobe Reader 8.1; чем сканировали - не знаю, но могу спросить.

UPD: вопрос прояснен, спасибо [info]chva@lj.


(Добавить комментарий)


[info]aptsvet@lj
2007-12-09 15:47 (ссылка)
Кто-нибудь поумнее ответит точно, но я знаю, что в прежних версиях Adobe Professional распознавалка была. Возможно, они ее встроили теперь в Reader. Насчет настроек ничего сказать не могу.

(Ответить) (Ветвь дискуссии)


[info]mochalkina@lj
2007-12-09 16:02 (ссылка)
спасибо.

(Ответить) (Уровень выше)


[info]chva@lj
2007-12-09 15:48 (ссылка)
Например при изготовлении PDF из FineReader можно сделать как бы два слоя — в одном изображение, в другом собственно текст. Соответственно, выделяешь мышкой и текст копируешь. Собственной распознавалки в этой программе нет. Настроить программу распознавания (FineReader) возможно, там есть режим обучения под конкретный шрифт.

(Ответить) (Ветвь дискуссии)


[info]chva@lj
2007-12-09 15:49 (ссылка)
Я имел в виду — нет распознавалки в Adobe Reader. Это просто программа для просмотра файла формата PDF. А вот в программе для создания распознавалка вполне может быть.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]mochalkina@lj
2007-12-09 15:54 (ссылка)
а вот тут написали, что в Adobe Professional (я с ним не работала) распознавалка была. Или одно другому не противоречит? ;-)

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]chva@lj
2007-12-09 16:01 (ссылка)
Adobe Professional это программа, с помощью которой можно делать файлы формата PDF. Одна из. Я обычно пользуюсь FineReader для этих целей. Есть и множество других программ, обычно они выглядят в системе как виртуальные принтеры, то есть посылаешь текст на печать в такой принтер, а получаешь файл PDF. Вы же читаете эти файлы программой Adobe Reader, она только выводит содержание файла, системы распознавания в ней нет. Тот же FineReader может открыть файл PDF, состоящий из графических копий страниц и распознать текст, если он вам нужен. Качество распознавания зависит от качества картинки (желательно 300 dpi и хорошая чёткость), а также от вида шрифта. Например, многие дореволюционные тексты из Google Books системам OCR просто не по зубам.

(Ответить) (Уровень выше)


[info]mochalkina@lj
2007-12-09 16:00 (ссылка)
ага - я даже поняла, как это доказать. ;-) Один и тот же кусок текста распознается одинаково вне зависимости от того, как (в составе чего) его выделять.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]chva@lj
2007-12-09 16:02 (ссылка)
В вашем случае текст уже распознан при подготовке файла. Вы выделяете уже готовый текст, который расположен как бы «вторым слоем» над графической копией.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]mochalkina@lj
2007-12-09 16:05 (ссылка)
именно-именно.

Просто я про возможность двух слоев не знала. Спасибо, теперь буду умнее. ;-)

А тогда еще вопрос про распознавалку. А как ее учить, если в самом тексте есть какие-то посторонние пометки - подчеркивания, маргиналии и так далее?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]chva@lj
2007-12-09 16:09 (ссылка)
Учить её надо по образцам шрифта. Вот так буквально переходишь в режим обучения и показываешь — это буква «a», это буква «l» и т.п. В FineReader это режим «Распознавание с обучением».

(Ответить) (Уровень выше)


[info]chva@lj
2007-12-09 16:10 (ссылка)
При распознавании обычно выделяют блоки — то есть прямо указывают где текст, где пометка (картинка), иногда подчищают что-то вручную. Программа может это сделать и сама, но не всегда корректно.

(Ответить) (Уровень выше)


[info]antonborisov@lj
2007-12-09 16:18 (ссылка)
У меня сейчас стоит Adobe Reader 7.1, то есть, обычный просмотрщик, обратите внимание, там есть такой пункт Select.

(Ответить)


[info]thesaucer@lj
2007-12-09 17:13 (ссылка)
в Acrobat Professional есть распознавалка (кстати, от ABBYY): Document -> OCR Text Recognition. любой картинкотекст можно прогнать через нее. распознать можно при сканировании (которое вызывается из-под акробата же) либо уже из картинки в любое время. мы завели, работает, есть параметры, можно настроить на определенное разрешение и т. п.

автоматом в ридере распознаваться не может, кто-то, наверное, помимо сознания создает уже слоеный файл на том конце :)

(Ответить) (Ветвь дискуссии)


[info]chingachguk@lj
2007-12-10 05:40 (ссылка)
А вот может вы знаете. В моем Acrobat Professional распознавалка есть. Но в ней нет русского языка. Если от АББИИ, то даже странно.
Или есть какие-нибудь варианты акробата, где и распознавалка есть русская?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]thesaucer@lj
2007-12-17 22:42 (ссылка)
прошу прощения - забыл вам ответить...

у меня есть опция Document -> Scan to PDF -> Text Recognition and Metadata (последний блок настроек), в нем птичка Make Searchable (Run OCR) -> кнопка Options -> Primary OCR Language -> выбрать Russian из списка. Помогает или нет, - не знаю.

Потом просто кнопка Scan - по ней вызывается драйвер сканера и все происходит как обычно.

Document -> OCR Text Recognition - это для уже сосканированных картинкодокументов.

если не поможет, то возможно, в вашем случае нужно ставить русский файнридер. у него может быть (сам я не сталкивался) какой-то русский модуль, втискиваемый в акробат.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]chingachguk@lj
2007-12-18 04:15 (ссылка)
Спасибо.
Меня, собственно, интересовал случай, не сканирования в пдф, а распознавания текстов, уже загнанных в виде картинок. Но в опции Document -> OCR Text Recognition у меня среди языков распознавания Russian отсутствует. Про русский модуль в файнридере для акробата - поищу, спасибо.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]thesaucer@lj
2007-12-18 13:56 (ссылка)
да. у меня его там тоже нет. но есть подозрение, что будет работать, если его выбрать как я написал выше

(Ответить) (Уровень выше)


[info]dgri@lj
2007-12-10 08:00 (ссылка)
Кроме всего прочего, в PDF-файлах выделение и копирование текста может быть запрещено или разрешено. Если разрешено, то его и распознавать не надо, только немножко корректировать.
А ещё бывают PDF-ы, в которые отсканированный текст вставлен без распознавания, а как картинка. При этом если выделение текста теоретически и разрешено, но практически работать всё равно не будет.

(Ответить)


[info]ex_nick_1@lj
2007-12-15 08:35 (ссылка)
Марина, а почему ABBY PDF Transformer Вас не устраивает? Пишите на мыло и фирменный диск во вр. пользование - пожалуйста. Простая, как апельсин программка, все качественно перегоняет в doc, txt или html.

(Ответить) (Ветвь дискуссии)


[info]mochalkina@lj
2007-12-15 15:46 (ссылка)
да, в общем, сейчас проблема уже решена. Текст все равно пришлось перенабить, т.к. (а) качественного распознавания трудно было ожидать в любом случае, там были прямо на страницах всякие пометки и помехи и (б) он нуждался в заметном редактировании, так что даже и не обидно.

Но если повторится, то буду иметь в виду, спасибо.

На самом деле меня просто заинтересовало явление, которого я раньше, несмотря на опыт работы с текстами, не видела. Я сталкивалась либо с нормально распознанными текстами, либо с чисто графическими файлами, но слоёный файл (по-видимому, случайно созданный коллегой) видела впервые.

(Ответить) (Уровень выше)