Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет Марина ([info]mochalkina)
@ 2007-12-09 21:34:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
сканированный текст в pdf
Друзья, простите чайника,

приветствуются практические соображения вот по какому вопросу. Если он дурацкий, скажите мне об этом сразу, я пост уберу.

Мне периодически приходится переводить всякие тексты, полученные по е-мейлу в виде сосканированных образов каждой страницы. Последний раз получила неслабых размеров текст в формате pdf и с удивлением обнаружила, что хотя речь явно идет о графических образах всех страниц, тем не менее отдельные фрагменты текста можно выделить курсором, закачать куда-нибудь через cut'n'paste, и они распознаются как текст.

Это такая фича адобовских программ? Если да, то начиная с какой версии (в старых такого не припомню)? Распознавание происходит на этапе сканирования или уже во время пользовательской работы с файлом?

Если у них там встроенная распознавалка, то есть ли шанс ее настроить? Скажем, сказать ей, что символ "l" в середине слова - это обязательно буква "эль", а не единица (а если отдельно, то наоборот). Потому что качество сейчас ниже плинтуса, текст проще перебить, а вот если бы удавалось распознавать чуть получше, это бы мне несколько облегчило жизнь.

Adobe Reader 8.1; чем сканировали - не знаю, но могу спросить.

UPD: вопрос прояснен, спасибо [info]chva@lj.


(Читать комментарии) - (Добавить комментарий)


[info]thesaucer@lj
2007-12-09 17:13 (ссылка)
в Acrobat Professional есть распознавалка (кстати, от ABBYY): Document -> OCR Text Recognition. любой картинкотекст можно прогнать через нее. распознать можно при сканировании (которое вызывается из-под акробата же) либо уже из картинки в любое время. мы завели, работает, есть параметры, можно настроить на определенное разрешение и т. п.

автоматом в ридере распознаваться не может, кто-то, наверное, помимо сознания создает уже слоеный файл на том конце :)

(Ответить) (Ветвь дискуссии)


[info]chingachguk@lj
2007-12-10 05:40 (ссылка)
А вот может вы знаете. В моем Acrobat Professional распознавалка есть. Но в ней нет русского языка. Если от АББИИ, то даже странно.
Или есть какие-нибудь варианты акробата, где и распознавалка есть русская?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]thesaucer@lj
2007-12-17 22:42 (ссылка)
прошу прощения - забыл вам ответить...

у меня есть опция Document -> Scan to PDF -> Text Recognition and Metadata (последний блок настроек), в нем птичка Make Searchable (Run OCR) -> кнопка Options -> Primary OCR Language -> выбрать Russian из списка. Помогает или нет, - не знаю.

Потом просто кнопка Scan - по ней вызывается драйвер сканера и все происходит как обычно.

Document -> OCR Text Recognition - это для уже сосканированных картинкодокументов.

если не поможет, то возможно, в вашем случае нужно ставить русский файнридер. у него может быть (сам я не сталкивался) какой-то русский модуль, втискиваемый в акробат.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]chingachguk@lj
2007-12-18 04:15 (ссылка)
Спасибо.
Меня, собственно, интересовал случай, не сканирования в пдф, а распознавания текстов, уже загнанных в виде картинок. Но в опции Document -> OCR Text Recognition у меня среди языков распознавания Russian отсутствует. Про русский модуль в файнридере для акробата - поищу, спасибо.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]thesaucer@lj
2007-12-18 13:56 (ссылка)
да. у меня его там тоже нет. но есть подозрение, что будет работать, если его выбрать как я написал выше

(Ответить) (Уровень выше)


(Читать комментарии) -