...

Previous Entry Add to Memories Tell A Friend Next Entry
11:47 am: Как сканировать книги
Довольно долго передо мной стояла следующая проблема: как отсканировать любую книгу, так чтобы были выполнены следующие условия:

а) минимальные затраты времени
б) удобный формат, сохраняющий оригинальную книжную страницу, иллюстрации и т.п.
в) возможность поиска по тексту
г) небольшой размер.

В общем, любой текстовый формат делает эти условия невыполнимыми, т.к. ни одна OCR-программа не способна работать без участия человека. Случаются, конечно, исключения, когда книга отсканирована очень хорошо и можно переводить в текст, особенно не проверяя качество. Однако для целого ряда книг это было в принципе невозможно. Кроме того, вставал вопрос о том, какой текстовый формат использовать. Ни один из существующих не удовлетворяет всем условиям сразу. Html не сохраняет оригинальных страниц, pdf крайне громоздок, если в книге много иллюстраций, chm в общем, тоже, не панацея.


Одним словом, ясно было, что ставку нужно делать на формат djvu. Чтобы понять, почему, достаточно взглянуть на библиотеку мехмата МГУ. Я думаю, что это вообще самое полезное место в Рунете - для математиков, конечно.

Однако с djvu у меня постоянно возникали какие-то проблемы. Главная из них состояла в следующем: невозможность пакетной обработки файлов, полученных из FineReader, для их конвертации в djvu. Для меня это сводило все преимущества формата к нулю. И вот, решившись на последний мозговой штурм, я выяснил, что и как нужно делать. Теперь можно получать электронную книгу, размером в несколько мегабайт, с сохранением всего оформления, с возможностью поиска (т.е. с встроенным в графический формат распознанного текста), легко читаемую, масштабируемую и прекрасно поддающуюся печати (и даже последующей конвертации в любой текстовый формат) - затрачивая на это времени не больше, чем на ксерокопирование.

Итак, как это делается. Для начала здесь берется Document Express Editor v5.0.0 (можно, очевидно использовать и версию 5.0.1, я пишу о том, что делал сам). Оригинальная программа занимает 168 Мб, но можно ограничится урезанной версией в 53,9 Мб, и даже совсем минималистской - 1,72 Мб (последняя не поддерживает распознавание текстов).

Дальше в FineReader-е сканируется книга. Сканировать нужно в 300-600 DPI в зависимости от качества шрифтов и наличия мелких деталей. Я часто сканирую в 400 DPI, этого обычно вполне достаточно. Сканировать лучше всего в сером, хотя в зависимости от книги используется и ч/б. Если книга меньше, чем A4, имеет смысл выставить размеры области сканирования в окне "Настройки сканера" - это экономит время и делает готовую книгу более аккуратной без дополнительной обработки. Разворот книги, на мой взгляд, лучше делить. Когда все настройки сделаны, для сканирования удобно использовать кнопку сканера, а не интерфейс FineReader-а - это позволяет сканировать, не переключаясь между окнами, и не отвлекаясь от основной работы за компьютером.
После того как вы сделали копию книги в FineReader, нужно сохранить изображения (меню "Файл"). Если вся книга черно-белая, то сохранять нужно в один tiff-файл в формате ч/б Group 4. Если есть цветные картинки в общем ч/б тексте, то их нужно сохранять отдельно (впрочем, можно сохранить всю книгу в цветных tiff, если компьютер позволяет). Если сканировали в сером, то сохраняете все в сером tiff тоже одним файлом.

Дальше открываете чудовищную программу Workflow Manager из состава Document Express Editor. Программа, кстати, стоит 4 тысячи долларов, но на интерфейсе явно кто-то экономил. Добавляете изображение (если у вас один tiff, то, естественно, только его), если есть цветные картинки, то по очереди соответствующие файлы. Ставите галочку Perform OCR, если хотите включить возможность поиска по тексту, выбираете язык. Если файлов с изображениями несколько, во вкладке Output выбираете One document only. Потом ставите галочку в столбце Enable. Через некоторое время в папке, где лежали исходные tiff-файлы, появляется книга в формате djvu. Всё. Получается книга, которая удовлетворяет всем вышеперечисленным условиям.

Поклонники перфекционизма могут использовать специальные программы для удаления мусора на страницах после сканирования, или же удалять его вручную.

В общем, если у вас есть хорошая книга, ею очень просто поделиться с общественностью.

Current Music: Mercedes Sosa - Los Mareados

Comments

[User Picture]
From:[info]qwerty
Date:August 21st, 2005 - 10:52 am
(Link)
Спасибо за описание процесса. Очень полезно.

Кроме софта для сканирования нужен еще и подходящий сканер. Не во всякий сканер можно засунуть книжку, не разобрав ее предварительно на страницы.

Интересно, а нельзя ли сканировать ксероксом? Печатать графику им точно можно. Т.е. бывают ли такие модели ксероксов и какие именно?
[User Picture]
From:[info]hvil
Date:August 21st, 2005 - 11:35 am
(Link)
Ну, любой современный (выпущенный за последние года 4) планшетный сканер подходит в общем-то. Проблемы, похоже, бывают только для тех устройств, которые совмещают в себе принтер и сканер и т.п.

Ксероксом? В каком смысле? Если ксерокс умеет работать с компьютером, сохранять в нем данные, то это уже и есть сканер.
[User Picture]
From:[info]wazawai
Date:August 21st, 2005 - 08:40 pm
(Link)
Нет, не любой. Сейчас полно выпускается сканеров с линейкой фотодиодов. Глубина резкости у них стремится к нулю, сканировать можно только отдельные листы.
[User Picture]
From:[info]qwerty
Date:August 21st, 2005 - 11:36 pm
(Link)
Про ксероксы - их у меня в конторе много стоит. Известно, что их можно не только для копирования, но и для печати использовать. Можно ли их использовать в качестве сканеров (т.е. читать с ксерокса) - не знаю, подозреваю, что нет. Могу ошибаться.

У меня два сканера, ни в один из них книжку положить невозможно. Такие дела.
From:[info]polian
Date:August 21st, 2005 - 10:59 am
(Link)
400 дпи... Как-то читал в статье о сканировании, что 400 дпи-- они не настоящие (войско говорит-- царь не настоящий!). Типа, сканирование идёт на 300 дпи, а потом программно растягивается до 400 дпи. Нужно ли это? Хрен ведь знает, КАК сканер делает ресамплинг... Автор говорил, что настоящие-- это 300 и 600 дпи, т.е. видимо, кратные х300.

В рез-тате-- может сканировать-то на честных 300 дпи? Интересно было бы конечно сравнить распознаваемость текста, сделанного на "400 дпи" и на 600 дпи и полсе руками в Фотошопе ужатых до 400 дпи. Не пробовали?
[User Picture]
From:[info]hvil
Date:August 21st, 2005 - 11:37 am
(Link)
Хм... ну не знаю, не знаю. Когда делаешь OCR с проблемных книг разница вполне существует.
From:(Anonymous)
Date:August 21st, 2005 - 12:06 pm

ivangogh

(Link)
Видать это от сканера зависит. Вот у меня та же фигня или 300 или 600.

Спасибо за инфу. Это напоминает инструкцтю по пизжению яблок с огорода частника с использованием сверхсовременного оборудования, тоже спизженого.

Я все-таки предпочитаю pdf. Если залезешь на запад, то у ни х вся гуманитаристика в нем. А Дежавю - это от безысходности из-за формул.
[User Picture]
From:[info]hvil
Date:August 21st, 2005 - 12:12 pm

Re: ivangogh

(Link)
Насколько я понимаю, источники большей части ихних pdf - это спёртые ebooks, а не отсканированные в домашних условиях книги. Еще бывают статьи, скопированные в pdf из word. Еще - гигантские и ужасные файлы графических pdf из jstore. Вообще, pdf распространеннее, но это не значит, что он лучше.
[User Picture]
From:[info]tiphareth
Date:August 21st, 2005 - 06:04 pm

Re: ivangogh

(Link)
PDF бывает довольно компактный, если он сделан из
исходной верстки. Если ж он берется из-под сканера, он
обыкновенно чудовищно плохой и большой.

Такие дела
Миша
[User Picture]
From:[info]qwerty
Date:August 21st, 2005 - 11:38 pm

Re: ivangogh

(Link)
Дежавю - это вовсе не из-за формул. Это совсем другое сжатие с последующей обработкой. Формулы тут ни при чем.
From:[info]polian
Date:August 21st, 2005 - 01:25 pm
(Link)
Нет, я верю, что 400 дпи, пусть и нечестных. могут быть лучше 300, хотя откуда тогда берётся дополнительная информация о сканированном тексте?
Возможно, по времени перевод в 400 дпи будет сравним со временем сканирования на 600 дпи? Впрочем, я тут не спец...
[User Picture]
From:[info]wazawai
Date:August 21st, 2005 - 08:44 pm
(Link)
Это зависит от оптического разрешения сканера. Раньше большинство сканеров имело разрешение не более 300dpi, отсюда и пренебрежительное отношение к высоким разрешениям при сканировании. Сейчас трудно купить сканер с оптическим разрешением меньше 600dpi, сканеры среднего уровня имеют 1200dpi.
From:[info]polian
Date:August 22nd, 2005 - 08:51 am
(Link)
С этим-то я согласен. Мне просто казалось, что реально именно оптическое разрешение, а разные вариации на тему 400, 500 и пр дпи кажутся мне бессмысленным пользовательским наворотом, ибо те же 300 дпи размазываются по бОльшей площади. Даёт ли это выигрыш? hvil говорит, что даёт. Ну, значит техника ушла от меня вперёд...
[User Picture]
From:[info]chva
Date:August 21st, 2005 - 12:05 pm
(Link)
Получается книга, которая удовлетворяет всем вышеперечисленным условиям. Не удовлетворяет она всем условиям. Дежавю это просто сжатая графика, поиск по тексту (и копирование) в ней невозможны. Нормальный формат для книги в любом случае текстовый, все графические форматы с каким угодно сжатием не более чем полумера. Полуфабрикат, а не настоящая электронная книга.
[User Picture]
From:[info]hvil
Date:August 21st, 2005 - 12:09 pm
(Link)
Если бы вы читали, что я тут понаписал, то увидели бы упоминание об OCR в djvu.
[User Picture]
From:[info]chva
Date:August 21st, 2005 - 01:30 pm
(Link)
Извиняюсь, не прочитал целиком. Остановился на « затрачивая на это времени не больше, чем на ксерокопирование». Я не одну книгу подготовил в электронном виде, поэтому знаю, что с такой скоростью нельзя получить нормальный распознанный текст (по крайней мере, в технической литературе). Кстати, а для чего нужно сохранять оригинальные страницы??? Для всех целей, на мой взгляд, достаточно сохранять одни только номера страниц. Тут, конечно, есть о чём поспорить, но я не считаю, что электронная книга должна быть копией бумажной. После долгих метаний я лично остановился на формате HTML, потому что его можно читать везде и всюду. PDF больше дежавю, но зато гораздо более распространён, поэтому часть книгу я делал в нём.
[User Picture]
From:[info]hvil
Date:August 21st, 2005 - 01:40 pm
(Link)
Нормальный OCR с такой скоростью сделать нельзя. Достаточный для поиска и в некоторых случаях копирования - можно. При этом, поскольку страница остается такой, как она была в книге, неполноценный OCR не вредит собственно чтению. Если нужно скопировать много текста, что бывает не так уже часто, можно распознать часть файла djvu повторно.

Оригинальные страницы нужно сохранять во-первых, в целях эстетических, во-вторых, книгу тогда можно распечатать именно так, как она была сверстана, в-третьих, если мы имеем дело со сложным макетом страницы, включающем иллюстрации и особые шрифты.

Если у вас есть время, чтобы делать html, то я вам завидую.

Логику с распространенностью я не понимаю.
From:(Anonymous)
Date:August 21st, 2005 - 02:07 pm

ivangogh

(Link)
Оффтоп

Ты не знаешь, как переводиться у нас с английского compositionalism?

Иногда в контексте его противопоставляют функционализму. В данном же случае речь идет о Локке. Похоже, что это у нас называется ассоцианизмом, но уверенности у меня нет.
[User Picture]
From:[info]hvil
Date:August 21st, 2005 - 02:25 pm

Re: ivangogh

(Link)
В сементике, насколько я понимаю, композиционализм - это идея, согласно которой, значение предложений определяется исключительно значением слов, которые в нем используются, и их структурой: значение предложения - фунцкия его элментов. И противопоставляется это контекстуализму.

И еще, я сейчас посмотрел: когда композиционализм противопоставляется функционализму, то речь идет о философии биологии. Функционалисты считают, что человек часть природы, а композицитоналисты - что человек нечто внешнее по отношению к ней. (http://print.google.com/print?id=hs21xf0yPO4C&pg=PA34&lpg=PA34&prev=http://print.google.com/print%3Fie%3DUTF-8%26q%3Dcompositionalism%2Bfunctionalism%26btnG%3DSearch&sig=30QbN8gbDqJgOJh1DI2AUqcKGRM)



[User Picture]
From:[info]latexzapal
Date:August 21st, 2005 - 05:59 pm

замечательно!

(Link)
Спасибо за инструктаж.
У нас такая проблема стояла с ценными дипломными работами, сделанными до эры компа. Теперь кафедра может спать спокойно.
From:(Anonymous)
Date:August 21st, 2005 - 06:09 pm

ivangogh

(Link)
Хм, спасибо. Про биологию я уже сам глянул. Значит так и переводят - композиционализм?

Поясню, тут контекст про Локка. Обыкновенно, в тех пунктах, где Айерс говорит о композиционализме, у нас вроде как говорили об ассоцианизме.

Щас еще в stanford encyclopaedia гляну. Статья states of affairs

Ага. Глянул. Видно так и придется переводить. Калькой.
From:(Anonymous)
Date:August 21st, 2005 - 11:08 pm
(Link)
К сожалению, когда e-book'ов довольно много, то обязательно потребуется полнотекстовой поиск по ним всем сразу, но почти никакие поисковые программы не поддерживают djvu. А вот pdf сколько угодно.
Так что сэкономишь на размере, потеряешь на удобстве работы.
[User Picture]
From:[info]hvil
Date:August 22nd, 2005 - 07:42 am
(Link)
Очевидно, что если книг в djvu будет много, то появится и поиск. И вообще, дело не в размере: графический pdf просто ужасен.
From:(Anonymous)
Date:August 22nd, 2005 - 10:51 pm
(Link)
Ну если графика. В "моих" книгах она редкий гость :)
[User Picture]
From:[info]hvil
Date:August 23rd, 2005 - 05:12 am
(Link)
Я не совсем понял. Графики нету и вы сохраняете в текстовом формате? Делаете OCR и не проверяете? Или тратите по несколько дней на проверку?
[User Picture]
From:[info]schloenski
Date:August 30th, 2005 - 11:47 pm
(Link)
Спасибо за ссылки! Поставил себе пятую версию Document Express Editor. Английский текст распознаёт прекрасно, а русский -- очень плохо, даже после того, как я выбрал русский в Preferences.

У меня тут чего посканить в основном английское, но русское тоже есть интересное, так что хотелось бы научиться и русское распознавать.

Как у Вас было с распознаванием русских текстов?
[User Picture]
From:[info]hvil
Date:August 30th, 2005 - 11:50 pm
(Link)
Теоретически есть возможность использовать OCR из FineReader - есть специальная программа для этого, сделанная каким-то умельцем. Но я этим не занимался, потому что качестве OCR хоть и плохое, но все-таки достаточное для поиска. А больше, по-моему, ничего и не надо.
[User Picture]
From:[info]schloenski
Date:August 30th, 2005 - 11:53 pm
(Link)
Какое-то оно у меня черезчур плохое...

Ну да посмотрим, что можно сделать.
From:(Anonymous)
Date:March 12th, 2006 - 08:36 pm

vaf

(Link)
Спасибо, завтра попробую.
From:[info]shiro_ta
Date:September 12th, 2007 - 11:55 am

Re: vaf

(Link)
А если книга редкая и обращаться с ней надо бережно, тогда что,м?))
мне кажется,сканирование должно осуществляться специальным книжным сканером. ИМХО, ага.
[User Picture]
From:[info]aspirantus
Date:December 4th, 2007 - 11:58 am
(Link)
А можно этот текст скопировать в http://anticopyright.ru/ ? на условиях лицензии GFDL

Мы там хотим всякие такие руководства собрать.
Powered by LJ.Rossia.org