Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет Журнал Витуса. ([info]lj_vitus_wagner)
@ 2020-10-27 05:13:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Электнонно-книжное

В последнее время что-то флибуста стала регулярно недоступной - и черед Tor, и через немецкий IP. Поэтому собрался и выкачал ее очередной архив из торрентов.

В процессе выяснил, что года четыре назад я уже предпринимал такую же операцию и примерно две трети нынешнего архива флибусты у меня уже лежало на диске неразобранным.

Сейчас я пропустил весь архив через свой скрипт и теперь у меня есть каталог с 600 электронных книг рассортированных по авторам и сериям, каждая книга в отдельном файле. Занимает 265Гб.

Правда нашлось 3 с небольшим тысячи книг (чуть больше полпроцента) с которыми мой скрипт не справился. Сюда входят файлы,

  • у которых в заголовке прописана версия FictionBook 2.1 (ну это надо скрипт слегка поправить, вон Doublin Core я аж три версии поддерживаю)
  • у которых название книги не влезает в ограничения файловой системы на длину имени файла (а я уж и забыл, что эти ограничения есть)
  • у которых совсем не заполнена метаинформация в заголовке
  • в которых вообще не well-formed XML.

Естественно, большая часть таких книг имеют номера из первой сотни тысяч. Потом на флибусте валидатор прикрутили, и уж совсем не well-formed проходить перестал.

И для большей части этих книг в библиотеке уже есть более новые, более правильные копии. Поэтому прежде чем пытаться исправлять fb2 файл, надо посмотреть, а не сделал ли уже это уже кто-то из пользовтелей флибусты.

Правда, есть еще больше файлов про которые скрипт решил, что он с ними справился, а это неправда (например перепутана имя и фамилия автора, или фамилия автора написана одними большими букваи, или вместо фамилии автора прописан юзернейм пользователя конвертера).

This entry was originally posted at https://vitus-wagner.dreamwidth.org/2198273.html. Please comment there using OpenID. Now there are Image comments


(Читать комментарии) (Добавить комментарий)