Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет rusec ([info]rusec)
@ 2007-07-15 00:33:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Определение автора

Взято c Либрусека. Комментарии приветствуются.

Доделал в общих чертах интерфейс редактирования базы библиотеки.

База большая, работы много, желающие поучаствовать ожидаются с нетерпением.


Наткнулся на забавность.

Есть два автора, Алексей Николаевич Толстой и Алексей Константинович Толстой. Большинство их произведений приписано третьему - Алексей Толстой.

Как с этим богатством разбираться - решительно непонятно.



(Добавить комментарий)


[info]alexx40in@lj
2007-07-15 03:03 (ссылка)
Вимо, только вручную? Дргого выходя я не вижу...

Вообще, меня всегда поражала одна вешь - человек готов потратить уйму времени на сканирование, вычитку и т.п. но лишние пять минут на правильное заполнение полей - нет.
Видимо, въелось русское "так сойдет".

Кстати, тут мысль возникла - а не приспособить ли тебе программу FB2 Librarian (ftp://ftp.fictionbook.org/pub/files/fb2lib.1.2.4.0.rar) для ведения библиотеки?

(Ответить) (Ветвь дискуссии)


[info]rusec@lj
2007-07-15 03:17 (ссылка)
FB2 Librarian
Оно под линуксом работает? В режиме веб-сервера?
Оно умеет много пользователей одновременно?
Оно позволяет редактировать информацию в базе разным людям? С логами и откатами, с гибкой раздачей прав?
Оно умеет что-то, что не FB2? Pdf там, djvu?
Оно умеет редактировать книги? С учетом, кто какие изменения внес и опять же откатами?

Если да по всем пунктам, то посмотрю. Если нет хотя бы по одному - зачем оно мне? Дурное это занятие, чужой софт приспосабливать, если он для другого писался.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]alexx40in@lj
2007-07-15 03:21 (ссылка)
Для другого и большинство из перечисленного не умет

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]rusec@lj
2007-07-15 03:37 (ссылка)
Я так и думал.
Так что придется мне самому всё делать.
Ненавижу php!

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]alexx40in@lj
2007-07-15 03:56 (ссылка)
Да уж...
Вообще, твой подход мне нравится - сначала все книги добавил, а потом начал библиотеку делать :) Смело.

Кстити, из чего состоит библиотека? Книги альдебарана и фикшенбука войдут?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]rusec@lj
2007-07-15 04:12 (ссылка)
А как иначе?
Сначала набираем пробную базу, сотню тысяч книжек, чтоб было на чем скрипты тестировать. На более-менее реальных объемах интереснее.
Потом можно будет добавлять ещё. Думаю, до миллиона книг доведу за пару лет.

Вошли уже, включая те, которые оттуда давно сняты.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]alexx40in@lj
2007-07-15 04:29 (ссылка)
Ого, не мелочитесь вы :)
Кстити, попутный вопрос, если еще не надоел, конечно... Я сейчас как раз заказываю зеркало альдебарана с торрента (в нашей деревне приличного интернета чтобы скачать самому не будет еще очень долго). Но там зеркало достаточно старое - на октябрь 2006-го, да и файлы все переименованы, не понятно как с ними дальше работать и обновлять... К вам-то, нормальное попало? Ну и линк бы, если попало... :)
Кстати, а фтп-доступ будет?
И еще - художественная литература это, конечно,хорошо, но настоящую ценность лично для меня представляет техническая. Как я понял, будут представлены все форматы? Т.е вполне реально в итоге получить что-то вроде natahaus.ru? Если это так, то подход к нехудожественно литературе гораздо сложнее в плане именования файлов и информации в базе. На тематических форумах давно копья ломают по этому поводу...

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]rusec@lj
2007-07-15 14:00 (ссылка)
Нормальное мне один добрый человек на ftp залил. Вместе с фикшином.
линк - ftp://ocr\@librusec.net:newbook@lib.rus.ec/Aldebaran/

Фтп доступа, видимо, не будет. Но какой-то способ групповой выкачки сделаю.
С какими-то фильтрами - не думаю, что кому-то нужно полное зеркало (оно уже больше ста гиг, а это еще только начало...)

В чем поблема именования файлов я не понимаю. Хоть по номерам.
Это может быть важно для локального библиотекаря, а как оно устроено на сайте, никому не важно.
С точки зрения базы тоже разницы нет - авторы, названия, жанры. Все тоже самое. Чего там ломать? Надо бы почитать тематические форумы... Или свой сделать.

По части нехудла глянь http://lib.rus.ec/ge?computers для примера. Там много:)

Сходил на natahaus. Я так понял, что у неё все лежит на рапиде? На мой вкус, не самое удобное решение. Может быть, попробую с ней договориться о размещении книг на либрусеке, а на натахаусе давать прямые ссылки. Так будет удобнее. Надо подумать.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]alexx40in@lj
2007-07-15 15:13 (ссылка)
На фтп пролез, но там до буквы "П" Да и нужно было одним куском, с мелкими тот человек, что будет скачивать, возиться не будет. Но, все равно, спасибо за отзывчивость.
С нехудлитом все сложнее... Если в художественной литературе достаточно знать имя автора и название книги, то в технической больше важна область знаний и другие критерии.
Впрочем, я этим вопросмо не очень владею, тебе бы с "колхозниками" пообщаться, они целую систему выработали. И вот здесь как раз в данный момент обсуждают: http://forum.ru-board.comtopic.cgi?forum=93&topic=1615&start=1660
Народ у нас в книжных делах очень опытный, может и скооперируемся ;)

С натахаусом не уверен, вполне возможно у них будет свое файлохранилище... В любом случае, предложить стоит, имхо. Кстати, организация информации на сайте довольно удачная, на мой взгдяд

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]rusec@lj
2007-07-16 18:53 (ссылка)
Это прикол хостера - ftp дает в листинге до 2000 позиций.
При работе ручками или скриптами это не мешает, а фтп-клиенты могут не понимать, что надо запрашивать не * а [Рр]* например.

Попробуй http://lib.rus.ec/node/53/ если уж так хочется всего и сразу.
Осторожно! 100 гиг!

(Ответить) (Уровень выше) (Ветвь дискуссии)


(Анонимно)
2007-07-17 17:07 (ссылка)
посмотрел на генерилку всего списка. Сложновато для практического применения - ссылку на файл надо доставать из скобок, да и фамилии автора нету. Пусть будет csv - прямо в базу залить, отобрать только нужное и сгенерить список для вгета - очень просто. Может прямо сюда вставить создание csv файла, как мы обсуждали? По-моему, так более практично. Ну и если в запрос добавить дату, то можно будет генерить список для новинок. Тоже полезно. Я понимаю, что хотелок много, а ты один, так что не спешу...

wbr, kv.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]rusec@lj
2007-07-17 19:30 (ссылка)
Даты, к сожалению, практически бесполезны - больше половины библиотеки было добавлено в базу в один день, основная часть остатков - еще в три. Со временем сделаю, как накопится.
Пока сделал выдачу отсортированной, свежее сверху. Должно помочь.

Выдача в виде html-ссылок должна быть удобна для засовывания в download-менеджеры, тот же wget её вполне понимает. И ничего генерить не нужно.

Я на данном этапе с сомнением отношусь к идее массовой скачки с либрусека. Слишком пока ешё много дублей, несколько тысяч книг с непроставленными авторами, и т.д. Сейчас, наоборот, этап массовой закачки:). Но раз уж народ хочет ходить wget-ом - пусть будет. Хоть минимально отфильтрованно.

csv как мы обсуждали генерировать затратно для процессора. У меня на хостинге жесткая cpu-квота, приходится процессор экономить. Генерация этого csv квоту превышает, сайт на 5 минут отключается. Я лучше раз в месяц буду делать полный csv и выкладывать отдельным файлом. Во всяком случае, пока не решусь хостинг поменять.

Упрощенный csv можно будет попробовать. Подумаю. Но он получится сильно упрощенным, не многим лучше существующего списка ссылок. Оно надо?

(Ответить) (Уровень выше) (Ветвь дискуссии)


(Анонимно)
2007-07-18 03:56 (ссылка)
==============Даты, к сожалению, практически бесполезны
я имел в виду исключительно для новинок.
==============csv как мы обсуждали генерировать затратно для процессора
понятно.
==============Упрощенный csv можно будет попробовать.
в принципе достаточно ссылку, название и пару первых авторов. Чтоб отбирать можно было. А то в теперешнем списке только названия.

wbr, kv

(Ответить) (Уровень выше)


[info]rusec@lj
2007-07-16 21:03 (ссылка)
что-то у меня ссылка на форум не открывается...

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]alexx40in@lj
2007-07-17 02:05 (ссылка)
Вот общий книжный форум форум: http://forum.ru-board.com/forum.cgi?forum=93

Электронные книги - сканирование ,обработка и тп.:http://forum.ru-board.com/topic.cgi?forum=93&topic=1615&start=1660#lt

Да, регистрация на форуме необходима

Основные обсуждения там идут, но могу создать тему именно для твоей библиотеки. Надо только сформулировать темы для обсуждения. А потребность есть - людям, занимающимся сканированием и обработкой давно нужно место, являющееся центром, где аккумулируются все доступные книги. Есть еще и дополнительные задачи, как то отслеживание - что в данный момент делается, разделение этапов работы и т.п. Это все следствие сложности изготовления нехудлита - в разы сложнее, чем ходожественная литература, да и поиск источников - большая проблема.

По книжкам - спасибо большое за помощь, закажу таки с торрента :)

(Ответить) (Уровень выше) (Ветвь дискуссии)


(Анонимно)
2007-07-17 04:50 (ссылка)
Да, потребность есть. Только не все так запущено. Вон у Ершова по этому поводу идет жизнь. http://publ.lib.ru/cgi/forum/YaBB.pl Только там литература скопом и художка и техническая и периодика.

Но в любом случае, обсуждение - это одно, а инстумент хотя бы для учета - это на порядок сложнее. Может действительно изучить опыт http://gigapedia.org/, куда на форуме ссылаются?

alexx40in, по поводу альда могу поделить прогой, что все вытаскивает сама.

wbr, kv

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]alexx40in@lj
2007-07-17 05:43 (ссылка)
На данный момент вытаскивать с альда нет никакоего смысла - много чего удалили или заменили демами. Нужеен именно полный архив во всеми удаленными книгами.
По поводу опыта - тут скорее Колхоз

(Ответить) (Уровень выше) (Ветвь дискуссии)


(Анонимно)
2007-07-17 11:59 (ссылка)
удаленное есть отдельно. всего 548 наименований. проверил - большинство на lib.rus.ec есть. А насчет демок - пример можно, я в апреле качал, надло посмотреть, а то может накачал черти-чего.

Насчет колхоза - на фтп бросил список и еще там есть - махмат, см. каталог listing. Если отобрать нужное, то можно попытаться залить. Только все скопом я не смогу - там объемы не детские.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]alexx40in@lj
2007-07-17 12:06 (ссылка)
Посмотри Андрея Ливадного. Я проверил "Бремя воина", но и большинство остальных тоже должны быть демками

(Ответить) (Уровень выше) (Ветвь дискуссии)


(Анонимно)
2007-07-18 10:51 (ссылка)
здесь нормально. Весь Ливадный - в удаленных:)А еще?
wbr, kv

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]alexx40in@lj
2007-07-18 12:01 (ссылка)
А больше пока не знаю :)

(Ответить) (Уровень выше)


(Анонимно)
2007-07-17 17:31 (ссылка)
Если речь идет о самом полном архиве художки на дисках, то на сегодня это бук-либ. Художки там порядка 55К. Правда форматы все больше тхт, иногда rtf. Ну и еще мне там старые журналы нравятся - поностальгировать:) Найди где общаются по этому сборнику, вполне возможно, что по почте пришлют. Я так начал. И сам отправляю, только не в Россию - заграница:)

Русек, сорри за невольную рекламу, ты как, посмотрел на ихние обновления? Особенно, если к тамошним тхт прикрутить твою конвертилку в фб2, то получилась бы вообще песня. Конечно, ручное есть ручное, ну дык для первой версии вполне годится. А потом уже вручную править - для любителей.

wbr, kv


(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]rusec@lj
2007-07-17 18:04 (ссылка)
Я пока бибилиотеку доделываю. Вот, сегодня сделал возможность выкачать всего автора одним файлом, или выбрать несколько книг.
Как разберусь с базовой функциональностью - займусь всерьез заполнением.

(Ответить) (Уровень выше)


[info]alexx40in@lj
2007-07-18 03:02 (ссылка)
Смысла в конвертировании не вижу никакого. Фб2 нужны либо с обложкой, содержанием, аннотацией, либо вообще не нужны, ибо смысла в них никакого

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]rusec@lj
2007-07-18 03:19 (ссылка)
Не видишь? А он есть.
Если ты мне вольешь тысячу fb2, пусть даже без аннотаций и обложек (я как раз не вижу смысла в обложках. Картинки внутри книги бывают нужны, а обложки имхо совершенно бесполезны. А объем - удваивают, к книге часто отношения практически не имеют) то я их разгребу где-то секунд за десять, + время на распаковку зипов.
Если же тысячу txt.rar - то непонятно, что с этим делать вообще.
FB2 - это стандарт хранения метаинформации в первую очередь (авторы, жанры и т.п.) Он не очень хорош, соглашусь, но другого - нету. Засовывать всё необходимое в имя файла - несерьёзно. Какие еще варианты? Прописывать ручками для каждой книжки? И так тысячу раз?
При этом сделать из fb2 хоть txt, хоть html - элементарно. Берешь fb2toany или просто xlt, и вперед. Только непонятно зачем.
Вот ты мне программу-библиотекаря рекламировал. Какие файлы в неё проще импортировать?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]alexx40in@lj
2007-07-18 03:42 (ссылка)
Несколько некоректно я выразился :)
Я не вижу смысла заливать библиотеки целиком - наверняка для большинства книг будет аналог в фб2
В любом случае, я хотел это пояснить, но сервер ошибку выдавал.
А насчет формата согласен, лучше него для худлита нет.
И Библиотекарь за считанные минуты формирует базу на десяток тысяц книг - а мою старую библитеку я несколько лет вручную обновлял, труда потратил массу.
Насчет обложек - мы с разных позиций к этому подходим. Я даже для технических книг обложки делаю, потому как легче потом вспомнить, в какой книге я нужную информацию видел. Да и прсто приятно...
А вот еще один важный вопрос - как не-фб2 добавлять в твою билиотеку-то? Там полей нету... Может, при добавлении новости сделать форму с обязательными полями и загрузкой файла? Тогда и имя файла можно формировать и в базу добавлять...
И еще - на отдаленное будущее... :) хорошо бы программу-билиотекаря к твоей бибилотеке :) Чтобы загрузить раз в неделю/месяц обновление базы и уже на компе просматривать, искать и т.п. И с сайта нагрузку от выполнения разных запросов снимет, и в оффлайне можно будет пользоваться, траффик опять же... Если глупрость сказал, извини, я больше по чертежам и железкам, в компьютерных технологиях разбираюсь слабо...

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]rusec@lj
2007-07-18 04:03 (ссылка)
Я как раз сейчас пишу модуль добавления книг. Через час-другой доделаю.
Там будет формочка для ввода всего чего надо. Завтра потестируем.

Свою программу-библиотекаря я не потяну. Я более склоняюсь договорится с авторами имеющихся, чтоб они могли засасывать список в удобном для них виде, и уже дальше сами как-нибудь. Это да, стоит в планах.
Не люблю делать то, что уже сделано кем-то. Это увеличивает энтропию вселенной.
Я лучше сделаю только сайт, но - самый самый. А программ и без меня понапишут.
Разве что клиентик для добавления сваять - чтоб прописал все что надо, а потом одним архивом влил кучу книг. Об этом подумаю. Может быть. Когда нибудь. Или это должна быть функция библиотекаря?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]alexx40in@lj
2007-07-18 04:56 (ссылка)
В люмом случае, это вопрос отдаленного будущего. А в библиотекаре хорошо бы такую функцию...
По поддержке в существующей... Ну не знаю, вообще-то он на форуме фикшенбука обретается, да и дистрибутивы там же.А зная твои отношения с фикшенбуком... Прочем, была бы библиотека, а найти желающего написать к ней программу гораздо проще.
Клиентик... Я думаю, что было бы удобнее делать это из библиотекаря - не дублируются функции. В настройках прописываем логин-пароль и заливаем одним кликом любую книгу из библиотеки, к примеру только что скачанную с другого ресурса и добавленную в библиотеку...Вот это будет очень удобно.

(Ответить) (Уровень выше)


(Анонимно)
2007-07-18 04:05 (ссылка)
============Если же тысячу txt.rar - то непонятно, что с этим делать вообще.
из бук-либа - без проблем. Там кроме самих текстов есть еще база. И вся доп.информация хранится там. Конечно, там поменьше, чем предусамтривает фб2, например, нету версий, идов документов и т.п., ну дык жанры и аннотации - вполне возможно. Конечно, покопаться придется, чтобы формат базы понять, ну дык там ничего сложного нет - тот же csv.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]rusec@lj
2007-07-18 04:45 (ссылка)
с буклибом я ещё покопаюсь. Надеюсь.
55К книжек уже отсортированных - заманчиво. Очень.

(Ответить) (Уровень выше)