tiphareth: зачем нужен Геворкян

(Читать комментарии) - (Добавить комментарий)

yushi@lj
2005-04-06 23:54 (ссылка)

Проблема "не вообще" поиск организовать (в p2p сетях всё давно организовано: сервера, на которых хранятся контрольные суммы нужных файлов, и основанные на них (НЯМС) e2k ссылки — "всё уже украдено до нас"). Проблема в том, чтобы сохранить возможность существования гипертекста, т.е. хранение текстов по стабильным адресам, доступным (если это вообще возможно) без установки дополнительного софта, или по крайней мере без ощутимой границы между "обыкновенным" и "свободным" WWW.

Нельзя сказать, чтобы этой проблемой вообще не занимались (существует тот же FreeNet (http://freenet.sourceforge.net/)), например). Но пока все имеющиеся решения совершенно неудовлетворительны.

Примерное-то схема вполне понятно какая: клиент такой p2p сети может выглядеть как прокси-сервер, через который пользователь лазает по WWW. Когда пользователь кликает на ссылку, ведущую на лежащий в p2p-сети документ (представляющую собой, собственно, контрольную сумму документа), прокси утягивает из p2p-сети этот документ и отдаёт пользователю. Однако обеспечить стабильность (прежде всего!), скорость и реальную анонимность такой системы пока не удалось никому.

(Ответить) (Уровень выше) (Ветвь дискуссии)

zimopisec@lj
2005-04-07 00:26 (ссылка)

Проблема не только в этом.
Хотя и в этом тоже. Но тут более-менее решено- уровень нынешних п2п сетей худо-бедно устраивает, жить можно.
Я о возможности полнотекстового поиска, индексации текстов и поиска по базе слов в п2п-сетях. Вот тут я не очень знаю, как подступиться. Либо как-то обьединять индексную базу, либо, наоборот, распределять запросы в каждую из активных нод и как-то обьединять результаты.

(Ответить) (Уровень выше) (Ветвь дискуссии)

yushi@lj
2005-04-07 01:22 (ссылка)

Объединение индексной базы потребует очень серьёзных ресурсов и увеличит уязвимость.

А какие проблемы возникнут при распределённом поиске?

Релевантность результатов? Должно отчасти решаться рейтингом добросовестности узлов по их открытым ключам (которые всё равно им понадобятся для организации роутинга по схеме наподобие той, которая использвуется в Tor (http://tor.eff.org/)).

Большое количество паразитного трафика из-за уже ненужных запросов? Должно лечиться ограничением времени, через которое ещё имеет смысл отвечать на запрос.

Невозможность достучаться до нужного документа из-за того, что запрос будут обрабатывать только ближайшие соседи? А если ввести минимальную категоризацию (например, запрос на русском языке направлять узлам, на которых лежат русскоязычные документы?). Или, опять же, элементы иерархии (пусть мощные узлы кешируют результаты удачных запросов, а им за это будут какие-нибудь бонусы)?

(Ответить) (Уровень выше) (Ветвь дискуссии)

zimopisec@lj
2005-04-07 02:42 (ссылка)

Стандартизировать форматы надо.
Единый агент, который и индексатор, и конвертор, и читалка, и искалка. Плюс все вышеперечисленное. Без жесткой стандартизации тут все бессмысленно.
Я уже начинал делать что-то подобное, так что представляю сложности именно с сетевой частью. И не очень представляю, как организовать иерархию для распределенного поиска даже по стандартизированным документам ( слишко много промежуточных этапов, все сработает при условии непрерывной работы большинства узлов, иначе начинает сбоить), а без стандарта - глухо вообще.

(Ответить) (Уровень выше) (Ветвь дискуссии)

yushi@lj
2005-04-07 03:51 (ссылка)

Стандартизировать форматы надо.

Ну, это очевидно. Ни одна из существующих p2p-сетей под это дело не подходит, иначе не было бы о чём разговаривать…

Единый агент, который и индексатор, и конвертор, и читалка, и искалка

Согласен, с единственной оговоркой — насчёт читалки. Всё-таки, ИМХО, найденные тексты должны отдаваться пользователю по http. Это позволит, во-первых, каждому читать тексты в удобной ему программе, а во-вторых, достичь максимально прозрачной интеграции с WWW (о чём, собственно, говорилось с самого начала). Кроме того, это позволит легко организовывать общедоступные шлюзы, которыми можно будет пользоваться, не устанавливая у себя программу-клиент. И пофигу, что их будут постоянно закрывать — алгоритм доступа к конкретному тексту-то не изменится…

Насчёт условия непрерывной работы — ну, понятно, что поиск будет реален только для многократно продублированной информации, но это уж общее свойство всех p2p-сетей, тут уж ничего не поделаешь.

(Ответить) (Уровень выше) (Ветвь дискуссии)

zimopisec@lj
2005-04-07 04:08 (ссылка)

С http трабл - именно в том, что слишком свободный формат и каждый будет корректировать неточный скан, неверную, по его мнению, разбивку и т.п. ручками. В результате расплодится миллион версий одного и того же. И все разлетится.

(Ответить) (Уровень выше) (Ветвь дискуссии)

yushi@lj
2005-04-07 09:33 (ссылка)

Ну, http != HTML. По http можно передавать хоть HTML, хоть plain text, хоть что. Другое дело, повторюсь, не хочется терять интеграцию с традиционным web; в идеале распределённая библиотека людям, работающим через наши прокси должна быть видна как набор обыкновенных веб-страниц (ради этого, напоминаю, и стоит мутить что-то новое, просто бесплатные библиотеки в p2p-сетях есть и так, и ещё много где помимо p2p-сетей). Для этого и нужна отдача документов по http. И желательно именно в HTML или, на худой конец, в plain text, чтобы, кликнув на ссылку, мы могли бы просмотреть текст тут же, в браузере, "не отходя от кассы".

O'k, предположим, HTML слишком свободен. Тогда что могло бы его заменить? Возможно, нечто на основе DocBook (http://en.wikipedia.org/wiki/DocBook) (кстати, это действительно идея)?

Но это, между прочим, не повод отказываться от того, чтобы клиент выглядел как прокси, через который пользователь смотрит весь веб вообще. Наоборот, это позволило бы конвертить наш высокостандартизованный формат =) в HTML на лету, сохраняя прозрачную интеграцию с WWW.

Особенно, если стандартный формат действительно клепать на DocBook. В современных *nix'ах тогда преобразование в human readable вид вообще можно будет осуществлять стандартными утилитами, которые уже есть в каждом дистрибутиве Linux и *BSD; мастдай я знаю хуже, но, видимо, обработка XML и там сильно ушла вперёд со времен Win98. Говорят, даже формат свежего M$ Office — XML-based. Так что тоже, небось, всё нужное уже есть.

Правда, создание спецификаций формата, руководствуясь которыми два разных человека, исходно имея на руках по нераспознанной бумажной книжке, получали бы в итоге одинаковые или по крайней мере несущественно различающиеся файлы — это если и не утопия, то, по крайней мере, очень неслабая задача.

(Ответить) (Уровень выше) (Ветвь дискуссии)

zimopisec@lj
2005-04-07 09:54 (ссылка)

Кстати, еще одна идея туда же. Чековая сумма вычисляется в процессе индексирования. Таким образом, в оную входят только слова- пробелы, переносы, знаки препинания исключаются. То есть правильно распознанный текст становится идентичен свлему собрату независимо от форматирования.

(Ответить) (Уровень выше) (Ветвь дискуссии)

	yushi@lj 2005-04-07 21:30 (ссылка)
	"О!"© =) Да, это действительно выглядит разумной идеей. (Ответить) (Уровень выше)

(Читать комментарии) -