r_l: Переходник "сеть-бумага"

Переходник "сеть-бумага"
Вот какой-то из последних вариантов (его надо подработать в направлении вебдваноля, конечно), невычитанный:
ПРОБЛЕМА

Все исследователи, сталкивающиеся с необходимостью использовать в своих "бумажных" публикациях материалы, опубликованные в
www, знают, что главным препятствием является текучесть и нестабильность онлайн-публикаций. Иногда изменяется адрес, по
которому размещен документ, иногда нужный текст вовсе становится недоступным, иногда его содержание меняется.
Согласно статистике, "средняя продолжительность существования web- страницы колеблется от 44 дней до двух лет"
(http://www.elbib.ru/journal/2003/200303/VP/VP.ru.html - ссылка оставлена для иллюстрации идеи, можете туда не тыцкать, 404, натурально).
В результате создается парадоксальное положение - материалов, размещенных в интернете, становится все больше, но их статус
приближается к статусу устной беседы. Речь идет, подчеркнем сразу, о двух типах интернет-материалов:
- об исследовательских публикациях в онлайн-изданиях, необходимых как _элементы историографии_;
- и о публикациях в интернете, служащих непосредственно _материалом_ для исследований (в первую очередь следует назвать
такие области, как лингвистика, культурология, литературоведение, психология и политология).

СУЩЕСТВУЮЩИЕ ВАРИАНТЫ РЕШЕНИЯ

Разумеется, исследователь, обращающийся к сетевым публикациям, может сохранять у себя копии страниц, на которые он
ссылается. По требованию читателя эта страница может быть ему предъявлена, но жесткие диски (и - увы - их хозяева) не вечны,
а невозможность унифицированной ссылки делает этот вариант неприемлемым с точки зрения эдиционной практики.
Существующие архивы (прежде всего, я имею в виду archive.org) выборочны; кроме того, с ростом популярности archive.org
(неизбежным вследствие накопления сетевой энтропии) нагрузка на сервер будет возрастать, а стабильность его работы -
снижаться.

ПРЕДЛАГАЕМЫЙ ВАРИАНТ РЕШЕНИЯ

Выходом из создавшейся ситуации может стать создание универсального Архива, пополняемого _по запросам исследователя_. Этот
Архив может функционировать в виде распределенного ресурса на www, возможно также создание специального протокола с
распределенными серверами (на манер nntp).
Пользователями Архива являются исследователи, прошедшие регистрацию и получившие право сохранять внутри Архива копии
запрошенных страниц. Каждой странице присваивается уникальное универсальное архивное имя, которое и становится "адресом"
данного текста в www. При архивировании к документу добавляются следующие сведения: (1) исходный адрес страницы; (2) дата
архивирования; (3) имя пользователя, запросившего копию и тема его работы, для которой запрошена копия страницы.

ТЕХНИЧЕСКИЕ ПОДРОБНОСТИ (решение для www)

1. Архив существует исключительно для унификации и стабилизации ссылок в "бумажных" публикациях.
2. Архив не обеспечивает сохранения платных ресурсов, а также электронных копий традиционных изданий. При архивировании
исключительное внимание обращается на содержимое файла robots.txt на данном сайте. Требования убрать из Архива документы не
удовлетворяются, если на момент архивирования они не были внятно сформулированы держателями страниц. Стандарты
соответствующих требований уточняются. (В свете текущих событий понятно, что уточняться они могут довольно долго, но все же
академия - не бельгийские перепродавцы воздуха, так что серьезных затруднений я не предвижу. - 2.11.2006.)
3. Регистрация бесплатна. Каждый пользователь получает свою директорию внутри Архива, в которой сохраняются копии
запрошенных им страниц. При регистрации обязательно указать свое имя, адрес, область интересов, статус в академическом
сообществе (студент и независимый исследователь, разумеется, входят).
4. При конкретном запросе следует указать тему, работа над которой требует архивирования веб-ресурсов и приблизительные
сроки выхода работы. После истечения этого срока пользователю высылается напоминание с просьбой заполнить форму с описанием
публикации (или продлить срок ожидания). По истечении критического количества сроков ожидания Архивная копия становится
временно недоступной и активируется только после сообщения пользователя о публикации исследования. (В принципе, это форма
перестраховки, тянуть можно долго, гуманитарии, которые, в основном будут аудиторией ресурса - не торопыги, по себе знаю. -
2.11.2006.)
5. Стандартная форма Архивной единицы - текст без графики (со ссылками на графические файлы оригинала). Пользователь может,
однако, запросить копию с графикой.
6. Архивация бинарных файлов в форматах .doc, .rtf, .pdf и т.п. производится на общих основаниях. Документам, находящимся
в открытых на момент архивирования ftp-архивах присваиваются уникальные архивные имена наряду с документами, доступными по
протоколу http.
7. NB! Оптимальной формой обратной связи было бы (добровольное и необязательное) предоставление пользователем Архиву
электронной копии своей завершенной работы, содержащей ссылку на Архив (или ссылки на электронную публикацию текста
исследования). Это позволило бы Архиву стать одновременно библиотекой исследовательских текстов. Тут важны были бы
переговоры с издательствами, запрещающими авторам свободное распространение копий в электронном виде, хотя я, по опыту
договора с "Эльзевиром" (известным своей строгостью) такого пункта не помню, но мало ли чего. В этом направлении, кажется,
думать интереснее всего, все остальное - довольно простая техническая работа.
8. Оптимальным итогом проекта было бы утверждение ссылок на Архив в качестве основного стандарта для бумажных изданий,
содержащих ссылки на www (оригинальный адрес+адрес в Архиве - один из вариантов).

(Добавить комментарий)

	dimrub@lj 2007-12-13 08:45 (ссылка)
	Хорошая идея. (Ответить) (Ветвь дискуссии)

dimrub@lj
2007-12-13 08:46 (ссылка)

Разумеется, не решает некоторых проблем. Как то, "кто следит за сторожем" (кто в сомнительных случаях поручится за тем, что владельцы сервиса не изменяют в своих целях сохраняемый контент) и главной проблемы - что будет, если грохнется сервер, фирма разорится и т.п.

(Ответить) (Уровень выше) (Ветвь дискуссии)

	9000@lj 2007-12-13 09:03 (ссылка)
	1. После помещения в архив делается SHA1-подпись, которую можно везде публиковать при желании. Позволит всегда заметить факт модификации. 2. Делать зеркала, натурально. (Ответить) (Уровень выше) (Ветвь дискуссии)

dimrub@lj
2007-12-13 09:05 (ссылка)

1. После помещения в архив делается SHA1-подпись, которую можно везде публиковать при желании. Позволит всегда заметить факт модификации.

Где это - везде? На бумаге? А если не на бумаге, то зачем?

2. Делать зеркала, натурально.

Вот, да.

(Ответить) (Уровень выше) (Ветвь дискуссии)

	9000@lj 2007-12-13 09:10 (ссылка)
	Можно и на бумаге мелким шрифтом. Чисто на всякий случай. Можно вообще сделать так, чтобы хэш был частью URL-а, но это длинно слишком. (Ответить) (Уровень выше) (Ветвь дискуссии)

dimrub@lj
2007-12-13 09:12 (ссылка)

Можно и на бумаге мелким шрифтом. Чисто на всякий случай. Можно вообще сделать так, чтобы хэш был частью URL-а, но это длинно слишком.

То есть, отказ от централизованной модели доверия. Ну, можно и так, хотя с оной моделью все же как-то проще было бы.

(Ответить) (Уровень выше) (Ветвь дискуссии)

	9000@lj 2007-12-13 09:26 (ссылка)
	Ну, либо доверие, либо паранойя. (Ответить) (Уровень выше)

	r_l@lj 2007-12-13 13:14 (ссылка)
	Ну, я не случайно первым прописал вариант с аналогом nntp. Но решается и за счет зеркал, конечно. (Ответить) (Уровень выше)

9000@lj
2007-12-13 09:06 (ссылка)

Идея здравая.

Если разрешать регистрироваться там немодерируемо (т.е. достаточно смутно доказать, что ты человек, как на форуме), то надо вводить квоты, наверное. Скажем, не более стольки-то мегабайт в месяц, и не более стольки-то суммарно.

И, конечно, популярные публикации повторно закачивать не придётся.

(Ответить) (Ветвь дискуссии)

r_l@lj
2007-12-13 13:21 (ссылка)

Ну да, но это же все - сугубо под академию проект. Ну не полезут туда гоблины. Опыт показывает.
А повторно можно и закачивать. Там самое интересное - как раз то, что можно на этой базе построить на дваноль.
Но и практически такая штука по зарез уже нужна.

(Ответить) (Уровень выше)

neuraum@lj
2007-12-13 09:10 (ссылка)

Или просто конгресс США должен обязать NSA дать науке доступ к своим серверам. Наверняка там все лежит - рассортированное, каталогизированное и с историей.

Я не ерничаю. Так - просто идея. В перспективе можно даже таким образом ссылаться на телефонные разговоры с коллегами :)

(Ответить) (Ветвь дискуссии)

	zigel@lj 2007-12-13 12:58 (ссылка)
	и верно (Ответить) (Уровень выше)

	r_l@lj 2007-12-13 13:16 (ссылка)
	Нет, не все. Форумы и чаты никто не копирует. Между тем, они часто - незаменимый материал. (Ответить) (Уровень выше) (Ветвь дискуссии)

	neuraum@lj 2007-12-13 13:20 (ссылка)
	Ваш коммент уже наверняка переведен на английский сотрудниками NSA :) (Ответить) (Уровень выше) (Ветвь дискуссии)

	r_l@lj 2007-12-13 13:24 (ссылка)
	Уверяю Вас, нет. Опыт показывает, что на самом деле все гораздо хуже, чем в любой конспирологической антиутопии. Всюду бардак. (Ответить) (Уровень выше)

gadyuka@lj
2007-12-13 10:16 (ссылка)

Интересно.
Возникает вот какой ньюанс: если некто захочет сослаться на архивную копию, помещенную кем-то другим, а этот кто-то другой протупит по срокам ожидания, то мы получим то же, что имеем и сейчас в обычном интернете. Если же нашему некту придется делать свою архивную копию того же самого, то это будет дублированием (в потенциале - многократным) информации, что есть не очень хорошо.
Ну и вопрос правообладания на домен и "базу данных" (в терминах закона об авторских правах) тоже представляет собой немалый ньюанс.
А вообще, этим вполне можно было бы заняться... в смысле реализацией подобного проекта.

(Ответить) (Ветвь дискуссии)

	r_l@lj 2007-12-13 13:17 (ссылка)
	Копия будет в любом случае сделана в другое время, а дублей бояться особо не следует. Это - очень необходимый сервис, но массового нашествия туда не будет. (Ответить) (Уровень выше) (Ветвь дискуссии)

gadyuka@lj
2007-12-13 16:08 (ссылка)

Если массовое нашествие не ограничить чем-либо, то оно, несомненно, будет. Отсюда... впрочем, и не только отсюда, вытекает еще масса вопросов. Пожалуй, нужно бы подготовить их список и обсудить. Где-нибудь сразу после НГ у меня, возможно, появится ресурс для подобной разработки.

(Ответить) (Уровень выше) (Ветвь дискуссии)

r_l@lj
2007-12-13 16:13 (ссылка)

Был бы очень признателен.
Насчет нашествия: по масштабам этот проект не очень глобален (даже если к нему, что было бы правильно, подключились исследователи всех стран и планет). Ну, глядите, какая-нибудь штука вроде ygrec.msk.ru - не испытывает же нашествия гоблинов? Потому что там им делать нечего.
Так и тут: бесплатных сайтов для хранения "фоток" и "прог" такое количество, что дети пустоты не полезут заполнять формуляры и сохранять страницы со скучными академическими описаниями.
В общем, это правда не проблема.

(Ответить) (Уровень выше) (Ветвь дискуссии)

gadyuka@lj
2007-12-26 13:15 (ссылка)

У меня выкроилось немного времени и сформулировались основные вопросы:

1. Какова модель финансирования ресурса, если не "ложиться под монстров рынка", а делать это своими силами? Скажем, я могу финансировать такой ресурс из своих средств в объеме затрат на хостинг и элементарную техподдержку. Но. Это я сейчас могу и хочу. А что будет, опять же, лет через пять, и буду ли я вообще лет через пять в живых - это вопрос. То же самое, строго говоря, касается и "монтров рынка" - это сегодня они монстры и, скажем, готовы этот ресурс поддерживать. А лет через пять от них может и названия не остаться в нашем живом и подвижном мире. Или может прийти новое руководство, которое скажет, что все, нафиг, меняется.
Но есть, по хорошему, ресурс должен финансироваться на каких-то коллективных началах. По идее. Не знаю.

2. Кто, как и когда будет определять право посетителя на использование ресурса. "Скучные академические формуляры" ведь, при желании, можно заполнить какой-нибудь дурью, типы буквы "ы" во всех полях. А напускать на эти формуляры искусственный интеллект для анализа их содержательной части никто не будет. Ну, хотя бы из-за отсутствия на текущий момент искусственного интеллекта :). То есть, модерация, либо премодерация, вероятно, нужна. Кто, как и когда?

3. Кто будет рассматривать поступающие от авторов исходных материалов жалобы и претензии на то, что их материалы заархивировали? А такие жалобы, естественно, будут поступать, не взирая ни на какие robots.txt. И по ним, по любому, придется давать какую-то обратную связь. А так же, вероятно, прикрывать какие-то материалы, конфликты по которым могут оказаться неразрешимыми иными путями. То есть, грубо говоря, кто будет выступать от лица ответчика?

4. Кто будет правообладателем домена? Это важный вопрос, потому что "зеркала" на других доменах здесь вряд ли будут эффективно работать. Если в работе дается ссылка на domain.ru?myLink, а по этому адресу выдается 404, то весь смысл теряется, даже если имеется где-то зеркало domain234.ru?myLink, возвращающая нужный документ. То есть, домен должен быть закреплен за данным проектом максимально жестко. А домен может быть зарегистрирован либо на частное лицо, либо на организацию. Первое, явно, не подходит. Второе вытаскивает на повестку дня вопрос об организационно-правовой форме.

Пока что, вот об это я споткнулась, размышляя о данном проекте.

(Ответить) (Уровень выше) (Ветвь дискуссии)

r_l@lj
2007-12-26 13:29 (ссылка)

Спасибо большое!
1. В начале нужна будет бригада коммунистического труда. Если с Вашей стороны будет хостинг и поддержка, я могу постараться нарыть в Тарту людей для разработки и программирования. Дальше, конечно, надо будет задействовать возможности вебдваноля, не ососбенно полагаясь на донации (штука ненадежная). Мне тут видится несколько принципиальных возможностей, самая занятная - сотрудничество с издательствами, заинтересованными в унификации ссылок. В принципе, можно попробовать устроить такую супертаргетировапнную рекламу, что она превратится в чистую информацию, поскольку полей с научными интересами у пользователей будет не очень много. Во всяком случае, я бы думал в этом направлении.

2. Можно поставить строгое ограничение: ссылки на материалы ресурса могут появляться только на сайтах, указанных при регистрации и прописанных в профайле (допустим, корпоративном, блоге и еще одном). В конце концов, это не архив для веба, а архив для бумаги. Дальше все просто - если рефереры ведут нас не туда, посылаем предупреждение и все такое. Но я, честно говоря, не думаю, что это действительно будет проблемой. Ниша бесплатных файлохранилищ не пустует.

3. Тут надо консультироваться с юристами и искать обтекаемых решений. Мы (НКО "Рутения") можем выступать в качестве ответственного лица и заниматься этим. Разумеется, после составления всех нужных бумажек.

4. Опять же - это можно хостить в Эстонии (физически, кстати, это даже удобно, поскольку этот бизнес тут процветает, и у меня там есть знакомые). И правообладателем, если надо, мы можем выступить. Хотя, конечно, это зависит от обстоятельств и т.д. Очень важен вопрос насчет стабильности работы, конечно. Тут надо думать, как это обустроить технически.

Собственно, я так расстроился по поводу компании на G, потому что у них как раз отработаны юридические моменты и нет проблем со стабильностью.

(Ответить) (Уровень выше) (Ветвь дискуссии)

gadyuka@lj
2007-12-26 14:03 (ссылка)

1. В начале, когда энтузиазм, тут все как раз просто решается. И для разработки у меня есть и ресурсы и технология. Я-то имела в виду именно тот печальный период, когда энтузиазм уже поутих, потому что именно тут-то и начинается все самое интересное. Всякие 404 и "Сервер не найден". Или уродские баннеры, хреняннеры и прочие монетизации, как правило в ущерб первоначальной идее проекта. Строгий таргетинг - это хорошо. Но тут вопрос, опять же - кто этим будет заниматься? Главным образом - продвигать этот сервис потенциально заинтересованным лицам. У меня такого ресурса на данный момент нет.

2. С реферерами не пройдет и вот почему: я заархивировала что-то и поместила ссылку на архив на своем сайте. А кто-то увидел у меня эту ссылку и поместил ее где-то у себя. Запретить это ему я никак не могу. Упс.
А в большую проблему это превращается вот в каком случае: если туда набегут гоблины и начнут в диком количестве архивировать всякую хрень, то это резко увеличит себестоимость содержания ресурса. Дисковое пространство, производительность серверов, и так далее. То есть, если в рамках чисто научного сообщества проблема финансирования может остро и не встать, то в случае набега гоблинов встать она может, причем неожиданно и с эффектом отказа ресурса в обслуживании как раз-таки научного сообщества.
Ээээ, почему я, собственно, думаю, что набегут. Потому что всякие ресурсы типа del.icio.us, ьуьщкнюкг и ищиквщикюкг пользуются в народе огромной популярностью. Но и там ведь люди спотыкаются на том, что ссылки со временем перестают вести туда, куда надо. А тут вот, практически то же самое, но с гарантией, что ссылка никуда не денется. Очень привлекательно.

То есть, можно, вероятно, рассматривать и вариант изначального позиционирования ресурса как коммерческого. И изначально уже закладывать известные способы "монетизации". Но будет ли это удобоприемлемо по идее - не знаю.

3. То есть, юридические вопросы вы можете взять на себя? В какие примерно сроки можно подготовить необходимый пакет документов и других юридических решений, необходимых для официального открытия ресурса? Я не говорю пока о том, чтобы немедленно кидаться их готовить. Это пока просто обсуждение, никого ни к чему не обязующее. Просто нужно сориентироваться.

4. Угу, нужно думать. Мне приходит в голову пока что только АНО в юрисдикции РФ, в которое могут войти изначально все заинтересованные в разработке и поддержке проекта стороны.

Понятно дело, да. Они заинтересуются этим потом, когда там будет тысяч 50 пользователей. И будут предлагать выкупить. Тысяч от 50 до 200 зелени. Или не они, а кто-нибудь еще из монстров. И это тоже нужно сразу иметь в виду.

(Ответить) (Уровень выше) (Ветвь дискуссии)

r_l@lj
2007-12-26 14:13 (ссылка)

1. Я попробую обсудить эти вопросы со знающими людьми.

2. Не готовь голову ставить, но уверен, что не будет проблемы с гоблинами. Гоблины не любят заполнения сложных формуляров, а их должно сопровождать каждое обращение к услуге архивации.

3. Тут мне надо опять же найти знающих людей и прикинуть, сколько времени займет такое оформление.

4. После суповой истерики мне страшно думать о юрисдикции РФ.

(Ответить) (Уровень выше) (Ветвь дискуссии)

	gadyuka@lj 2007-12-26 14:22 (ссылка)
	Ок. Жду от Вас рузальтатов обсуждений. И тогда попробуем двинуться дальше. А что за истерика? То что кто-то кого-то купил? Или флажки ввел? Или я что-то самое важное пропустила? :) (Ответить) (Уровень выше) (Ветвь дискуссии)

	r_l@lj 2007-12-26 14:31 (ссылка)
	Истерика по попводу вообще. Ну вот - придут сейчас кровавые чекисты и все утопят в нефти. Насчет формуляра - ага. (Ответить) (Уровень выше) (Ветвь дискуссии)

	gadyuka@lj 2007-12-26 14:53 (ссылка)
	А, ну это нормальная реакция на любую смену любой номинальной власти. Юрисдикция тут особенно ни при чем. (Ответить) (Уровень выше)

	gadyuka@lj 2007-12-26 14:24 (ссылка)
	Да, и вот еще. Хотелось бы взглянуть на какой-нибудь набросок подобного сложного формуляра. Я пока довольно смутно себе представляю, что там можно такого сложного навертеть. А хотелось бы. (Ответить) (Уровень выше)

yakovis@lj
2007-12-13 15:54 (ссылка)

я вот жду момента, когда гугль откроет хистори для своего кэша. ведь оно наверняка хранится, я бы на их месте не выкидывал, по крайней мере. будет такой archive.org, но получше качественно. да и большую часть описанной задачи решит.

(Ответить) (Ветвь дискуссии)

	r_l@lj 2007-12-13 16:05 (ссылка)
	Отчасти решит, но неполноценно (тут важно, что сервис подписывается хранить вечно и дублировать). Ну и на это действительно можно занятных вещей накрутить. (Ответить) (Уровень выше) (Ветвь дискуссии)

yakovis@lj
2007-12-13 16:41 (ссылка)

у меня была идея для другой стороны -- ну собственно не только у меня -- ссылаться не на документ, а на результаты поиска по характерной цитате (достаточно длинная фраза, или компиляция из двух из разных частей текста). тем более, что гугловое "мне повезет" позволяет кидать сразу на найденное. а урлы можно формировать вспомогательной софтиной.

но это помогает только от перемещенного, не от удаленного.

(Ответить) (Уровень выше) (Ветвь дискуссии)

	r_l@lj 2007-12-13 16:42 (ссылка)
	И не гарантирует тождественности. На самом деле, проблема очень серьезная, говорю как редактор. (Ответить) (Уровень выше)

ex_anthropo@lj
2007-12-13 19:44 (ссылка)

абсолютно согласен, что это необходимо. более того, я уверен, что если создать систему ссылок на интернет публикации on-line изданий, их статус повысится и интернет будет развиваться не только в развлекательную сторону

что касается интернета как источника, может возникнуть вопрос:что мешает исследователю распечатывать скрин шоты и ссылаться на сайт, ставить ПМА. ответ на который прост: глупо не пользоваться возможностями.
может стоит предлагать не бизнесу, а научным организациям, которые хотят развивать свои сайты. может в РАН? сайты фондов? у них в этом интерес, а для бизнеса, Вы сами говорите, аудитория маленькая, на ней денег не заработаешь.

(Ответить)

	link0ff@lj 2007-12-13 21:11 (ссылка)
	Есть такой сервис - http://www.webcitation.org/ (Ответить) (Ветвь дискуссии)

	r_l@lj 2007-12-13 21:19 (ссылка)
	Спасибо за ссылку! Это не совсем то - оно заточено под издателей, а не под авторов. Ну и скучновато. (Ответить) (Уровень выше) (Ветвь дискуссии)

link0ff@lj
2007-12-13 21:48 (ссылка)

Вообще странно, что до сих пор нет такого надежного и удобного сервиса. На Вики (http://en.wikipedia.org/wiki/Web_archiving#On-demand) упоминаются всего четыре малоизвестных сайта on-demand archiving.

Если можно было бы доверять ссылкам на кеш Гугла, то можно было бы их укорачивать их при помощи tinyurl, то это тоже не решение.

(Ответить) (Уровень выше) (Ветвь дискуссии)

	r_l@lj 2007-12-13 22:38 (ссылка)
	У меня есть предположение на этот счет: такая штука, прежде всего, нужна в humanities и social studies. Вот поэтому ее и нету. (Ответить) (Уровень выше)