Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет ivanov_petrov ([info]ivanov_petrov)
@ 2009-08-18 18:08:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Как сделать?
Почти все источники в сети представляют собой ленты. Ленты новостей, календарные и пр. Вот ЖЖ тоже представляет собой ленту. С ней всё понятно, но известное дело - ушедшее в прошлое исчезает из внимания. Пост двухгодичной давности почти недоступен. Да, понятно - есть поиск. Им мало кто пользуется. Можно сказать: кому надо, тот найдёт. - Сказать можно всё что угодно. Однако это не ответ, а отмазка - ответом будет совокупность средств, представляющих в удобной для читателя форме большой материал, представленный в виде ленты.

Известно - пробуют издавать из Живжурналов книги. Как кажется - не очень успешно. По крайней мере это не панацея - далеко не всё удобно представить бумажным кирпичом. Можно делать оглавление - это тоже будет очень-очень длинная лента названий. Можно делать иерархический каталог. Там невнятная для читателя логика. Можно делать облако тэгов. Его понятность целиком зависит от понятности для читателя ключевых слов, годится только для тем новостного потока - когда в обществе имеется согласие, что как называть. Шаг в сторону, к нетривиальному знанию - всё, провал, это называется одним образом, а человек и не знает, что то, что его интересует, здесь называтся вот так. Не говоря о том, что тэги - это всего лишь одноуровневая иерархия, а значит их немного, или они нечитаемы.

Между тем существует интерес просвещенческого, образовательного характера. Человек интересуется опровержением законов Ньютона и загадкой "Пионеров", причинами направленности биологической эволюции и степенью представленности в сети разных наук и областей знания. Одно можно поискать по ключевому слову, но не так уж просто - надо подумать, как лучше построить запрос. А другое - о мере представленности в сети - вообще не ловится. Нужны люди, досконально знающие _всю_ литературу по теме, и что из нее представлено в сети, и дающие заключение - в сети есть ... 0.5? 30? 98% источников по теме.

И вот такой, довольно интеерсный и редкий материал лежит в сети - с оценками представленности - но как сделать это ушедшее в прошлое - доступным и теперь? Нужен, наверное, какой-то интерфейс. Есть ведь люди. занимающиеся этим профессионально - и не обязательно столь ограниченные, чтобы отвечать так, как на такие вещи отвечают в коммерческих разработках ("это слишком сложно, это не будут покупать, в сети 2% пользоватаелей, кому это надо - не имеет смысла для них огород городить"). Если без этих смешных - если серьезно - коммерческих отмазок, а на самом деле подумать - что можно тут предложить для тысячи десятков тысяч людей, которых такие вещи интересуют.

Пришла в голову смутная мысль. Почти все такие интерфейсы-указатели работают с повышением формализации и понижением содержательности, то есть богатым содержательным текстам ставится в соответствие формальная простая система - каталог, указатель, метка и пр. Идет сильнейшее вырождение смысла - потому и трудно искать-то. Потому в одном смысле искать легко, а в другом трудно. Может быть, делать не столь вырожденные системы? Например, краткий текст, нечто вроде резюме, но не формальный, целостный текст, почти каждая фраза которого служит отсылкой на текст или совокупность текстов в ленте. Сам такой текст содержательно и внятно объясняет, что говорится во всей совокупности подчиненных текстов, и является одновременно оглавлением - своеобразным, совмещенным с содержательным рассказом.

Таких текстов мало того что может быть несколько - довольно много; они еще могут дублироваться. То есть любой (?) читатель, взяв ленту, может сделать такой рассказ и по технологии вики (примерно) написать свой текст-обзор. Они могут различаться совокупностью текстов, на которые отсылают их ссылки, но - в пределе - на одну совокупность текстов может быть несколько "рассказов" - обрисовывающих дело с разных сторон в разных словах.

Да, это интеллектоемкая технология, такие тексты надо писать и их надо с некоторым усилием читать - это не бездумные операции. Но - может быть - для тех немногих процентов людей, кому все это надо, такие действия и не будут против шерсти.

Или что-то другое придумать? какие есть технологии внятного представления большого текстового материала?


(Читать комментарии) - (Добавить комментарий)


[info]u_lex@lj
2009-08-18 11:43 (ссылка)
В Web 3.0 ожидаются технологии, позволяющие понимать содержание. А когда машина понимает, то и визуализировать материал проще)

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-08-18 11:46 (ссылка)
Серьезно? Технологии в компе, чтобы понимал содержание? Вы знаете, надо только название сменить. Я бы пока предложил что-то вроде "веб 10 в шестьдесят второй степени".

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]u_lex@lj
2009-08-18 12:02 (ссылка)
Пока существуют костыльные технологии типа: RDF, DAML, OIL, OWL, которые работают, но требуют дополнительных высоких трудозатрат при оформлении содержимого. Поэтому без автоматических методов не обойтись. Но наука не стоит на месте)

(Ответить) (Уровень выше)


[info]photographer@lj
2009-08-19 17:43 (ссылка)
На самом деле "понимал содержание" -- преувеличение, конечно, но не совсем. Программными методами уже довольно давно выделяют смыслы из текстов, не содержащих непосредственно ключевых слов, но связанных с поисковыми терминами по смыслу. На этом, в частности, построен бизнес, относящийся к eDiscovery (http://en.wikipedia.org/wiki/Data_processing_architecture_for_e-discovery) -- когда, например, в ходе юридических разбирательств "арестовывают" всю корпоративную переписку компании (или отдельных сотрудников), и ищут в ней имеющие отношение к делу сообщения или документы в интранете. Невозможно при этом просмотреть глазами ВСЕ сообщения, и потому натравливают робота и индексируют все слова. Потом руками находят десяток-другой документов, которые точно имееют отношение к делу, и система обучается на этой выборке, чтобы потом автоматически из остальных сотен тысяч или миллионов документов или имейлов вытащить другие, про то же, где может и не быть ключевых слов.

Это всё относительно неплохо работает на сколько-нибудь тематически заточенных больших массивах документов, написанных суховатым человеческим языком (а не по-олбански блогерами).

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-08-20 01:51 (ссылка)
Я слышал о сканировании "всего интернета" в режиме реального времени. Они там делают как вы сказали - тупые технологии по анализу частотности. поиск ключевых слов и тех, что рядом с ними часто употребляются, выделение отдельных потоков и частотки именно по ним. выделение критических текстов и выдача человеку-эксперту этих текстов для принятия решения. Я бы только не называл это пониманием ни в каком смысле - ну зачем слова путать?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]photographer@lj
2009-08-20 01:56 (ссылка)
Конечно, это никакое не "понимание". Это лишь выделение смыслов (как альтернатива поиску одних лишь ключевых слов).

(Ответить) (Уровень выше)


(Читать комментарии) -