Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет ivanov_petrov ([info]ivanov_petrov)
@ 2009-08-18 18:08:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Как сделать?
Почти все источники в сети представляют собой ленты. Ленты новостей, календарные и пр. Вот ЖЖ тоже представляет собой ленту. С ней всё понятно, но известное дело - ушедшее в прошлое исчезает из внимания. Пост двухгодичной давности почти недоступен. Да, понятно - есть поиск. Им мало кто пользуется. Можно сказать: кому надо, тот найдёт. - Сказать можно всё что угодно. Однако это не ответ, а отмазка - ответом будет совокупность средств, представляющих в удобной для читателя форме большой материал, представленный в виде ленты.

Известно - пробуют издавать из Живжурналов книги. Как кажется - не очень успешно. По крайней мере это не панацея - далеко не всё удобно представить бумажным кирпичом. Можно делать оглавление - это тоже будет очень-очень длинная лента названий. Можно делать иерархический каталог. Там невнятная для читателя логика. Можно делать облако тэгов. Его понятность целиком зависит от понятности для читателя ключевых слов, годится только для тем новостного потока - когда в обществе имеется согласие, что как называть. Шаг в сторону, к нетривиальному знанию - всё, провал, это называется одним образом, а человек и не знает, что то, что его интересует, здесь называтся вот так. Не говоря о том, что тэги - это всего лишь одноуровневая иерархия, а значит их немного, или они нечитаемы.

Между тем существует интерес просвещенческого, образовательного характера. Человек интересуется опровержением законов Ньютона и загадкой "Пионеров", причинами направленности биологической эволюции и степенью представленности в сети разных наук и областей знания. Одно можно поискать по ключевому слову, но не так уж просто - надо подумать, как лучше построить запрос. А другое - о мере представленности в сети - вообще не ловится. Нужны люди, досконально знающие _всю_ литературу по теме, и что из нее представлено в сети, и дающие заключение - в сети есть ... 0.5? 30? 98% источников по теме.

И вот такой, довольно интеерсный и редкий материал лежит в сети - с оценками представленности - но как сделать это ушедшее в прошлое - доступным и теперь? Нужен, наверное, какой-то интерфейс. Есть ведь люди. занимающиеся этим профессионально - и не обязательно столь ограниченные, чтобы отвечать так, как на такие вещи отвечают в коммерческих разработках ("это слишком сложно, это не будут покупать, в сети 2% пользоватаелей, кому это надо - не имеет смысла для них огород городить"). Если без этих смешных - если серьезно - коммерческих отмазок, а на самом деле подумать - что можно тут предложить для тысячи десятков тысяч людей, которых такие вещи интересуют.

Пришла в голову смутная мысль. Почти все такие интерфейсы-указатели работают с повышением формализации и понижением содержательности, то есть богатым содержательным текстам ставится в соответствие формальная простая система - каталог, указатель, метка и пр. Идет сильнейшее вырождение смысла - потому и трудно искать-то. Потому в одном смысле искать легко, а в другом трудно. Может быть, делать не столь вырожденные системы? Например, краткий текст, нечто вроде резюме, но не формальный, целостный текст, почти каждая фраза которого служит отсылкой на текст или совокупность текстов в ленте. Сам такой текст содержательно и внятно объясняет, что говорится во всей совокупности подчиненных текстов, и является одновременно оглавлением - своеобразным, совмещенным с содержательным рассказом.

Таких текстов мало того что может быть несколько - довольно много; они еще могут дублироваться. То есть любой (?) читатель, взяв ленту, может сделать такой рассказ и по технологии вики (примерно) написать свой текст-обзор. Они могут различаться совокупностью текстов, на которые отсылают их ссылки, но - в пределе - на одну совокупность текстов может быть несколько "рассказов" - обрисовывающих дело с разных сторон в разных словах.

Да, это интеллектоемкая технология, такие тексты надо писать и их надо с некоторым усилием читать - это не бездумные операции. Но - может быть - для тех немногих процентов людей, кому все это надо, такие действия и не будут против шерсти.

Или что-то другое придумать? какие есть технологии внятного представления большого текстового материала?


(Читать комментарии) - (Добавить комментарий)


[info]emdrone@lj
2009-08-18 12:08 (ссылка)
1. Ну, с ЖЖ проще. Я когда-то сделал скрипт-читалку, которая кладет автоматически всё что я каждый день читаю и мне понравилось на мой компьютер. Места все эти посты-обсуждения занимают по меркам сегодняшних жестких дисков (да и даже каких-нибудь DVD, и даже CD) поразительно мало. Можно сохранить ВСЁ.

Поиск по ним организуется индексированием программой-искалкой по локальному компьютеру. Поскольку по сети ей ходить не надо, всё происходит достаточно быстро. Запросы и ответы мгновенны. Можно держать в индексе все книги, страницы, ЖЖ-посты - все тексты.

2. Как находить "по темам", в Интернете или на локальной машине.

Один из (примитивных) методов, которые сейчас внедрены нассово являются tags, "бирки" или "ярлыки", вроде библиотечных разделов по темам.
Они плохи тем, что разные люди одно и то же обозначают разными словами, и что бирки маркируют "вообще", а хочется искать "по содержанию".

3. Тогда есть ряд способов ПОСЧИТАТЬ ОПРЕДЕЛЕННЫЕ МЕТРИКИ текста-образца. Например, мне понравилась некая научная или научно-популярная статья. Хочу подобные.

Я обычно считаю примитивным скриптом примитивную штуку, которая даёт мне список неких слов. Они взяты из текста-образца, но они "неочевидны" - т.е. человек, пытающийся искать в поисковике набьёт как правило иной набор.

Однако этот странный набор удивительно хорошо выделяет "подобное", если его вбить в "Google" или в Яндекс. Моя функция плоховато выберет разговорную речь, вроде дискуссии в ЖЖ, но хорошо работает на "умных", занудных, книжных и т.д. текстах.
Да, я применяю/применял этот скрипт к текстам на английском

Смысл этой самой примитивной функции от текста - в английском следует сделать выборку "самых частых длинных слов" текста (можно параметрами несколько подогнать, насколько длинных, затем брать где-то десяток сверху)

Затем вбить их в Гугл - и вы получите похожие не только по смыслу, но и по стилю ответы.
Результат заметно отличается от просто поиска "вручную" - человеку в голову как правило не приходят те слова, которые механически скрипт выделяет как "характерные"

(Ответить) (Ветвь дискуссии)

веб-сервис
[info]dmarsentev@lj
2009-08-18 12:22 (ссылка)
И вы ещё не сделали из него маленький веб-сервис?!!!
В одно окошечко положил текст, нажал на кнопочку,
в другом окошечке получил выдачу нестандартных ключевых слов.

(Ответить) (Уровень выше)

P.S. Data mining and search engine design
[info]emdrone@lj
2009-08-18 12:27 (ссылка)
P.S. Но хорошо известных функций, которые можно механически посчитать от текста, известно несколько штук.

Вот неполный список того, что уже используется вовсю:

    Можно считать "н-граммы", сочетания слов (или слогов, или букв), они дадут некие характеристики текста.

    Можно считать разного рода параметры марковских цепочек, они "предсказывают" что в тексте появится дальше.

    Можно считать частотность. Тут, правда, чем текст длиннее, тем ближе будешь к общеязыковым средним. Поэтому имеет смысл выделять из списка самых частых "отклонения" от языково-среднего (посчитанного по "корпусу" большого объема; сегодня это очень легко из-за существования Интернета и может быть сделано любым отдельным человеком на домашней машине).

    Можно скачать себе копию Википедии, и при поисках по теме брать функции от текстов Википедии на данную тему.
    Она, в целом, вводит минимум лексики заданой темы, и выборка статей тоже может быть автоматизирована (статьи включают гиперссылки на родственные, можно автоматически брать 1-2 поколения от заглавной заданной вами темы).

    Можно, зная что человеческое знание и Интернет, и Википедия представляют собой степенной граф ("малый мир"), пытаться пользоваться его характеристиками.


В университетах эти - я перечислил простые и интуитивно понятные - как и более технические, менее понятные "здравым смыслом" методы изучают в курсах по "data mining" и/или в курсах связанных с построением поисковых машин для Интернета или больших объемов данных

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: P.S. Data mining and search engine design
[info]ivanov_petrov@lj
2009-08-18 13:20 (ссылка)
да, это очень интересно и наверняка кому-нибудь надо. Но это не то, о чем я спросил.

(Ответить) (Уровень выше)


[info]ex_rivelt275@lj
2009-08-18 14:25 (ссылка)
>Один из (примитивных) методов, которые сейчас внедрены нассово являются tags, "бирки" или "ярлыки", вроде библиотечных разделов по темам.
Они плохи тем, что разные люди одно и то же обозначают разными словами, и что бирки маркируют "вообще", а хочется искать "по содержанию".


Первое отчасти лечится иерархическими тегами: то бишь и "котята", и "котятки" будут подчиннены тэгу "кошки" (возможно, не непосредственно). Недостаток — иерархию тэгов ещё и продумать надо, то бишь это работа скорее ручная, нежели автоматическая.

(Ответить) (Уровень выше)


(Читать комментарии) -