ivanov_petrov: Как сделать?

Как сделать?
Почти все источники в сети представляют собой ленты. Ленты новостей, календарные и пр. Вот ЖЖ тоже представляет собой ленту. С ней всё понятно, но известное дело - ушедшее в прошлое исчезает из внимания. Пост двухгодичной давности почти недоступен. Да, понятно - есть поиск. Им мало кто пользуется. Можно сказать: кому надо, тот найдёт. - Сказать можно всё что угодно. Однако это не ответ, а отмазка - ответом будет совокупность средств, представляющих в удобной для читателя форме большой материал, представленный в виде ленты.

Известно - пробуют издавать из Живжурналов книги. Как кажется - не очень успешно. По крайней мере это не панацея - далеко не всё удобно представить бумажным кирпичом. Можно делать оглавление - это тоже будет очень-очень длинная лента названий. Можно делать иерархический каталог. Там невнятная для читателя логика. Можно делать облако тэгов. Его понятность целиком зависит от понятности для читателя ключевых слов, годится только для тем новостного потока - когда в обществе имеется согласие, что как называть. Шаг в сторону, к нетривиальному знанию - всё, провал, это называется одним образом, а человек и не знает, что то, что его интересует, здесь называтся вот так. Не говоря о том, что тэги - это всего лишь одноуровневая иерархия, а значит их немного, или они нечитаемы.

Между тем существует интерес просвещенческого, образовательного характера. Человек интересуется опровержением законов Ньютона и загадкой "Пионеров", причинами направленности биологической эволюции и степенью представленности в сети разных наук и областей знания. Одно можно поискать по ключевому слову, но не так уж просто - надо подумать, как лучше построить запрос. А другое - о мере представленности в сети - вообще не ловится. Нужны люди, досконально знающие _всю_ литературу по теме, и что из нее представлено в сети, и дающие заключение - в сети есть ... 0.5? 30? 98% источников по теме.

И вот такой, довольно интеерсный и редкий материал лежит в сети - с оценками представленности - но как сделать это ушедшее в прошлое - доступным и теперь? Нужен, наверное, какой-то интерфейс. Есть ведь люди. занимающиеся этим профессионально - и не обязательно столь ограниченные, чтобы отвечать так, как на такие вещи отвечают в коммерческих разработках ("это слишком сложно, это не будут покупать, в сети 2% пользоватаелей, кому это надо - не имеет смысла для них огород городить"). Если без этих смешных - если серьезно - коммерческих отмазок, а на самом деле подумать - что можно тут предложить для тысячи десятков тысяч людей, которых такие вещи интересуют.

Пришла в голову смутная мысль. Почти все такие интерфейсы-указатели работают с повышением формализации и понижением содержательности, то есть богатым содержательным текстам ставится в соответствие формальная простая система - каталог, указатель, метка и пр. Идет сильнейшее вырождение смысла - потому и трудно искать-то. Потому в одном смысле искать легко, а в другом трудно. Может быть, делать не столь вырожденные системы? Например, краткий текст, нечто вроде резюме, но не формальный, целостный текст, почти каждая фраза которого служит отсылкой на текст или совокупность текстов в ленте. Сам такой текст содержательно и внятно объясняет, что говорится во всей совокупности подчиненных текстов, и является одновременно оглавлением - своеобразным, совмещенным с содержательным рассказом.

Таких текстов мало того что может быть несколько - довольно много; они еще могут дублироваться. То есть любой (?) читатель, взяв ленту, может сделать такой рассказ и по технологии вики (примерно) написать свой текст-обзор. Они могут различаться совокупностью текстов, на которые отсылают их ссылки, но - в пределе - на одну совокупность текстов может быть несколько "рассказов" - обрисовывающих дело с разных сторон в разных словах.

Да, это интеллектоемкая технология, такие тексты надо писать и их надо с некоторым усилием читать - это не бездумные операции. Но - может быть - для тех немногих процентов людей, кому все это надо, такие действия и не будут против шерсти.

Или что-то другое придумать? какие есть технологии внятного представления большого текстового материала?

(Читать комментарии) - (Добавить комментарий)

ivanov_petrov@lj
2009-08-19 16:41 (ссылка)

Я Вас понимаю, но мне видится именно в этом месте ошибка, о которой я и сказал в исходном посте - что мол "меньше 10% не работаем". Это то самое место. на котором ловятся. Эта привычная тупость - поиск по ключевым словам - ведь держится именно потому, что пользователь туп и не освоит более трудных методов - он и этот-то не освоит. Уровень интеллектуальности ограничен массовостью. А у нас впереди нет надежд на такие времена, что уровень интеллекта больших масс будет неудержимо расти. Так что либо делать хороший поиск "ни для кого", либо сидеть с дерьмом, потому что никому ничего другого не надо. Разумеется, речь не о поиске для одного - но хороший поиск никогда не будет простым - мне кажется, это понятно. И он никогда не будет "дешевым". Мне бы казалось, что разработка таких вещей должна приводить к большей формализации и удешевлению механизма поиска. То есть важно не то, что он дешевый по сравнению с тэгами или поиском по словам, а что он становится дешевле, чем мог бы быть без примененных формализаций и средств. Пример: когда дают написать сочинение, предлагают написать план - введение и постановка темы, раскрытие, выводы. Эта нехитрая схема удешевляет - потому что можно меньше думать. с чего бы начать и чем бы закончить. Так и тут - отработка метода может снизить издержки на единичное творчество в каждом отдельном случае, но все равно это будет не машинный результат, а только лишь подкрепленный возможностями автоматизации.

(Ответить) (Уровень выше) (Ветвь дискуссии)

kormitigrov@lj
2009-08-19 17:01 (ссылка)

Вы не обидитесь, если я буду отвечать не на ваш комментарий, а на то, что смог из него понять? :) Вы только что перешли, увы, границы моих возможностей понимания :).

Давайте я попробую чуть упростить, авось удастся с водой ребенка не вылить. Вы предлагаете искать какой-то метод, какую-то общую схему обработки информации, типа: "Возьми статью, прочитай ее. Выдели ключевые слова, запиши отдельно. Создай abstract, запиши отдельно. Определи тематику статьи в предлагаемой (см. Приложение 13) классификации. Создай индекс для используемых в статье слов". Какая-то такого рода схема?

(Ответить) (Уровень выше) (Ветвь дискуссии)

ivanov_petrov@lj
2009-08-20 01:45 (ссылка)

В тексте я предложил несколько иное. Есть множество текстов - пусть 20000. Человек пишет краткие обзоры групп текстов, для группы существует несколько обзоров, группы могут пересекаться, обзоры пишутся с разных точек зрения. В этих обзорах некоторые (многие) предложения являются ссылками наа один или несколько текстов группы.

То есть имеется запись вида:
Различные науки представлены в сети очень по-разному. Программисты имеют в сети 98% нужной информации, а филологи и некоторые области биологии - менее 1%. Кроме того, имеются крупные оцифрованные собрания, в том числе журналы за 200 лет. Сейчас идут проекты по оцифровке классики на многих языках мира.

И каждое предложение отсылает на 1-10 ссылок. о чем и сказано.

Это тривиально, но между тем помогло бы. Если такие "обзоры" определенным образом организовать.

(Ответить) (Уровень выше)

gouriev@lj
2009-08-19 17:04 (ссылка)

> Уровень интеллектуальности ограничен массовостью.

ИМХО, это не совсем так.
Более умные методы поиска требуют больших вычислительных
затрат, и это становится сдерживающим фактором при внедрении
на системах, обслуживающих большие потоки запросов.

---
Исходно задумывалось, что человек просто вобьет свой вопрос,
а система поймет и найдет. "Понимание", правда, свелось
к извлечению ключевых слов, а после и вопросы стали не нужны -
одни только слова, да и набирать меньше.

Системы (якобы) понимающие вопрос (выполняющие синт. анализ,
выделяющие имена и названия, даты, слова-маркеры типичных тем)
сейчас тоже есть, но пока еще не в промышленном, а в исследовательском
исполнении.

(Ответить) (Уровень выше) (Ветвь дискуссии)

ivanov_petrov@lj
2009-08-20 01:47 (ссылка)

_Системы (якобы) понимающие вопрос (выполняющие синт. анализ,
выделяющие имена и названия, даты, слова-маркеры типичных тем)
сейчас тоже есть_

спасибо. я об этом крайне мало знаю. Вы не могли бы поделиться несколькими названиями и ссылками? Просто чтобы я чуть грамотнее ожидал будущего.

(Ответить) (Уровень выше) (Ветвь дискуссии)

	gouriev@lj 2009-08-20 17:09 (ссылка)
	попробую, но не сразу. мне надо навести справки. у нас этим больше "молодые" занимаются, я спрошу. когда-то я их учил, а теперь и мне самому не грех поучиться :) (Ответить) (Уровень выше)

	кстати gouriev@lj 2009-08-20 17:27 (ссылка)
	кстати, вот http://msado.livejournal.com/1738249.html (я уж приводил выше этот линк) это конечно не полное описание, и весьма игривое, но кое-что понять и догадаться можно (Ответить) (Уровень выше) (Ветвь дискуссии)

Re: кстати

ivanov_petrov@lj
2009-08-21 02:02 (ссылка)

да, я помню. что уже читал этот интересный текст. Конечно, очень интересная работа. А как называется эта система или как фамилии разработчиков - чтобы узнать. если случайно услышу.

(Ответить) (Уровень выше) (Ветвь дискуссии)

	Re: кстати gouriev@lj 2009-08-21 10:26 (ссылка)
	Я сам узнал об этом из ЖЖ. Кирилл Готовцев aka msado@lj - большой начальник в рекламном агентстве "Маньяко" (чуть ли не директор), что ничуть не объясняет происхождение системы поиска... (Ответить) (Уровень выше)

кстати, еще

gouriev@lj
2009-08-20 17:44 (ссылка)

http://ru.wikipedia.org/wiki/%D0%9B%D0%B5%D0%BE%D0%BD%D1%82%D1%8C%D0%B5%D0%B2%D0%B0,_%D0%9D%D0%B8%D0%BD%D0%B0_%D0%9D%D0%B8%D0%BA%D0%BE%D0%BB%D0%B0%D0%B5%D0%B2%D0%BD%D0%B0#2007

Леди сидит в соседней комнате (МГУ, 2 ГУМ).

У нее "альтернативный" подход (по сравнению с западным),
но вполне работающий в хорошо очерченных тематических подмножествах.
Применить это к поиску в Интернет сложно из-за сравнительной узости
этих подмножеств, а также из-за упоминавшейся вычислительной сложности.

Вообще, такого много...

Кстати, вот еще
http://www.aot.ru/docs/sokirko/sokirko-candid-1.html
Этот товарищ - ученик Н.Н.Л., он в свое время разработал
реально работающую систему анализа текстов, которая была,
как говорят, с приличной выгодой продана в Германию :)

---
Это то, что я случайно вспомнил.
Основной ответ позже - когда ответят мои информаторы

(Ответить) (Уровень выше) (Ветвь дискуссии)

	глянул сам... gouriev@lj 2009-08-20 17:51 (ссылка)
	это все выросло из проекта ак. Опресяна по машинному переводу и в основном строится под эту задачу. но "понимание" есть "понимание" в любом случае (Ответить) (Уровень выше) (Ветвь дискуссии)

	Re: глянул сам... ivanov_petrov@lj 2009-08-21 02:04 (ссылка)
	А, Апресян... Понятно. http://ru.wikipedia.org/wiki/%D0%90%D0%BF%D1%80%D0%B5%D1%81%D1%8F%D0%BD,_%D0%AE%D1%80%D0%B8%D0%B9_%D0%94%D0%B5%D1%80%D0%B5%D0%BD%D0%B8%D0%BA%D0%BE%D0%B2%D0%B8%D1%87 Да, это очень сильное направление. (Ответить) (Уровень выше)

	:( gouriev@lj 2009-08-21 10:19 (ссылка)
	Апресяна, позор на мою лысину (Ответить) (Уровень выше) (Ветвь дискуссии)

	Re: :( ivanov_petrov@lj 2009-08-21 10:44 (ссылка)
	Не волнуйтесь, я понял, читал его работы - совершенное наслаждение. Замечательная у него школа и направление. Я не знал, что его школа вышла уже на компьюетрные вещи и очень этому рад. (Ответить) (Уровень выше)

первая порция ссылок

gouriev@lj
2009-08-24 15:23 (ссылка)

первая порция ссылок по ответам моих информаторов

Вопросо-ответные системы
http://en.wikipedia.org/wiki/Question_answering
и
http://ru.wikipedia.org/wiki/%D0%92%D0%BE%D0%BF%D1%80%D0%BE%D1%81%D0%BD%D0%BE-%D0%BE%D1%82%D0%B2%D0%B5%D1%82%D0%BD%D0%B0%D1%8F_%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D0%B0

Научные конференции:

Message Understanding Conference
http://en.wikipedia.org/wiki/Message_Understanding_Conference

Linguistic Data Consortium
http://projects.ldc.upenn.edu/

Associations of Computational Linguistics
http://www.aclweb.org/

Special Interest Group of Informational Retrieval
http://www.sigir.org/

Российский семинар по Оценке Методов Информационного Поиска
http://romip.narod.ru/

Text REtrieval Conference
http://trec.nist.gov/

ACM Transactions on Information Systems
http://tois.acm.org/index.html

Работы моего (когда-то бывшего) ученика
http://www.ieresearch.ru/Mstislav_Maslennikov
две доступны непосредственно на сайте в PDF

---
не буду делать вид, будто я все это читал :(
но по ссылкам видно, что этими вопросами
сейчас много занимаются. можно сказать, это
некоторый "мейнстрим"

Ссылки на работающие системы есть в русской
версии Википедии по вопросно-ответным системам,
но, скажу честно, я не пытался пока сам выяснять,
что в этих системах вопросно-ответного и интеллектуального

(Ответить) (Уровень выше) (Ветвь дискуссии)

	Re: первая порция ссылок ivanov_petrov@lj 2009-08-24 15:38 (ссылка)
	спасибо. поверхностно просмотрев - да, так я это и представлял, у меня общие сведения примерно на рубеж 2000-х, с того времени. кажется, не очень принципиально все изменилось (Ответить) (Уровень выше) (Ветвь дискуссии)

Re: первая порция ссылок

gouriev@lj
2009-08-24 16:07 (ссылка)

наверное, да. я в 2000 году за этим не следил.
публикаций много, работающих систем - не очень-то.
я попробовал сейчас Яндекс, Гугл, Нигму, Диалогус...

вопрос они понимают хреново, а знают еще меньше.
лучшим был яндекс. но и он не смог ответить на
простой вопрос "что такое вопросно-ответная система?"

(Ответить) (Уровень выше)

Re: первая порция ссылок

gouriev@lj
2009-08-24 16:55 (ссылка)

они там все время что-то делают,
все время улучшают результаты на принятых в этой области
"стандартных" тестах. рубеж качественного скачка,
если он будет, для нас, людей со стороны, скорее
всего останется незаметным.

вот одно из направлений, которое мне удалось
уловить: учет отношений между словами как признаков,
по которым определяется, подходит предложение
под вопрос или нет. причем чем дальше - тем более
сложные, разнотипные и "далекие" (по положению в
слов в предложении) отношения.
и это все возникло уже после 2000 года.
насколько это важно и внесет ли принципиально новое качество -
мне судить невозможно.
впрочем в этой области любой прогресс не лишний

(Ответить) (Уровень выше)

запад vs россия

gouriev@lj
2009-08-24 17:06 (ссылка)

на мой взгляд (впрочем, не только на мой,
мы это обсуждали с более продвинутыми
коллегами) имеются различия между западным
подходом (MUC, TREK...) и российским (Апресян,
Леонтьева...)

запад пытается выхватить из текста нечто значимое
в данный момент. вдоль текста идут некоторые "сети"
(templates with slots)
и "захватывают" части фраз, соответствующие заданному
запросу. система может быть более или менее формализованной,
использовать заданные человеком правила или правила,
сгенерированные в процесса "самообучения" на учебном
наборе текстов... но все равно реализует некоторую
эвристику и заведомо обречена на "частичность" анализа
и результатов. зато такую систему гораздо проще заставить
заработать.

российские товарищи стараются построить "семантическую модель"
текста в целом, и уж из нее извлекать информацию. это требует
огромной предварительной работы по созданию набора правил анализа
и возможно только для узких предметных областей. могла бы
подобная система "самообучаться" ? хотелось бы верить, что да,
но о таких работах я не слышал

(Ответить) (Уровень выше)

	fat_crocodile@lj 2009-08-31 21:13 (ссылка)
	http://news.yandex.ru/people/ Имена, названия, даты, темы. Автоматически. (Ответить) (Уровень выше) (Ветвь дискуссии)

	ivanov_petrov@lj 2009-09-01 01:19 (ссылка)
	да, это я знаю. Спасибо (Ответить) (Уровень выше)

(Читать комментарии) -