ivanov_petrov: Компьютерный пересказ текста

Компьютерный пересказ текста
У меня вопрос. Есть ли разработки в этом направлении?
Понятно, что есть морфологический анализ слов, поисковые индесы по тексту, расстановка тэгов и ключевых слов. Переводчики. Это понятно. Но вопрос о другом: компьютерное реферирование и пересказ - развиваются?

Это ведь вопрос об искусственном интеллекте. Просим - перескажи текст, не зачитай, а перескажи. Критерий. Я пока не смог понять, насколько это уже удается.

"Работают над этим давно http://www.gpntb.ru/win/ntb/ntb2001/12/f12_03.htm
выработаны многочисленные подходы к решению данной проблемы, которые достаточно четко подразделяются на два направления – квазиреферирование, основанное на экстрагировании из первичных документов с помощью определенных формальных признаков «наиболее информативных» фраз (фрагментов), совокупность которых образует некоторый экстракт (квазиреферат), и собственно автоматическое реферирование, основанное на выделении из текстов с помощью специальных информационных языков наиболее существенной информации и порождении новых текстов (рефератов), в большей или меньшей степени изоморфных первичным документам (или их частям)."

Как я понимаю, это работа с частоткой - выделяются значимые частые слова и ими фаршируется новый текст =автореферат.

"Суть индикаторного метода заключается в использовании словарей маркеров, индикаторов и коннекторов (лексический аппарат свертывания), насчитывающих свыше 1 500 лексических единиц так называемой неключевой внетематической лексики, и формул выбора, отражающих требования к различным видам вторичных документов для машинного экстрагирования фраз, которые относятся к различным содержательным аспектам документов (в нашем случае научно-технических статей). Совокупности таких фраз, определенным образом упорядоченных, и образуют различные виды вторичных документов – основного средства информационного обслуживания."

http://www.olap.ru/basic/refer.asp
Системы автоматического реферирования
(старый текст, 2000 г.)

http://www.kansas.ru/pb/paper/rcdl2007.pdf
Система автоматического реферирования новостных сообщений на основе машинного обучения

http://elar.usu.ru/bitstream/1234.56789/1424/1/IMAT_2005_25.pdf
Автоматическое реферирование веб-документов с учетом запроса
В системе используется восходящий к работам 1950-60-х годов подход к выделению важных предложений (sentence extraction) с небольшими модификациями.

http://rcdl.ru/doc/2008/177_183_paper20.pdf
О методе автоматического реферирования, основанном на результатах рубрицирования документов
Идея метода заключается в том, чтобы максимально использовать результаты предшествующих этапов обработки и составлять реферат после определения основных тем документа.

http://www.seminarprojects.com/Thread-development-of-an-auto-summarization-tool
Development of an auto-summarization tool

http://www.informaworld.com/smpp/content~db=all~content=a917618494
Automatic Abstracting and Summarization

http://www.minesight.com/enl/February_2010/February_English/Seminar_abstracts.pdf

http://itt.nissat.tripod.com/itt0202/ruoi0202.htm

http://www.pertinence.net/index_en.html

http://www.isi.edu/natural-language/projects/SUMMARIST.html

http://www.indiastudychannel.com/resources/12455-Development-an-auto-summarization-tool.aspx
----------------------------
Насколько я понимаю, пока глухо - есть очень корявые системы, на уподобление настоящему пересказу рассчитывать нечего.

(C)

zh3l@lj

(Читать комментарии) - (Добавить комментарий)

werdender@lj
2010-07-13 02:39 (ссылка)

Квантовые трубочки? Ну да, еще еще n-ное количество лет и все возможно будет ок.
Импровизирующая машина? Скорее импровизирующие программисты. Или она сама творческие способности проявила?

Давайте, вообще, уточним. Может мы о разных вещах говорим? Вы всерьез утверждаете, что имея достаточный финансовый ресурс, вы научите машину понимать смысл, используя существующие технологии?

(Ответить) (Уровень выше) (Ветвь дискуссии)

vlkamov@lj
2010-07-13 03:00 (ссылка)

> Вы всерьез утверждаете, что имея достаточный финансовый ресурс,
> вы научите машину понимать смысл, используя существующие технологии?

Да. И первым шагом научимся понимать друг друга. Поскольку ваше утверждение более сильное, вам и карты в руки. Вы утверждаете, что существует класс задач, которые машина не сможет в отличие от человека (и даже гориллы), решить.
Давайте про отличие, определение этих задач.

Кстати, импровизацию мы уже похерили.

(Ответить) (Уровень выше) (Ветвь дискуссии)

werdender@lj
2010-07-13 03:29 (ссылка)

Давайте. Если придерживаться темы поста, и говорить о времени настоящем, то, например, такое машине будет неподвластно:
Понимание контекста (например иронии в тексте). Без этого ни перевод, ни изложение человеконеотличимым не будут, и в некоторых случаях потребуют правки человеком.

Это первое что в голову пришло. Если углубиться, то наверняка больше подводных камней обнаружится.
В этом же преуспеет Коко (и уже преуспела).
А все потому, что ее разум от нашего отличается количественно. И мышление (а понимание контекста наверняка только мышлению подвластен) не только обработка эл. сигналов, но и обмен хим. веществами, воздействующими на живую клетку.

Если же говорить о времени будущем, то все возможно. Но это вопрос не финансов, а технологий.
Хотя утверждать, что мы когда нибудь сможем создать искусственное сознание я бы все таки не стал. Там ведь больше неизвестного, чем изученного.

(Ответить) (Уровень выше) (Ветвь дискуссии)

vlkamov@lj
2010-07-13 03:43 (ссылка)

> такое машине будет неподвластно
Квантовые трубочки

> Но это вопрос не финансов, а технологий.
Да-да, атомная бомба - вопрос не финансов, а технологий.

> и говорить о времени настоящем

Этим вы модифицируете условия задачи, подгоняя под нужный вам ответ. В принципе на этом ветку можно считать завершенной. Вы не хотите получить решение, опасаясь, что оно для вас будет неприемлем. Адьё.

(Ответить) (Уровень выше) (Ветвь дискуссии)

werdender@lj
2010-07-13 04:03 (ссылка)

Адьё так адьё, но я ведь еще в первом комментарии к посту сделал акцент на том, что это вопрос будущего, а не настоящего. Это ведь вы утверждаете что это уже возможно.
Про атомную бомбу вообще не понял. Да, это вопрос технологий. Холодный термояд, например, до сих пор вопрос, сколько бы денег вы туда не влупили. Хотя разумеется деньги довольно сильно все ускоряют.
Это у Петрика все в деньгах. Будут деньги – будут фильтры.
Утверждать, что создание искусственного интеллекта это вопрос только денег, то же, что утверждать что при достаточном финансировании вы сможете построить антигравитационный двигатель.

Не взлетит.

(Ответить) (Уровень выше)

_winnie@lj
2010-07-13 05:07 (ссылка)

Понимание контекста (например иронии в тексте). Без этого ни перевод, ни изложение человеконеотличимым не будут, и в некоторых случаях потребуют правки человеком.
Уже есть некоторые наработки. См. напр. это (http://www.aaai.org/ocs/index.php/ICWSM/ICWSM10/paper/viewPDFInterstitial/1495/1851) (по первой ссылке с http://www.google.ru/search?q=AI+Sarcastic+automatic+detection ).

Да, для понимания текста машина должна иметь информацию по всем психологическим багам человека, должна быть в курсе нашей культуры. Сложно, ещё долго не сделают, но почему бы и нет.

(Ответить) (Уровень выше) (Ветвь дискуссии)

werdender@lj
2010-07-13 09:01 (ссылка)

Просто тогда вопрос уже выходит из области понимания текста. Он, в таком случае, касается искусственного интеллекта. Я, в принципе, не возьмусь утверждать что существуют задачи, которые принципиально невозможно алгоритмизировать. Да, возможно в будущем машина сможет понимать глубинный смысл стишка, который в него заложил поэт, решать задачу Спалланци. Но наверняка в этом случае она уже будет мыслящей и иметь сознание, мышление.

(Ответить) (Уровень выше)

	malchikk@lj 2010-07-15 12:09 (ссылка)
	расскажите про импровизирующую машину, пожалуйста (Ответить) (Уровень выше) (Ветвь дискуссии)

	vlkamov@lj 2010-07-15 22:59 (ссылка)
	Во избежание истории с предыдущим оратором вынужден превентивно спросить - может ли машина мыслить ? (Ответить) (Уровень выше) (Ветвь дискуссии)

	malchikk@lj 2010-07-16 04:58 (ссылка)
	понятия не имею, и никто в данный момент не имеет теперь расскажите? (Ответить) (Уровень выше) (Ветвь дискуссии)

vlkamov@lj
2010-07-16 05:38 (ссылка)

Только в комментах к этому посту трое "за" и несколько "против", то есть понятие имеют.
Но меня интересует ваша позиция, т.к. если вы полагаете что нет (и похоже на то), убеждать вас даже примерами бессмысленно, а лимит на троллей у меня здесь исчерпан.

(Ответить) (Уровень выше) (Ветвь дискуссии)

	malchikk@lj 2010-07-16 06:18 (ссылка)
	я - "за" теперь расскажите? (Ответить) (Уровень выше) (Ветвь дискуссии)

vlkamov@lj
2010-07-16 07:11 (ссылка)

Генератор случайных чисел. Пресловутые миллион обезьян с пишущими машинками.

Для повышения приятности можно добавить фильтр, отбрасывающий худшую часть опусов импровизатора или облагораживающий преобразователь. В сущности импровизация состоит из этих трех шагов:
- генерация темы
- преобразование
- отбор

Например,
http://vadimb.livejournal.com/609880.html
тыкая мышкой в случайные квадратики производишь весьма благозвучную мелодию. Подобными штуками еще Моцарт баловался, только у него были игральные кости (ага, генератор случайных чисел)

Вообще говоря генетические алгоритмы (сочетающие три названных механизма), являются искомым машинным импровизатором.

Некоторые дают весьма неожиданные результаты
http://www.imho.ws/showthread.php?p=46132

Или невообразимые
The two best antenna designs produced by NASA's artificial evolution software

Такую корягу ни один белковый антенщик не выдумает.

(Ответить) (Уровень выше) (Ветвь дискуссии)

	malchikk@lj 2010-07-16 13:26 (ссылка)
	Спасибо. Не уверен, что это импровизация, но примеры интересные. Не знаете, у этой истории с программой-изобретателем есть продолжение? (Ответить) (Уровень выше) (Ветвь дискуссии)

	vlkamov@lj 2010-07-16 22:51 (ссылка)
	Гугль его знает... (Ответить) (Уровень выше) (Ветвь дискуссии)

	malchikk@lj 2010-07-17 06:26 (ссылка)
	Что-то как-то не находится эта его чудо-программа. (Ответить) (Уровень выше) (Ветвь дискуссии)

	vlkamov@lj 2010-07-17 07:52 (ссылка)
	Кого его ? (Ответить) (Уровень выше) (Ветвь дискуссии)

	malchikk@lj 2010-07-17 08:00 (ссылка)
	Джона Козы (John Koza) из этой вот http://www.imho.ws/showthread.php?p=46132 ссылки (Ответить) (Уровень выше) (Ветвь дискуссии)

	vlkamov@lj 2010-07-17 08:42 (ссылка)
	Вряд ли она опубликована, в сущности это кусок установки. (Ответить) (Уровень выше)

	vlkamov@lj 2010-07-16 09:19 (ссылка)
	... машинных импровизаторов так много, что они стали привычном фоном. Даже я забыл о собственной записи http://vlkamov.livejournal.com/276145.html А ведь замечательный пример :-) (Ответить) (Уровень выше)

(Читать комментарии) -