Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет ivanov_petrov ([info]ivanov_petrov)
@ 2010-07-13 07:42:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Компьютерный пересказ текста
У меня вопрос. Есть ли разработки в этом направлении?
Понятно, что есть морфологический анализ слов, поисковые индесы по тексту, расстановка тэгов и ключевых слов. Переводчики. Это понятно. Но вопрос о другом: компьютерное реферирование и пересказ - развиваются?

Это ведь вопрос об искусственном интеллекте. Просим - перескажи текст, не зачитай, а перескажи. Критерий. Я пока не смог понять, насколько это уже удается.

"Работают над этим давно http://www.gpntb.ru/win/ntb/ntb2001/12/f12_03.htm
выработаны многочисленные подходы к решению данной проблемы, которые достаточно четко подразделяются на два направления – квазиреферирование, основанное на экстрагировании из первичных документов с помощью определенных формальных признаков «наиболее информативных» фраз (фрагментов), совокупность которых образует некоторый экстракт (квазиреферат), и собственно автоматическое реферирование, основанное на выделении из текстов с помощью специальных информационных языков наиболее существенной информации и порождении новых текстов (рефератов), в большей или меньшей степени изоморфных первичным документам (или их частям)."

Как я понимаю, это работа с частоткой - выделяются значимые частые слова и ими фаршируется новый текст =автореферат.

"Суть индикаторного метода заключается в использовании словарей маркеров, индикаторов и коннекторов (лексический аппарат свертывания), насчитывающих свыше 1 500 лексических единиц так называемой неключевой внетематической лексики, и формул выбора, отражающих требования к различным видам вторичных документов для машинного экстрагирования фраз, которые относятся к различным содержательным аспектам документов (в нашем случае научно-технических статей). Совокупности таких фраз, определенным образом упорядоченных, и образуют различные виды вторичных документов – основного средства информационного обслуживания."

http://www.olap.ru/basic/refer.asp
Системы автоматического реферирования
(старый текст, 2000 г.)

http://www.kansas.ru/pb/paper/rcdl2007.pdf
Система автоматического реферирования новостных сообщений на основе машинного обучения

http://elar.usu.ru/bitstream/1234.56789/1424/1/IMAT_2005_25.pdf
Автоматическое реферирование веб-документов с учетом запроса
В системе используется восходящий к работам 1950-60-х годов подход к выделению важных предложений (sentence extraction) с небольшими модификациями.

http://rcdl.ru/doc/2008/177_183_paper20.pdf
О методе автоматического реферирования, основанном на результатах рубрицирования документов
Идея метода заключается в том, чтобы максимально использовать результаты предшествующих этапов обработки и составлять реферат после определения основных тем документа.

http://www.seminarprojects.com/Thread-development-of-an-auto-summarization-tool
Development of an auto-summarization tool

http://www.informaworld.com/smpp/content~db=all~content=a917618494
Automatic Abstracting and Summarization

http://www.minesight.com/enl/February_2010/February_English/Seminar_abstracts.pdf

http://itt.nissat.tripod.com/itt0202/ruoi0202.htm

http://www.pertinence.net/index_en.html

http://www.isi.edu/natural-language/projects/SUMMARIST.html

http://www.indiastudychannel.com/resources/12455-Development-an-auto-summarization-tool.aspx
----------------------------
Насколько я понимаю, пока глухо - есть очень корявые системы, на уподобление настоящему пересказу рассчитывать нечего.
(C) [info]zh3l@lj


(Читать комментарии) - (Добавить комментарий)

Ну и тривиальное замечание
[info]misha_makferson@lj
2010-07-13 04:46 (ссылка)
Если речь о тексте вообще то задача видимо неразрешима в принципе. Пересказать Кафку или там Джойса какого и люди то не все могут.
Мы ведь некое подмножество обсуждаем? А именно реферирование научных и\или технических текстов.

(Ответить) (Ветвь дискуссии)

Re: Ну и тривиальное замечание
[info]ivanov_petrov@lj
2010-07-13 04:53 (ссылка)
я сегодня готов быть добрым. Не надо Джойса. Научные статьи и документы. В сторону вторые смыслы, иронию и прочий нарративный нелегал. Вот, к примеру, новостной робот Яндекса делает что-то этакое с новостями - хотя б в сюжеты их соединяет. Может быть, в этом направлении можно двинуться.

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: Ну и тривиальное замечание
[info]eldhenn@lj
2010-07-13 05:15 (ссылка)
А может действительно - формализовать, стандартизировать написание статей и документов? И создавать их не полностью самостоятельно, а с помощью специального софта, который будет как-то заставлять поток мысли укладываться стройными рядами. И наступит светлое будущее - научные статьи в XML. А там, глядишь, потихоньку и до Вильяма нашего Шекспира доберёмся...

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: Ну и тривиальное замечание
[info]ivanov_petrov@lj
2010-07-13 05:22 (ссылка)
зачем тогда пересказ? Изменить мышление людей можно. Оно и так, прямо скажем, говенное - люди в большинстве в мыслительном плане... Гхм. Так вот, сделать хуже - не проблема. Но зачем? Вам кажется, что вокруг все слишком умные?

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: Ну и тривиальное замечание
[info]eldhenn@lj
2010-07-13 05:32 (ссылка)
Погодите. Почему изменить мышление? Мы говорим об узкой области - специальных статьях, раскрывающих какие-то научные идеи, открытия, эксперименты, и о документах.
Бухгалтерия - это изменённый способ мышления? Или это удобный способ учёта хозяйственной деятельности?

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: Ну и тривиальное замечание
[info]misha_makferson@lj
2010-07-13 05:42 (ссылка)
>Погодите. Почему изменить мышление?
(задумчиво) Ну, если полагать что гипотеза Сепира-Уорфа в чем-то верна....

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: Ну и тривиальное замечание
[info]eldhenn@lj
2010-07-13 05:47 (ссылка)
Ну нет у нас задачи изменить язык! У нас есть задача - создать бухгалтерский учёт для научных текстов. Это не отменяет Пушкина, Шекспира и Чайковского!

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: Ну и тривиальное замечание
[info]misha_makferson@lj
2010-07-13 06:31 (ссылка)
Вопрос о литературных или там философских текстах даже и не ставится. Автор журнала хочет сказать (ну как я понял) что способ изложения достигнутого научного результата формализованным, приспособленным к машинному разбору языком будет влиять на само осмысление этого результата как самим автором текста, так и человеками которые этот текст будут читать.

(Ответить) (Уровень выше)

Re: Ну и тривиальное замечание
[info]eldhenn@lj
2010-07-13 05:18 (ссылка)
Статьи и документы они ведь уже частично формализованы. У статьи обязательно ... ну как правило есть структура какая-то, есть хорошие правила оформления - там количество и плотность иллюстраций, пояснения к этим иллюстрациям, введение, раскрытие мысли, заключение...

(Ответить) (Уровень выше)


(Читать комментарии) -