Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет ivanov_petrov ([info]ivanov_petrov)
@ 2011-05-12 07:53:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Перевод текста в схему
Интересна степень инвариантности. Вот дан текст. Предлагается нарисовать его содержание. То есть изобразить схематически его содержание. понятно, что это будет нечто вроде блок-схемы - какие-то понятия со стрелочками. Но насколько это инвариантно? Разные люди выделят из одного текста одну схему или разные? То есть - конечно, можно всегда извратиться и интерпретировать иначе, но если ставить задачу понять, а не особенно оригинально перетолковать - насколько инвариантно? Оказывается, такие опыты делали.

http://www.work.vegu.ru/vegu/vestnik/DocLib/57-62_%D0%91%D0%BE%D0%B3%D0%BE%D1%81%D0%BB%D0%BE%D0%B2%D1%81%D0%BA%D0%B0%D1%8F.pdf
Статья И.В. Богословской о работах А.И. Новикова, еще 80-х годов.

Как формализовать понимание, переход от текста к его содержанию - этот вопрос не ставится. Это отдельная тема. А вот когда понимание есть, и читателю дано содержание текста - вполне можно формализовать переход от этого плана содержания к некоторому другому языку, например- языку, изображающему содержание.

В эксперименте предъявлялись текст и граф. Требовалось сказать, какие действия надо произвести с текстом, чтобы получить данный граф. Смотрели на операции, пошаговые преобразование испытуемыми текста. Там нашлись инварианты. Универсальными оказались, например, выделение номинативных групп, выделение имен денотатов, определение отношений между денонатами. Это в книге Новикова Семантика текста и ее формализация. Далее испытуемые выделяли денотатные пары (подл - сказуемое - дополнение). Потом они свертывали текст - к этим элементам.

Понятно, что - поскольку идет свертывание - разные тексты могут быть свернуты одним и тем же образом. То есть сама операция сведения текста к структуре содержания создает множества синонимичных текстов.

В диссертации в 2010 году http://www.eltech.ru/education/aspir/ISTcilikov.pdf делается машинная обработка. По сути там те же игры - ну, выделяются денотативные узлы, взвешиваются, отсеиваются те, что пореже, прочие иерархизуются. "По результатам эксперимента полученные результаты оказываются удовлетворительными для предварительного формирования структуры изначально неструктурированного естественно-языкового текста при условии последующей их правки вручную." Циликов.

Это к рефератам машинным, всяким "понимающим" вещам и в конечном счете к ИИ. Но мне кажется, увлеклись - как обычно - численными методами, а там затык. Между тем никто не запрещает не доводить формализацию до степени числовой спелости. Можно остановиться ранее. Получатся сильнейшие свертки содержания. Как мне кажется, необходимые вещи очевидны. Надо иметь не один текст, а много.

С одним текстом свертка не проходит, потому что не ясно, что же тут второстепенно, а что очень важно. Точнее, разное для разных целей и пр. А вот когда текстов 1000 или больше, их наложение - (операция "принимаем их как однотипные) - выделяет важное. Тем самым формализовать один текст нельзя, а тысячу - можно. Выделяя повторяющиеся элементы, понятным образом классифицируя части, приходим к сильнейшему сжатию не плана выражения, а именно плана содержания. (По секрету: особенно сильная свертка там будет происходить по той причине, что проходит через сведение к невербальному. Это не пересказ, по сравнительно полное отображение содержания невербальными средствами, и потому сжатие происходит очень сильное). Тысячи страниц текстов можно представить на одной страничке. - Отличная для сопоставительного анализа множества текстов. СМИ, или документов. Но самое приятное - для анализа разговоров и высказываний в сети. Это, в общем-то, единственный способ "взять" этот огромный материал.


(Добавить комментарий)


[info]till_j@lj
2011-05-12 03:06 (ссылка)
А какова цель такой свёртки? Т.к. то, что она исказит содержание понятно, иногда одно слово или фраза делает текст противоположным по смыслу. Насколько я понимаю, для анализа лексической активности сейчас используют подсчёт ключевых фраз, ну так там и цели осмыслить нет, просто говорят: вот за такой-то период вспышка упоминаний о том-то. На этом основаны идеи всяческих фальсификаций вроде веб-бота. А в случае со свёрткой (не связанной однозначно со смыслом) что нам это даст?

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2011-05-12 03:21 (ссылка)
Ответов можно много. Один, глуповатый. Представьте, что некто изобрел аппарат, который сгущает тепло в кирпичи. Не очень ясно, зачем такие кирпичи, но сама физика процесса весьма занимательна. Разобравшись, скорее всего будут делать не кирпичи, но это будет очень интересно. Здесь: может быть, дело не в конкретном результате сейчас, а в том, что огромные массы текстов, с которыми ничего нельзя сделать - теперь можно обрабатывать неким единообразным и технологичным образом. Важно понять, что сейчас с этим именно ничего нельзя сделать. Это не только тексты в сети, но в сети - самый массовый продукт. Вот в открытом доступе разговоры миллионов людей. И что? а ничего. К ним нет подхода. Они недоступны для анализа - нет аналитических средств. Ну и вот, предложено. - Другой взгляд: Вы получаете в обозримом виде содержание тысяч разговоров на некую тему. Изучение политического, общественного мнения, культурных мифов, отношений людей к чему угодно, структуры сознания как они есть. Карта общественного мышления. С возможностью прогноза мнений, понимания, что будет, если сказать так, какие будут аргументы и пр.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]till_j@lj
2011-05-12 03:29 (ссылка)
Я Вас понял, но у меня сильные подозрения, что именно смысл формализовать невозможно(анализируя текст при нынешнем уровне анализа), а все прочие формализации мало чем будут отличаться от обычного архивирования

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2011-05-12 03:33 (ссылка)
Да, конечно, я понимаю Ваши подозрения. Но я говорю не о том, что запроектировано, а от том, что уже сделано. не о текстах, на которые ссылки - это просто стрелочка: да, в ту же сторону.

Просто Вы под формализацией понимаете численные методы, скорее всего. Посмотрите лучше иначе: вот тезис: понимание есть формализация.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]till_j@lj
2011-05-12 03:46 (ссылка)
Представляю и такой подход, но в этом случае формализаций будет великое множество при этом включая противоречащие друг другу (как мы это видим соответственно в проблеме понимания). Т.е. я сомневаюсь что из текстов можно выдавить некое хотя бы преобладающее понимание, если они не формализованы изначально самим автором в соответствии с неким общепринятым стандартом изложения. Ну и с логикой конечно непонятки(даже в случае если урезонят), вероятно нужна будет специальная, а её нет и не предвидится насколько я знаю.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2011-05-12 03:48 (ссылка)
Разумеется. Не будет однозначности. Это такое пугало... Ну, здесь я спорить не могу. В этом месте сходят с ума, и я не волен это изменить.

(Ответить) (Уровень выше)


[info]9in_10in@lj
2011-05-12 03:34 (ссылка)
Лучшая филологическая работа по формализуемой сверткѣ текстовъ – великая, этапная – какъ разъ и была выполнена на матерьялѣ множества; правда, понадобилась не тысяча, а всего 101 текстъ. В.Я.Проппъ, «Морфологiя сказки», 1928.

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2011-05-12 03:36 (ссылка)
Да, конечно. С неё начались эти игры. В некотором смысле. Но если пойти глубже - это еще игры протестантского богословия по критике текста, много раньше - сличение изданий, выявление инвариантов, понятие герменевтики и создание множества инструментов для структурного анализа. Но что говорить - после Проппа в филологии это стало очень модно и много понаделали. Нигде не собрано, а там и драмы формализовали, и разного рода жанровые истории. Но методы эти за границу филологии не перешли. - Почему?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]9in_10in@lj
2011-05-12 04:06 (ссылка)
Ой, тутъ вообщѣ такiе долгiе разговоры…
1) Да, герменевтика. Но въ нашемъ контекстѣ герменевтика имѣетъ значенiе въ основномъ потому, что протестанты создали ея не съ нуля, а изпользовали аппаратъ и наработки «обратной» (пониманiе текста – производство текста) дисциплины – риторики (Г.Гадамеръ. Герменевтика и риторика), каковая существовала уже 2000 лѣтъ и была очень неплохо формализована. Насъ интересуетъ ея первый раздѣлъ – Inventio. Ломоносовъ, пересказывая учителей, объясняетъ, какъ развернуть текстъ изъ фразы путемъ послѣдовательнаго развертыванiя всѣхъ ея элементовъ и т.д. Особенно практиковалась опора на т.н. топосы – смысловыя общiя мѣста, формально и въ оттѣнкахъ различающiяся въ разныхъ текстахъ (многихъ), но сводимыя къ инварiанту (терминъ и область интереса реанимированы Курцiусомъ, «Европейская литература и латинское средневековье», 1948).
2) Что-то подстегнулось генеративизмомъ. Самъ Хомскiй былъ от этого скорѣе далекъ, но нашъ Мельчукъ предложилъ модель «Смыслъ – Текстъ» съ компонентами типа «какъ свернуть» и «какъ развернуть» (въ основномъ тамъ другiя лингвистическiя темы). Причемъ особенно занятны области перехода от знаковаго (имѣющаго знаковую форму, семiотическаго, таковъ текстъ) къ не-знаковому (понимаемый и выражаемый смыслъ, семантическое). Соавторъ Мельчука Жолковскiй и Щегловъ с опорой в т.ч. на Проппа предложили аналогичную модель для художественныхъ текстовъ «Тема – Текстъ», она же «поэтика выразительности», мало разработанную въ подробностяхъ, но съ той же амбицiей – представить грамматику развертыванiя/свертыванiя текстовъ.
3) Работами подобнаго типа особо отмѣчалась т.н. «лингвистика текста», популярная в 1960-80-е, правда, хорошаго было сдѣлано мало. В т.ч. были работы по реферированiю текста, по выделенiю «ключевыхъ словъ» и т.д.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2011-05-12 04:15 (ссылка)
1. да. если еще глубже - туда.
2. я понимаю. конечно, Мельчук. И пр. Но я и спросил - отчего за границы филологии не вышло? Вы отвечаете6 в филологии кое-что сделано, но мало.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]9in_10in@lj
2011-05-12 04:26 (ссылка)
А куда? Въ мѣждисциплинарную «когнитивистику»? Туда, навѣрно, что-то вышло. В «соцiальныя науки»? Но им зачѣмъ? Въ бiологiю какъ таковую? Но чѣмъ это тамъ можетъ пригодиться? То же съ математикой.
Текстъ – проблема вполнѣ себѣ внутрифилологическая. Другiе области знанiя интересуются текстомъ настолько, насколько онѣ приближаются къ филологiи.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2011-05-12 06:54 (ссылка)
Да, это ответ. Репризно звучит.

Текст - это внутрифилологическая проблема.

Я вообще люблю, когда люди серьезно подходят к делу и тащут на себя. Поэтому добавлю: жизнь - проблема внутрибиологическая.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]9in_10in@lj
2011-05-12 13:41 (ссылка)
А что? Я думалъ, что устройство жизни - проблема и впрямь внутрибiологическая. Только развѣ всякiя смѣжныя бiохимiи и т.д. Нѣтъ?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2011-05-12 14:23 (ссылка)
Вы смелый человек. Не жалко Вам себя.

(Ответить) (Уровень выше)


[info]misha_makferson@lj
2011-05-12 04:31 (ссылка)
>Но я и спросил - отчего за границы филологии не вышло?
Я подозреваю, что потому что тема так скажем не коммерческая чтобы именно IT команды пришли и сделали софт.
Да вот коллега shvarz спрашивал недавно про софт для обработки каких то генетических результатов. Люди там говорят, что местами до сих пор феерия, кто в лес, кто по дрова, в области промышленного стандарта конь только начал валяться. А ведь это очень-очень накачиваемая деньгами отрасль.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]9in_10in@lj
2011-05-12 04:39 (ссылка)
А, такъ речь про софтъ и IT? я по глупости не понялъ. Ну тогда свести вопросъ къ болѣе простому: а почему до сихъ поръ нѣтъ хорошаго автоматическаго переводчика? Трудно, языкъ многомѣренъ, неизчислимъ и т.д. То же и здѣсь.

(Ответить) (Уровень выше)


[info]9in_10in@lj
2011-05-12 04:22 (ссылка)
4) Отчасти самостоятельно, отталкиваясь от Проппа, еще одинъ путь для свертки предложил Леви-Строссъ. В текстахъ (для него это были миθы vs. пропповскiя сказки), въ которыхъ композицiонная, конструктивная схема, «синтаксисъ» сильно варiабельны и не вполнi информативны, но наборъ термовъ, «словарь-лексиконъ» относительно устойчивъ и информативенъ, перспективнѣе создавать что-то вродѣ смысловой карты. Самъ Леви-Стросс изпользовалъ контрастныя пары («семантическiя оппозицiи»): выделить ихъ базовый набор, наиболiе полно реферирующiй текст, и прослѣдить дальнѣйшее поведенiе. У насъ такъ работали Ивановъ и Топорвъ, Николаева, Цивьянъ и др. Перспективное отвѣтвленiе – топоровское понятiе «модели мира» (не «картиеы мира» и т.д.!) какъ средства в т.ч. свертки-развертки.
5) Вот и типологiя: методы, орiентированные на каркасъ-схему (Проппъ и др.) – методы, орiентированные на рассыпной словарь, термы; послѣднiе – просто словарь и его группировка по смыслу; послѣднiе – группировка по контрасту (Леви-Строссъ и др.) – группировка по смѣжности (немецкое понятiе лексическихъ полей, «мотивная поэтика» и т.д.).

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2011-05-12 06:53 (ссылка)
да, насколько я понимаю, это всё весьма известные вещи.

(Ответить) (Уровень выше)


[info]konets_tsitati@lj
2011-05-12 23:25 (ссылка)
Далеко не все тексты можно формализовать методом Проппа, это известно. Как шутил Вадим Руднев, как только филология научилась изучать сюжет, литература начала его методично разрушать.

В своей последней книжке "Сквозь тусклое стекло" Михаил Ямпольский, указывая на протестанские корни филологии, уже говорит о филологии как науке непонимания, о мере неопределённости текста.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]9in_10in@lj
2011-05-13 00:01 (ссылка)
Нехорошо, конечно, сводить крупныхъ и яркихъ авторовъ къ лозунгамъ, но все-таки Ямпольскiй – «постструктуралистъ». Ему по чину положено говорить о непониманiи и неопределенности.
А методъ Проппа впрямь очень многаго не видитъ, и можно долго перечислять, чего именно. Но дѣло въ томъ, что и видитъ онъ чрезвычайно много.

(Ответить) (Уровень выше)


[info]fregimus@lj
2011-05-12 04:57 (ссылка)
Спасибо. Мне редко попадается русская литература на тему. Постараюсь отыскать книгу Новикова — может быть, натолкнет.

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2011-05-12 06:56 (ссылка)
а что есть пристойного на английском? Только не говорите, что тысячи работ. Я видел. Но - мне бы в самом деле пристойного, так-то их много.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]qaraabayna@lj
2011-05-12 11:32 (ссылка)
Есть методы работающий на полном лексическом анализе текстов в Pubmed. На выходе получаются отношения между биологическими сущностями - типа белок A ингибирует белок B, белок C влияет на болезнь D.

http://www.ncbi.nlm.nih.gov/pubmed/12967967

То?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2011-05-12 11:36 (ссылка)
Не думаю. Это штука известная. Так делаются биржевые новости, многие научные новости. Это - вставление в некий шаблон нарратива вынутых из текста значений. Уже этого трудно добиться, но этов сего лишь подстановка.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]qaraabayna@lj
2011-05-12 11:55 (ссылка)
Разница только в словарях. Без знания того, что мотор - существительное - не обойдешься.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]fregimus@lj
2011-05-13 09:18 (ссылка)
Есть разные подходы. Можно индуцировать словарь.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]qaraabayna@lj
2011-05-13 12:52 (ссылка)
Это понятно

(Ответить) (Уровень выше)


[info]fregimus@lj
2011-05-13 09:16 (ссылка)
Я не знаю, к сожалению. Есть конференция, где происходит вся тусовка (http://www.nist.gov/tac/publications/index.html), но — с точностью до того, насколько я угадываю, что Вы называете пристойным — не могу ничего специально обозначить.

Все системы понимания текста (включая нашу собственную), вызывают у меня две реакции, первую — «ого!» — и вторую, сами знаете, какую. Возможно, Watson — исключение, но он из другой немного области, чем та, о которой Вы спрашиваете.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2011-05-13 11:30 (ссылка)
спасибо

(Ответить) (Уровень выше)

Как-то видел алгоритм
[info]b_graf@lj
2011-05-12 09:22 (ссылка)
с помощью которого можно сочинять аформизмы в стиле Ларошфуко (только определения добавляй). Ну - это с обратной стороны подход, конечно (генерация текста, а не "сгущение его в кирпич").

(Ответить) (Ветвь дискуссии)

Re: Как-то видел алгоритм
[info]ivanov_petrov@lj
2011-05-12 09:26 (ссылка)
эт да. стихи там... Это другое: человек способен вставлять смысл в сочетания слов. Если ему подсунуть последовательность слов, то он в широких пределах умеет считать это осмысленным.

(Ответить) (Уровень выше)

свёртки-развёртки
[info]stepanbezusov@lj
2011-05-12 14:43 (ссылка)
///Получатся сильнейшие свертки содержания.\\\

Почему Вы думаете, что - свёртки?

Умножение категориально-понятийных матриц говорящих на категориально-понятийные матрицы анализирующих даст увеличение числа измерений пространства содержаний и, соответственно, не свёртки, а развёртки структур содержаний.

Для свёртки придётся начать с анализа анализирующих...

(Ответить) (Ветвь дискуссии)

Re: свёртки-развёртки
[info]ivanov_petrov@lj
2011-05-12 14:46 (ссылка)
(с боязливым уважением) эк...

Я просто по опыту. Тысячи страниц сводятся к 1-3. А ежели умножать... тогда наверное...

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: свёртки-развёртки
[info]stepanbezusov@lj
2011-05-12 15:06 (ссылка)
Так в опыте-то: мы имеем дело с ситуациями, отнесенными к текстам.

Их и схематизируем - отношения элементов текста к элементам ситуации - смыслы. Причём: только те, элементы ситуаций которых пересекаются с нашими, собствеными. А других просто не видим, фильтруем.

А шайтан-машина про ситуации думать не может. Для неё ситуация ничем от текста не отличается.

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: свёртки-развёртки
[info]ivanov_petrov@lj
2011-05-12 15:11 (ссылка)
недостаток компьютера - у него нет страха смерти и чувства боли. Некоторые говорят. что это можно моделировать. но это странные люди. они не понимают. что говорят. им снится сон, будто они думают. А пока компьютер не боится смерти - как заставить его делать дело? Он будет равнодушно умножать варианты. Вот если его хорошенько припугнуть - он тут же, как миленький, начнет фильтровать результаты.

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: свёртки-развёртки
[info]stepanbezusov@lj
2011-05-12 16:28 (ссылка)
Это бы ещё ничего
но он - представьте - не любит деньги
А это значит - с ними нельзя иметь дЕла
И, что совершенно возмутительно,
Они мутируют в сторону снижения потребления
Это уж точно никуда не годится

(Ответить) (Уровень выше)


[info]konets_tsitati@lj
2011-05-12 23:11 (ссылка)
Так или иначе, но, какое-никакое, понимание всегда предшествует тексту - вчитывание своих смыслов тем неизбежней, чем чище структуралистские помыслы.

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2011-05-13 00:25 (ссылка)
Долгий разговор. Предлагаю подумать, такие уж свои - вчитываемые символы. А то как умное слово сказать - нету, одни заимствования, статья от статьи только инициалами автора отличается, а как текст понять - то все уж такие творцы, просто страшно за них.

(Ответить) (Уровень выше)