ivanov_petrov: Классификация статей

Классификация статей
Разговор о том, как юзер

psr1913plus16@lj классифицировал статьи из пубмеда

http://ivanov-petrov.livejournal.com/1696967.html?thread=85099207#t85099207

psr1913plus16@lj
Вот одно из возможных приложений этого подхода:
http://psr1913plus16.dreamwidth.org/31983.html. Определена некая метрика на аннотациях статей, массив статей отображен в пространство небольшой размерности, где взаиморасположение статей-точек сохраняет, по возможности, соотношение между "более похоже"-"менее похоже". После этого осталось только охарактеризовать наиболее заметно отличающиеся друг от друга кластеры. В данном подходе в качестве семантической шкалы используется аннотация терминами тезауруса. Так что нет нужды ни в том, чтобы выдумывать свою шкалу, ни в том, чтобы искать испытуемых. Самая большая выборка статей, которую я когда-либо обрабатывал таким образом, была размером около 30000.

Забавно, что на этот постинг даже ссылаются:
http://forum.ixbt.com/print/0015/061680.html

ivanov_petrov@lj
то есть попросту классифицировать статьи. Да, конечно, это можно делать, и регулярно делается - я видел десятки примеров, а можно и много больше накопать. Многие исследователи перерывают базы в сотни тысяч статей и строят разные зависимости по поводу литературы по данному предмету

psr1913plus16@lj
В данном случае да, но на основе этой самой психосемантики. В данном случае единичным актом семантического оценивания является приписывание статье каких-то терминов ("ключевых слов") из тезауруса на основании ее прочтения и осмысления. Т.е. это совсем не то, что называется text mining на основе либо поверхностного распознавания (числа сочетаний нужныхключевых слов в пределах фразы или параграфа), либо более глубокого.

ivanov_petrov@lj
да, я понимаю. Кластеризация на основе не критериев, а понимаемого смысла статей, номенклатура полученных групп осмысленными словами. Читатель складывает статьи в стопки и потом говорит человеческим языком - здесь у меня такие, а тут такие. В результате он может иметь суждение о всех статьях данного пула. На деле там много чего еще надо - фильтры для отсеивания мусора. Категоризация идет в несколько циклов. Фильтр на частоту - если среди стопок по 800-1000 статей есть стопочка с 2 статьями, имеет смысл пренебречь. Можно еще установить отношения между получающимися классами - какие друг к другу ближе и на каких основаниях. будет не просто список мнений, а нечто вроде картины мира, которая видна с помощью данного метода

psr1913plus16@lj
Вот что еще нарыл у себя. Статья опубликована в 2005 г. в журнале "Физиология человека", Т.32, Н.2, стр. 24-33. В целом статья посвящена полушарности и латеральности, среди прочего исследуем связь между полушарной асимметрией и особенностями системы значений/модели мира. Вроде как получалось, что правополушарные люди строят свою систему значений так, что она "прочитывается" как четкий и цельный гештальт. То, как я это написал сейчас, выглядит как нечто самоочевидное, но то, что получилось у нас, требует более сложной интерпретации. И вообще, это был только первый шаг, на последующие не хватило ни времени, ни сил, ни средств. :-(

А до этого, в начале 90-х, придумали особый вариант психосемантической процедуры, где стимулы подбирались на основе (филологической) теории метафоры. Именно с помощью этой методики мы и исследовали гештальтность системы значений в упомянутой выше работе.