Козленок, который умел считать Продолжение набросков к теории кластеризации ЖЖ, начало см. [
1], [
2], [
3], [
4], [
5], [
6], [
7], [
8].
mithrilian@lj раскритиковала термин "индекс интереса". Действительно, слово "интерес" несет излишнюю эмоциональную нагрузку. Давайте называть
i(A,B) просто
индекс связи,
s(A,B)=
i(A,B)+
i(B,A) -
сила связи,
d(A,B)=
i(B,A)–
i(A,B) -
индекс доминирования.
Реально ли создать робота, который считает индекс связи для любой пары юзеров А и В? Для этого необходимо обрабатывать все посты (записи и комментарии) в ЖЖ. Судя по тому, что поиска по комментариям до сих пор нет, задача не слишком простая. Однако, в отличие от поиска, нам необходимо индексировать не полное содержание постов, а лишь ссылки в них (плюс их физическое расположение - ответами на чьи посты они являются).
После подсчета можно будет построить рейтинги по суммарному индексу связи и суммарному индексу доминирования. "Пузомерки" всегда вызывают интерес у публики. Рейтинги будут как накопительными, так и динамическими - рейтинг дня, недели, месяца, года.
Далее мы перейдем к изучению структуры ЖЖ. Гипотеза о том, что в Живом Журнале есть доминирующий кластер, при нынешнем определении "силы связей" выглядит уже не столь очевидной. Анализ сети, построенной на "силе связей", продемонстрирует основные кластеры в русском ЖЖ, выделит их ядра - лидеров, вокруг которых формируются наиболее устойчивые группы. Еще больший интерес представляет анализ векторных индексов связи, показывающий направление информационных потоков.
Следующий этап - изучение динамики структурных изменений и влияния внешних событий (консолидация, распад, укрепление и ослабление связей, возникновение новых связей и кластеров, и т.д.)