flashr: Частотный Анализ слов в YandexUtility

Настроение:

accomplished

Частотный Анализ слов в YandexUtility

Top30 самых используемых слов в ленте http://flashr.livejournal.com/data/rss
livejournal:138 если:47 mail:41 чтобы:33 только:29 меня:28 которые:27 можно:26 blogs:25 есть:22 который:21 может:21 будет:19 просто:19 потом:19 html:19 после:17 надо:16 день:16 сейчас:16 пока:15 либо:15 себя:15 flashr:15 время:15 того:15 users:14 этом:14 один:14 сегодня:14

Всего обработано 107 постов, найдено 8154 слов из них уникально 4846
(c)

flashr@lj и его программа YandexUtility

Чтобы получить такой же статистику для своего блога надо
1) скачать прогу.
2) запустить и зайти во вкладку "МоиСлова"
3) ввести имя своего блога и прочие настройки, нажать кнопку старта.
4) по завершении работы будет доступна кнопка импорта в блог.

Последняя версия программы доступна тут - http://deep-water.ru/tools/YandexUtility.rar
Скачиваете архив, запускаете единственный в папке EXE-файл и радуетесь.
(Про требования к работе можете почитать в первом посте - http://flashr.livejournal.com/23694.html)

Кроме того, я устал от начинающих php программистов, которым я посвящаю следующую картинку - http://deep-water.ru/tools/file211149.jpg

(Читать комментарии) - (Добавить комментарий)

Идея

zemplepashec@lj
2007-10-13 15:06 (ссылка)

Здравствуйте! Спасибо за утилиту!
У меня родилась интересная, в своем роде революционная, идея продолжения вашей проги частотного анализа слов (если она еще не реализована!). Тезис: "Язык определяет сознание" (или наоборот), т.е. людям есть о чем поговорить, если они говорять на одном языке.
А именно: на основе такого частотного анализа слов реализовать в ЖЖ (и не только в нем) поиск "родственных душ".
Алгоритм. Поскольку у всех людей разный словарный запас, словарные предпочтения и вообще очень много слов в языеке, то каждое слово мы можем отнести к нескольким из заранее определенного набора категорий (тегов) (например: товары, эмоции, действия и т.д.). Далее мы получаем частотный анализ тегов уже в процентах (сумма по всем тегам = 100%). Далее мы сравниваем распределения тегов сравниваемых юзеров. К примеру, известным методом наименьших квадратов определяем отклонение двух сравниваемых распределений категорий языков. Анализируя таким образом, мы можем найти людей с наиболее похожими языками, и, вероятно, эти люди могут заинтересоваться друг другом.
Здесь есть 3 загвоздки:
1) важно составить этот самый набор тегов (категорий) - его размер и состав - это самый сложный момент. От набора зависит точность и адекватность поиска;
2) необходимо провести титаническую работу по сопоставлению всех (или хотя бы наиболее встречающихся) слов с тегами (категориями);
3) такой анализ требует больших вычислительных и временных мощностей. Однако, если считать распределение, скажем, раз в месяц и хранить на сервере, то это существенно сократит время поиска.

(Ответить) (Ветвь дискуссии)

Re: Идея

ex_flashr@lj
2007-10-14 10:46 (ссылка)

Идея не нова, она уже частично реализована одним php-энтузиастом для последний 25 постов. Я же, так как работаю для всех постом, пока занят над морфологией словоформ, ибо mystem от яндекса, на мой взгляд, работает криво.

(Ответить) (Уровень выше)

(Читать комментарии) -