Добавление комментария

Идея
Здравствуйте! Спасибо за утилиту!
У меня родилась интересная, в своем роде революционная, идея продолжения вашей проги частотного анализа слов (если она еще не реализована!). Тезис: "Язык определяет сознание" (или наоборот), т.е. людям есть о чем поговорить, если они говорять на одном языке.
А именно: на основе такого частотного анализа слов реализовать в ЖЖ (и не только в нем) поиск "родственных душ".
Алгоритм. Поскольку у всех людей разный словарный запас, словарные предпочтения и вообще очень много слов в языеке, то каждое слово мы можем отнести к нескольким из заранее определенного набора категорий (тегов) (например: товары, эмоции, действия и т.д.). Далее мы получаем частотный анализ тегов уже в процентах (сумма по всем тегам = 100%). Далее мы сравниваем распределения тегов сравниваемых юзеров. К примеру, известным методом наименьших квадратов определяем отклонение двух сравниваемых распределений категорий языков. Анализируя таким образом, мы можем найти людей с наиболее похожими языками, и, вероятно, эти люди могут заинтересоваться друг другом.
Здесь есть 3 загвоздки:
1) важно составить этот самый набор тегов (категорий) - его размер и состав - это самый сложный момент. От набора зависит точность и адекватность поиска;
2) необходимо провести титаническую работу по сопоставлению всех (или хотя бы наиболее встречающихся) слов с тегами (категориями);
3) такой анализ требует больших вычислительных и временных мощностей. Однако, если считать распределение, скажем, раз в месяц и хранить на сервере, то это существенно сократит время поиска.