Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет flashr ([info]flashr)
@ 2007-10-09 17:14:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Настроение:accomplished

Частотный Анализ слов в YandexUtility

Top30 самых используемых слов в ленте http://flashr.livejournal.com/data/rss
livejournal:138 если:47 mail:41 чтобы:33 только:29 меня:28 которые:27 можно:26 blogs:25 есть:22 который:21 может:21 будет:19 просто:19 потом:19 html:19 после:17 надо:16 день:16 сейчас:16 пока:15 либо:15 себя:15 flashr:15 время:15 того:15 users:14 этом:14 один:14 сегодня:14

Всего обработано 107 постов, найдено 8154 слов из них уникально 4846
(c) [info]flashr@lj и его программа YandexUtility


Чтобы получить такой же статистику для своего блога надо
1) скачать прогу.
2) запустить и зайти во вкладку "МоиСлова"
3) ввести имя своего блога и прочие настройки, нажать кнопку старта.
4) по завершении работы будет доступна кнопка импорта в блог.


Последняя версия программы доступна тут - http://deep-water.ru/tools/YandexUtility.rar
Скачиваете архив, запускаете единственный в папке EXE-файл и радуетесь.
(Про требования к работе можете почитать в первом посте - http://flashr.livejournal.com/23694.html)


Кроме того, я устал от начинающих php программистов, которым я посвящаю следующую картинку - http://deep-water.ru/tools/file211149.jpg


Image


(Добавить комментарий)


[info]ex_flashr@lj
2007-10-09 10:26 (ссылка)
PS: уехал по делам, поэтому на комменты буду отвечать поздно ночью.

(Ответить)


[info]hapupa@lj
2007-10-09 10:37 (ссылка)
куда же делось слово юзер
и совсем нет мата)))

(Ответить) (Ветвь дискуссии)


[info]ex_flashr@lj
2007-10-09 10:42 (ссылка)
бля, юзер пришел.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]hapupa@lj
2007-10-09 10:48 (ссылка)
гыыы
гиде???

(Ответить) (Уровень выше)


[info]fenst@lj
2007-10-09 11:04 (ссылка)
....видел такую в онлайне...
зачем скачивать тогда?..

(Ответить) (Ветвь дискуссии)


[info]goujat@lj
2007-10-09 12:21 (ссылка)
чтоб пароли куда надо складывать.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]fenst@lj
2007-10-09 12:24 (ссылка)
а, ну тада с удовольствием скачаю, да

(Ответить) (Уровень выше)


[info]ex_flashr@lj
2007-10-09 16:52 (ссылка)
какие к черту пароли, она работает по открытым записям только.

(Ответить) (Уровень выше)


[info]ex_flashr@lj
2007-10-09 16:53 (ссылка)
та, что в онлайне
1) работает неправильно
2) смотрит только последние 25 записей
3) не позволяет решать класс задач, которые решает моя прога.

(Ответить) (Уровень выше)


[info]coolkat@lj
2007-10-09 12:27 (ссылка)
через проксю с авторизацией не работает

(Ответить) (Ветвь дискуссии)


[info]ex_flashr@lj
2007-10-09 16:54 (ссылка)
Это, чтоль шутка такая? ясен пень, что проге нужен прямой доступ по 80му.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]coolkat@lj
2007-10-10 06:20 (ссылка)
какая такая шутка, остальные работают, например клиент лирушный, тоже через IE все качает, но сначала авторизацию спрашивает

(Ответить) (Уровень выше)


[info]topb_ot30@lj
2007-10-09 12:50 (ссылка)
Вы попали в top30 на яндексе самых обсуждаемых тем в блогосфере. Поэтому копия вашего поста доступна в ленте по ссылке (http://topbot2.livejournal.com/2788730.html)Почитать текст со всеми комментариями можно тут (http://deep-water.ru/?http://flashr.livejournal.com/29788.html)Это Ваш 7-й ТОПовый пост за последний год (http://deep-water.ru/top/). Посмотреть статистику автора можно тут (http://deep-water.ru/top/info.php?id=3916).Этот "бот не имеет отношения к Яндексу" © НадежныйИсточникImage

(Ответить) (Ветвь дискуссии)


[info]her_major@lj
2007-10-09 18:08 (ссылка)
Вот это да. Так легко в топ 8)

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ex_flashr@lj
2007-10-09 18:21 (ссылка)
еще бы, если заведуешь ТОПом.

(Ответить) (Уровень выше)


[info]aaaraslanov@lj
2007-10-09 18:49 (ссылка)
Image

прокомментируйте, плз

(Ответить) (Ветвь дискуссии)


[info]ex_flashr@lj
2007-10-09 19:09 (ссылка)
Я ожидал подобных вопросов, поэтому дал ссылку на первое описание проги, где описаны все требования - http://flashr.livejournal.com/23694.html

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]aaaraslanov@lj
2007-10-09 19:32 (ссылка)
упс, не досмотрел, спасибо

(Ответить) (Уровень выше)

с Ли.ру не пашет
[info]hosjams_pjams@lj
2007-10-09 19:31 (ссылка)
А подсчет слов в блоге на Ли.ру не работает. Пишет "лента RSS не распознана Яндексом". Это почему?
Имя пишу как там точно.

(Ответить) (Ветвь дискуссии)

Re: с Ли.ру не пашет
[info]ex_flashr@lj
2007-10-09 19:47 (ссылка)
Какое имя? Возможно проблемма в "_" и "-" попробуйте поменять их. Либо укажите точную ссылку на RSS

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: с Ли.ру не пашет
[info]hosjams_pjams@lj
2007-10-09 19:54 (ссылка)
Попробовал поменять _ и - в имени блога сына. Не помогает.
В моем инени на Ли.ру палочек нет. Все равно не работает.

А точная ссылка это как? Где взять?
Спасибо за участие.

(Ответить) (Уровень выше)

Re: с Ли.ру не пашет
[info]hosjams_pjams@lj
2007-10-09 20:01 (ссылка)
Нет, и со ссылкой
http://www.liveinternet.ru/users/pjams/rss

Не работает. И с убивалкой рекламы тоже вроде косяки - дает ошибку какую то сложную.

Сыроват продуктец-то :)

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: с Ли.ру не пашет
[info]ex_flashr@lj
2007-10-09 20:10 (ссылка)
Все работает, просто указывайте правильно ТИП.
вот скачем ваша частота за последний год, без местоимений и частиц
Top30 самых используемых слов в ленте http://www.liveinternet.ru/users/pjams/rss/просто:29 меня:28 можно:21 было:21 заголовка:20 очень:19 сказал:18 малыш:18 почему:18 только:17 больше:17 надо:16 потому:15 него:15 вообще:14 монетки:14 этом:13 будет:13 себе:13 найти:13 день:12 когда:12 есть:12 общем:12 искать:12 тогда:12 такие:12 свою:11 всех:11 руки:11 Всего обработано 31 постов, найдено 4383 слов из них уникально 1985(c) [info]flashr@lj и его программа YandexUtility (http://flashr.livejournal.com/tag/yandexutility)

(Ответить) (Уровень выше)

Re: с Ли.ру не пашет
[info]ex_flashr@lj
2007-10-09 20:12 (ссылка)
а хотя да, с лиру там маленький баг.

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: с Ли.ру не пашет
[info]hosjams_pjams@lj
2007-10-09 20:20 (ссылка)
Именно что баг. По всякому пробовал - не пашет. У вас пашет у меня нет.

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: с Ли.ру не пашет
[info]ex_flashr@lj
2007-10-09 20:26 (ссылка)
Не парьтесь, я его поправил и изменил ссылку на прогу в посте на постоянную на deep-water.ru

(Ответить) (Уровень выше)

Re: с Ли.ру не пашет
[info]hosjams_pjams@lj
2007-10-09 20:32 (ссылка)
ОК. Завтра заценю. Спасибо за програмку!

(Ответить) (Уровень выше)


[info]ex_maxho_ma@lj
2007-10-10 08:04 (ссылка)
Во вкладке ПишутОбоМне явно не хватает разворота комментария по плюсику. Было бы кузяво.

(Ответить)

Идея
[info]zemplepashec@lj
2007-10-13 15:06 (ссылка)
Здравствуйте! Спасибо за утилиту!
У меня родилась интересная, в своем роде революционная, идея продолжения вашей проги частотного анализа слов (если она еще не реализована!). Тезис: "Язык определяет сознание" (или наоборот), т.е. людям есть о чем поговорить, если они говорять на одном языке.
А именно: на основе такого частотного анализа слов реализовать в ЖЖ (и не только в нем) поиск "родственных душ".
Алгоритм. Поскольку у всех людей разный словарный запас, словарные предпочтения и вообще очень много слов в языеке, то каждое слово мы можем отнести к нескольким из заранее определенного набора категорий (тегов) (например: товары, эмоции, действия и т.д.). Далее мы получаем частотный анализ тегов уже в процентах (сумма по всем тегам = 100%). Далее мы сравниваем распределения тегов сравниваемых юзеров. К примеру, известным методом наименьших квадратов определяем отклонение двух сравниваемых распределений категорий языков. Анализируя таким образом, мы можем найти людей с наиболее похожими языками, и, вероятно, эти люди могут заинтересоваться друг другом.
Здесь есть 3 загвоздки:
1) важно составить этот самый набор тегов (категорий) - его размер и состав - это самый сложный момент. От набора зависит точность и адекватность поиска;
2) необходимо провести титаническую работу по сопоставлению всех (или хотя бы наиболее встречающихся) слов с тегами (категориями);
3) такой анализ требует больших вычислительных и временных мощностей. Однако, если считать распределение, скажем, раз в месяц и хранить на сервере, то это существенно сократит время поиска.

(Ответить) (Ветвь дискуссии)

Re: Идея
[info]ex_flashr@lj
2007-10-14 10:46 (ссылка)
Идея не нова, она уже частично реализована одним php-энтузиастом для последний 25 постов. Я же, так как работаю для всех постом, пока занят над морфологией словоформ, ибо mystem от яндекса, на мой взгляд, работает криво.

(Ответить) (Уровень выше)


[info]ren_lr@lj
2007-10-19 03:07 (ссылка)
Image

и как ее установить?

(Ответить) (Ветвь дискуссии)


[info]ex_flashr@lj
2007-10-19 04:11 (ссылка)
Цитирую

(Про требования к работе можете почитать в первом посте - http://flashr.livejournal.com/23694.html)

(Ответить) (Уровень выше)


[info]ex_flashr@lj
2007-10-19 04:45 (ссылка)
Чтобы не показаться грубым, отмечу, что данная ошибка говорит об отсутствии на вашем компе Framework 2.0

(Ответить) (Уровень выше)