Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет Misha Verbitsky ([info]tiphareth)
@ 2009-11-04 12:19:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Настроение: sick
Музыка:Белканов Бэнд - ТЕНИ ДЕТЕЙ
Entry tags:lj, yandex

Проект реформы яндекс-рейтинга (июль 2007)

К слову о рейтинге топ-яндекса,
я как-то набросал проект
алгоритма для борьбы с накрутками (и даже не поленился
послать его в яндекс). Поскольку яндексу очевидно
похуй, выложу его тут, для потомства.

http://imperium.lenin.ru/LENIN/33/yandex-reforma.html

Привет



(Добавить комментарий)


[info]aculeata
2009-11-04 15:41 (ссылка)
Закрой a href, пожалуйста.

(Ответить) (Ветвь дискуссии)


[info]tiphareth
2009-11-04 15:41 (ссылка)
Спасибо!

(Ответить) (Уровень выше)


(Анонимно)
2009-11-04 16:22 (ссылка)
А нельзя ли здесь реализовать этот алгоритм? Зачем отдавать Яндексу такую фичу? Тем более что они решили отказаться от ТОПа.

(Ответить) (Ветвь дискуссии)


[info]tiphareth
2009-11-04 16:25 (ссылка)
нужно много денег и/или свободного времени, плюс к тому - беспроблемный
доступ к поисковику через API

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]klim.doslash.org
2009-11-04 16:30 (ссылка)
Так API они оставили: http://blogs.yandex.ru/faq/entriesapi

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]tiphareth
2009-11-04 16:42 (ссылка)
для реализации алгоритма нужен граф ссылок

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]klim.doslash.org
2009-11-04 16:58 (ссылка)
Так для каждой записи список ссылок получить на неё можно, вот например: http://blogs.yandex.ru/search.xml?link=http%3A%2F%2Fclubs.ya.ru%2Fcompany%2Freplies.xml%3Fitem_no%3D20164&fast=no.

А через http://blogs.yandex.ru/entriesapi/ можно ограничить количество вершин. Там все записи на которые есть две и более ссылок (остальные вообще можно не учитывать).

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]tiphareth
2009-11-04 17:12 (ссылка)
>Так для каждой записи список ссылок получить на неё можно, вот например:

И парсить весь HTML, ага.
Кроме того, что это трудоемкое занятие (и требующее немалого траффика),
всякий раз, когда блоги-яндекс перепишут интерфейс, вся машина
будет немедленно дохнуть.

Правда, я думаю, что можно его по RSS получать, что вроде лучше.
Но все равно расходы по траффику неумеренные

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]klim.doslash.org
2009-11-04 17:19 (ссылка)
Там есть вроде какой-то XML api вместо HTML.

Что касается траффика, можно обновлять обновлять топ раз в час. В http://blogs.yandex.ru/entriesapi/ около 3000 ссылок. На каждый пост страница со ссылками это около 2кб т.е. итого 6MB в час (ну ладно, 10Мб) = 7.2Гб в месяц. Т.е. совсем не много, насколько я знаю сегодняшние тарифы.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]tiphareth
2009-11-04 17:22 (ссылка)
это уже лучше
но к тому же придется хранить базу всех записей со ссылками
в виде графа, это нефиговая таблица получится (гиг 500 в год, думаю)

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]klim.doslash.org
2009-11-04 17:29 (ссылка)
Ну, совсем старые данные о постах, на которые есть только 2-3 ссылки, наверное, можно не хранить (а таких большинство).

В общем, как мне кажется, проект такого рейтинга вполне делается силами нескольких энтузиастов или студентом страрших курсов в качестве курсовой работы.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]tiphareth
2009-11-04 17:38 (ссылка)
тогда кластер будет неаккуратный, тем более, что
многие хомячки участвуют в пиаре раза по 2-3 может

(Ответить) (Уровень выше)


[info]belonesox.moikrug.ru
2009-11-04 16:24 (ссылка)
А читал топ через собственный RSS-агрегатор, фильтруя постоянно там пасущихся уродов
(типа часть: regexpa/(olegtinkov|td5howard|autosputnikclub|e_grishkovets|mzadornov|katechkina|dr_piliulkin|becky_sharpe|dolboeb|sergeydolya|victorprofessor|pesen_net|nelebedev|liveinternet|belonika|stillavinsergei|drugoi|ru_childfree|fritzmorgen|shkola_urodov|tema…
) — и так более-менее мониторил актуальные события, всплывающие в этот топ.

В идеале, top убило не отстутствие алгоритма вычисления клик (накрутки не сводятся к кликам), а отсутствие отрицательной обратной связи, без которой все действительно было игрой в одни ворота. Лучше бы сделали ее, чем просто сдаваться и отдавать API, но … ладно. Может кто-то сделает....

(Ответить) (Ветвь дискуссии)


[info]tiphareth
2009-11-04 16:28 (ссылка)
накрутчики делают это не просто так, а потому, что состоят в команде накрутчиков
что до игр в "отрицательную карму", так кармодрочерство гораздо хуже, чем даже
дрочка на топ

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]belonesox.moikrug.ru
2009-11-04 16:54 (ссылка)
Так идеал то вовсе не «отрицательной карме» — можно сделать каждому индивидуально вычислимый топ, откуда каждый желающий сможет изгнать кого угодно. Т.е. как с баннерной рекламой — вроде ее вывесили, но все с Firefoxом ее не видят.
Ну и «отрицательную карму» можно аккуратно и слабенько учитывать — если значительный % пользователей видеть не могут «xxx» — значит, что-то не слава-богу.

К командам накрутчиков все не сводиться.
Полно народу сидят в топе без всяких команд — достаточно насосать «PR», после чего будет самоподдерживающаяся реакция.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]rednyrg721.livejournal.com
2009-11-04 17:12 (ссылка)
Ну вот да, или можно на первое время сделать просто один топ для постов юзеров с мест 1-100 в рейтинге блогов, а второй для постов юзеров с мест >100; эти лица, о которых Вы говорите, и отрежутся автоматом из второго топа, а кому надо — пусть смотрят первый. Ну и по такому же принципу сделать политический топ, пусть кому надо на него дрочит.

(Ответить) (Уровень выше)


[info]tiphareth
2009-11-04 17:14 (ссылка)
>Полно народу сидят в топе без всяких команд — достаточно насосать «PR», после чего будет
>самоподдерживающаяся реакция.

Идея в том, что кластеры подобных юзеров легко вычисляются

(Ответить) (Уровень выше)


[info]todofmm
2009-11-05 08:55 (ссылка)
Очень поддерживаю, идею по поводу фильтрации некоторых личностей в топе.

(Ответить) (Уровень выше)


[info]paperdaemon
2009-11-04 17:28 (ссылка)
Так что теперь Лебедев лично будет ТОП подкручивать?

(Ответить)


[info]nnikif.livejournal.com
2009-11-04 19:25 (ссылка)
Интересно, сделает ли кто когда-нибудь нормальный агрегатор типа >Мемеорандума (http://memeorandum.com/)? Один общей линейный топ — какой-то каменный век.

(Ответить)


[info]serge.matveenko.ru
2009-11-05 18:38 (ссылка)
Вообще, яндекс отслеживает накрутки, что подтверждается API их интерфейса рейтинга записей.

Вверх вырываются те, кто освоил обход ограничений топа и целенаправленно работают в эту сторону.

Предлагаю вам поучаствовать в создании "правильного" рейтинга на http://lopni.ru/ (дизайн в работе).

(Ответить) (Ветвь дискуссии)


[info]tiphareth
2009-11-05 22:50 (ссылка)
у вас там один LJ
не уважаю совершенно

(Ответить) (Уровень выше)


[info]featar
2009-11-14 22:57 (ссылка)
Миша, зачем нормальному человеку нужен рейтинг?

(Ответить) (Ветвь дискуссии)


[info]tiphareth
2009-11-16 06:31 (ссылка)
это не рейтинг, это типа народного СМИ с самыми народными новостями

(Ответить) (Уровень выше)


[info]flashr
2009-11-24 01:19 (ссылка)
Я ознакомлюсь с алгоритмом, но пока не вижу смысла его принять на топботе.

(Ответить) (Ветвь дискуссии)


[info]tiphareth
2009-11-24 01:22 (ссылка)
Не думаю, что API Яндекса предоставляет достаточно данных,
чтобы им пользоваться

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]flashr
2009-11-24 01:46 (ссылка)
Из яндекса можно извлечь много чего. Уж за 4 года я научился. Тем более ссылки на запись - проще простого. Также дорабатываю класс в библиотеке BlogsAPI под яндекс - http://blogsapi.codeplex.com/

(Ответить) (Уровень выше)