Настроение: | mean |
Музыка: | Mayhem - Deathcrush |
Яндекс и лохотрон - второй раунд
В комментах воюют граждане, интересующиеся Яндексом
http://www.livejournal.com/talkread.bml?itemid=4820945
Позиция Яндекса, как я понял, сводится к следующему:
персонал Яндекса - люди идейные, неприемлющие спам и
скрытую рекламу, и поэтому не торгуют результатами.
Ну что ж, в России еще есть люди, которым начхать на
условия рынка. И это очень хорошо.
Я готов вполне поверить, если мне объяснят две вещи:
1. Почему алгоритм вычисления релевантности держится в
секрете
2. И ежели этот алгоритм похож на тот, что у Гугля,
то каким образом определяется, от каких сайтов
ведется отсчет (по формуле, которую цитировал
Лихачев, релевантность определяется рекурсивно; значит,
каким-то сайтам она задана от балды; разумеется,
манипулируя этими сайтами, можно получить более-менее
любой результат).
Вопрос на самом деле математический.
Пусть у нас есть граф, вершины
документы, ссылки ребра. Есть ли способ вычислить
релевантность таким образом, чтобы формула, приведенная
Лихачевым, была точна? И если есть, то сколько
таких способов?
Формула вот
http://www.livejournal.com/talkread.bml?itemid=4816859
У меня есть два предположения:
(а) Пусть вычисление релевантности ведется
последовательными приближениями
(т.е. задаем PR всем сайтам по единичке, потом вычисляем
PR по формуле
PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) (*)
нормализуем, повторяем).
Тогда оно не сойдется, т.е. для большинства графов у
этого аффинного оператора будет настолько большой
разброс собственных значений, что рекурсия приведет
к хаотическим флуктуациям
(б) Пространство распределений релевантности, примерно
удовлетворяющих формуле (*), плотно в достаточно большой
области параметров, для достаточно сложного графа.
То есть релевантность "по гуглю" можно писать более-менее
от балды. Разумеется, именно так она и пишется: гугль
берет за точку отсчета какие-то родственные ему сайты,
затем инкрементально меняет релевантность при
добавлении новых документов.
То есть вопрос о алгоритме подсчета релевантности это вопрос
о власти. Как и все вопросы.
А где власть - там и секретность.
Так я понимаю политику Яндекса.
Такие дела
Миша.