Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет Misha Verbitsky ([info]tiphareth)
@ 2001-06-07 21:24:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Настроение:mean
Музыка:Mayhem - Deathcrush

Яндекс и лохотрон - второй раунд
В комментах воюют граждане, интересующиеся Яндексом
http://www.livejournal.com/talkread.bml?itemid=4820945

Позиция Яндекса, как я понял, сводится к следующему:
персонал Яндекса - люди идейные, неприемлющие спам и
скрытую рекламу, и поэтому не торгуют результатами.

Ну что ж, в России еще есть люди, которым начхать на
условия рынка. И это очень хорошо.

Я готов вполне поверить, если мне объяснят две вещи:

1. Почему алгоритм вычисления релевантности держится в
секрете

2. И ежели этот алгоритм похож на тот, что у Гугля,
то каким образом определяется, от каких сайтов
ведется отсчет (по формуле, которую цитировал
Лихачев, релевантность определяется рекурсивно; значит,
каким-то сайтам она задана от балды; разумеется,
манипулируя этими сайтами, можно получить более-менее
любой результат).

Вопрос на самом деле математический.

Пусть у нас есть граф, вершины
документы, ссылки ребра. Есть ли способ вычислить
релевантность таким образом, чтобы формула, приведенная
Лихачевым, была точна? И если есть, то сколько
таких способов?

Формула вот
http://www.livejournal.com/talkread.bml?itemid=4816859

У меня есть два предположения:
(а) Пусть вычисление релевантности ведется
последовательными приближениями
(т.е. задаем PR всем сайтам по единичке, потом вычисляем
PR по формуле

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) (*)

нормализуем, повторяем).

Тогда оно не сойдется, т.е. для большинства графов у
этого аффинного оператора будет настолько большой
разброс собственных значений, что рекурсия приведет
к хаотическим флуктуациям

(б) Пространство распределений релевантности, примерно
удовлетворяющих формуле (*), плотно в достаточно большой
области параметров, для достаточно сложного графа.
То есть релевантность "по гуглю" можно писать более-менее
от балды. Разумеется, именно так она и пишется: гугль
берет за точку отсчета какие-то родственные ему сайты,
затем инкрементально меняет релевантность при
добавлении новых документов.

То есть вопрос о алгоритме подсчета релевантности это вопрос
о власти. Как и все вопросы.

А где власть - там и секретность.

Так я понимаю политику Яндекса.

Такие дела
Миша.



(Добавить комментарий)

????? ?? ??????
[info]dm_lihachev@lj
2001-06-07 14:26 (ссылка)
""??????, ?????-?? ?????? ??? ?????? ?? ?????""

? ???. ????? ???????? ????? ????? ????????????, ???? ??? ? ????????? ???????????? ""?????????? ????????????, ?? ???????????? ??????"", ?? ???? ???-?? ??????? ?????? - ??????????? -- ??? ?? ?????? ?? ??? ????

""???????? ???????? ? ??????????? ???????????""

????? ?????? ??? ?? ?????? - ???? ??????? ????????, ?? ?????? ??????? ???? ??????? ? ???????? - ???? ?? ?????????... ?.?. ???? ???????????? - ???? ???????????, ??? ????? ????????? ???? ????????? ???????, ?? ?????? ? ??????? ????? ????? ??????????, ???? ??? ?????????

?? ??????? ??? "????????" ????? ??????? ? ????????? ?????, ? ? ?? ?????? ???????, ?? ???-?? ??? ?????? ?????? ????, ????? ????????, ???? ???? ???????, ??? ???? ?? ?? ? ?? ?????, ??? ?? ???????? ???????? ???????

??? ?? ??????????????? ????? ???????, ?? ??? ????? ? ? ??? ???? ?? ???? -- ???? ?????? (? ??? ?????? ??????, ????) - ??????? ?????? ????????, ?? ??? ? ? ?? ???????? ?????, ??? ???? ? ?? ????????????? (???? ?? ????????? ????, ???? ????????? ??????? ??????, ????????) ? ?? ???????? (??????)... ? ???? ?? ????????? ? ????????? ??????? ??????? ????????, ???????? ???????? ????? ?????? -- ?? ??? ? ????? ???????? ????????

?? ??????? *???????????* ??????????????? ????, ? ?????????? ??? ?????? - ??? ????????? ???????? ?.?. ???????? ? ?????????????? - ???? ??????, ?? ??? - ??? ??????????

(Ответить) (Ветвь дискуссии)

Re: ????? ?? ??????
[info]ex_tipharet@lj
2001-06-07 14:53 (ссылка)

>??? ?? ?????? - ???? ??????? ????????, ?? ?????? ??????? ???? ???????
> ? ???????? - ???? ?? ?????????...

(?) ? ?? ??????, ??? ??? ???????? - ???? ????????,
? ???? ???? ?? ??????? ???? ???????? (? ??? ????????),
????? ??????????? ??????? ???????????????? ?????????
????????? - ?????? ???????????? ??????????.
? ??????????????? ????? ??????? ?? ???? ??????
??????, ??? ?????????? ??????? ?????. ?????????????????
????????? ???????? ???????????.

?

(?) ????? ??????? ?????? ?? ????? ??????????????
???????, ? ????? ??? ?????????????? (????????????) ???????;
???, ??????, ???????????? ?????? ??????????? ??????
(?????????????) ???????? ????????? ? ??????????
??????????. ??? ????? ??????? ????????? ? ?? ??????
(??????????? ? ????? ????? ???????, ????
???????? ? ?????????).

????? ????? ???? ?? ???????? ? ???????
???????????? ????, ??????? ???????? ?? ?????????,
? ????? ????? ?????? ???????????? ???????
????????????????? ?????????????, ??? ?????
(?????) ????????.

?? ?????? ?? ????? ?? ?????????, ? ??????, ?
??????????, ????. ?? ???? ????? ???? -
????? ?????, ???? ??? ? ??????, ?
?????????????.

?? ?????? ?? ?????? - ?????? ??? ???????, ? ??????? ????????
???? ????????????? ???????? ???????????? ?????????
? ?????? ???, ? ??? ????????? ?????????. ???????????
??? ?????? ??????, ?? ??????? ???????? ????????,
??????? ???? ??????? ?? ?????? ?????.

? ?????? ???????? ?????-??????, ??????????? ? ?????????
??????? ?? ?????????, ???? ???? ? ??? ???????????? ???
? ???????.??.

??? ??? ? ? ???? ? ???? ??? ???????????? - ????? ?? ?????????????
???????? ? ?????? ????????? ???????? ???????? ? ?????? ?????????
??????? ????????????? ????????????? ???????? ???????.

????? ????
????.

(Ответить) (Уровень выше) (Ветвь дискуссии)

?????? ?????? ??????
[info]dm_lihachev@lj
2001-06-08 03:33 (ссылка)
""???? ????????,
? ???? ???? ?? ??????? ???? ???????? (? ??? ????????),
????? ??????????? ??????? ???????????????? ?????????
????????? - ?????? ???????????? ??????????.


? ???? ?????? ?? ???.??? ????? ?????? ??? ??? ??? ??????????, ??? ?? ????? ? ??? ????????? ?????, ??? ????? ? ?????? ????????.. ?? ???? ??? ???????? - ?????? ?? ??? ???? ? ?? ????????? ??. ?.?. ??????? 100? ??????? ???????. ?? ??? ????? ? ????????? ????????? ?? ????????? -- ???????? ? ???? - ???? ????????????? ?????????????? - ??? ???. ???. ?????????, ? ?????????? ? ???????????, ???? ?????? ??????? - ? ??? ??? ????????? ?? ??? ???? ?? ?? 286-386.. ???, ??? ? ?? ??? ??? ? ???? ??? ???????? ?????? - ???? ????? ?? ????

?.?. ?????? ??? ???.????????? - ?? ????????? ??????, ???? ????? ?????? ????:)

???. ?? ???? ????????? ????? ????, ??? ??? ????????? - ???? ???, ?? ? ????? ? ??????, ?? ? ???? ?????-?? ?????????? ? ?????????? ?? ??????? ???... :( ?????? ? ???? - ??????? ??? ??? ????..


"""??????, ???????????? ?????? ??????????? ??????
(?????????????) ???????? ????????? ? ??????????
??????????

??, ? 80-? - ?? ????????????, ?????, ?????????, ???????????????? ??????, ????????, ??????? ??? ????????? ???????? ??? ?? 0 ?? ????. - ? ???????? ??????? - ??? ????????, ???? ?? ???????? - ?????? ??????? ??????, ??? *??????* ?????????, ? ?????? ?????????, ? ?? ?????? ? ??????????? ?? ????????? ???????.. ??? ???? ????? ???? ???? ????? ?????????? ?/??? ????????????? ??????? - ?.?. ??????? ????? ? ????? ?????????, ???? ??? ???? ????

?? ??????, ??? ??? ??????? ????? ??????? ???? ????????? ???? ??? ?? ????????, ?? ??? ??? - ????-???? ?? ???????? ???????:)

? ?????-?? ??? ??? ???? ??????? ? ? ???????? ? ? ??????? ?????? ?? ?????? ????????, ?? ???-?? ??? ??? ?? ???????.. ?????? ???????? ???-?? - ??? ???????, ????????? ??? ????????????? ????-???? ???????????????, ??? ??? ???-?? ? 60? ?? 70? ????????????,

? ??? ?? ??????????????? - ??? ???????, ???? 3-4 ????????, ? ???? ????? ???? ?????-?? ??????????? -- ?? ???? ???? ?? ?????????, ??? ????? ?.?. ???????? ?????? ???? ??????????????? ???????, ??????? ???????? ??? ??????? ???????????? -- ??? ?? ????? ? ???????? ?? *?????-????* - ??????? ?????, ??? ??? ? ? ??? ???? ????? ??????????????? ???? ?????????????.

?? ??? ???? ??????, ??? ?? ? ????? ???? ? ??? ???????? - ???? ?.?. ?? - ??? ???? ??? ??? ??? ??????-????????, ??? ??????????/????????? ?????? ?? ?????-??????, ?? ?? ??????-???????, ?? - ????? ?? ??????-?? ??????, ?? ??? ????????????? ??? ??????-?????????,.. ? ?? ??? ???? - ??? ??????, ????? ????? ?????? ???? ?????, ??? ??? ????? ??????????, ??? ??? ?????? ?????-???? ???????? ? ???????? - ????? ???. ??????? ? ??.??. - ? ????, ????? ?? ???, ?????? ????????? - ? ??? ?? ????? ????????:)

(Ответить) (Уровень выше)

????????
[info]iseg@lj
2001-06-09 06:17 (ссылка)
??? ??????????????? ?????????? ????? ???????????. "d". ?? ?????? 1. ??????????? ????????????? - ?????????. ?? ??? ???? ???? ??????? ??????????-???????. ??? ?????? ??????????? ?????? ??????????.

:)

??? ??????????? ????? - ??? ???????? ??????????? ???????????. ???? ?? ??????? ?????? - ?? ????? ??? ??????? :)

??????? ??????? ????????? ? ???????? ??????? ?? ????? ??????? ??????? - ?? ?? ??????????. ?? ? ????. ?? (??????) ? ?????? ??????? ??? ??????? ? ????? ?????? ??????.

??????? ??? (?? ??????? ????, ??????) ?????? ???????????. ?????????? ???????????? ? ???? ??????? ?????? ?????? ?? ??????. ??????? ?? ??????? ?? ????????????? IR (??? ?? ??????? ???????) ???????????? ? ??? ??? ???? ??????? ?????.

(Ответить) (Ветвь дискуссии)

Re: ????????
[info]ex_tipharet@lj
2001-06-09 10:00 (ссылка)

??? ?????, ????????. ???? ???? ? ??????? ???????? ?????????

X_i = 1-d + d \sum (T_{ij} X_j)

? ????????????? ?????????? ????????e???? T_{ij}.
??? ?????????, ???? ???????? ??????????? d,
? ?? ???? - ??? ???????????? ?????????
T_{ij} ? ??????????????? ?????????? ???
? ???. ????????? ??? ??????????? ???? ??,
???? ?? ??? ??????????? ???????? ?????????
X_i -> d \sum (T_{ij} X_j)
???? ?? ?????? 1 (??? ????
???????? ?????????).

?? ???? ???? ??????????? ?? ??????
???????? ?????????????, ??? ??? ?
????????? ?????????????????.

??.

??????? ??? ?????, ??? ?? ????? ????? ????
???????-?????? ???????????????? ?????????.

?????? ? ??????? ?????? ?? ?????? ?? ?????
"????????? ???????????" ???? ?????? ??????????????
?????? ? ???????? ?????? ??????????

http://www.issep.rssi.ru/pdf/9705_118.PDF

??????? ???? ?????, ????????????.
???????? ???? ????.

????? ????
????.

(Ответить) (Уровень выше) (Ветвь дискуссии)

Re: ????????
[info]tejblum@lj
2001-06-09 13:52 (ссылка)
??-?-?-?. ??????????????? ???? ??????? ????????
?? ?????????? ?? ??????? ?? PhD ??????????,
?? ? ?? ?????????????: ???? ?? T_{ij} ???? ?????????????, ??? ??, ???????, ? ???? ??????? ? ??????????? PageRank'?. ???, ??????, ???????, ???

T_{ij} = | 1/C(j), ???? ???? ????? ?? j ? i

| 0, ???? ?????? ????? ???,


??? C(j) - ????? ?????, ????????? ?? j. ???, ???
?? ???????, ???????? ??????? ???????????. ????????, ???????? ????????, ??? ??????? T_{ij} ??????????????.


????????? ?????????????? ?????????? PageRank'? ???????? ? ???????? ??????????. ????? ?? ?????? ?????? ????????? ?????? ????????? ?????? ????? ?? ?????? - ???????.


???.


????

(Ответить) (Уровень выше)


[info]ex_tipharet@lj
2001-06-10 01:21 (ссылка)

?? ????-?? ?? ?????????.

??????????? ???????? ???????????.
????? ???? ? N ????????
? N ???????, ??????? ??? ???? ? ???? ???????
(?.?. ??? ????????? ????????? ?? ????).
??? ????????????? ???????, ? ??????? ???? ??????
??????? ?? ????? d, ????????? ????.

????? ??????? ?? ????? ?? ?????? ????????? ???????????.
????????, ?????? (1,1,1...,1) (????? ??????
????? ?? N = ??????????? ????????????) ???????????
? (Nd, 0, 0, 0, ...), ????? Nd; ??? d=0.85, ???
?? ????????? ??????????? ??? ??? N=2.

?????????????, ?? ??????????????
????? ???????? ?????? ?? ??????????? ????????;
? ?????? ???????, ??????? ?? ??????????, ??????????
??????????? ??? ????? ?? ?????????.

????? ????
????.

(Ответить) (Ветвь дискуссии)


[info]tejblum@lj
2001-06-10 03:44 (ссылка)
?? ????-?? ?? ?????????.

? ? ?????????? ????????????? ????? ????? ???? ??
??????? (?, ? ?????????, ????? ??????????? ???,
??? ????). ??, ? ?????-??, ?? ?????-?? ? ?????? -
? ? ??????? ?? ????????? ?? PhD. ???, ??????, ??
????? ????????? ? ???????? ?????????: ?? ?????????,
???????? PR ??? ???.

?? ??, ??????, ????? ?? ???????? ??? ??????????,
?? ???? ?? ??????? ??????????? (???? ? ????????????
PageRank'??). ??? ??? ??? ??????.

...????? ??????? ?? ????? ?? ?????? ????????? ???????????...

? ??????? ? ???????? ????? ??????? ?? ??? ????????
?????????? ??????, ? ????? ?????????? ???????
?????????. ????? ???? ?? ????, ??????? ? ???
??????????? ?????????? ?????????.

??????? ?????????????? ?????????? PageRank'? ?????
???????? ? ???????? ??????????. ??????,
??????????? ???? ??? ????? ???? ???????????? ??
???????????. ????? ??????????? ????????????
???????????, ????????, ????????, ?????????? ??
??????? PageRank.

????

(Ответить) (Уровень выше)

Thanks for an interesting discussion
[info]snyders@lj
2001-06-10 05:32 (ссылка)
1. I think both sides may benefit from reading original google page-ranking paper (http://citeseer.nj.nec.com/page98pagerank.html), some other related papers I've put
[Error: Irreparable invalid markup ('<a http://www.livejournal.com/talkpost.bml?itemid>') in entry. Owner must fix manually. Raw contents below.]

1. I think both sides may benefit from reading <a href=http://citeseer.nj.nec.com/page98pagerank.html> original google page-ranking paper </a>, some other related papers I've put <a http://www.livejournal.com/talkpost.bml?itemid=4960779> here </a>.

One of the convenient models is that of a Markov chain: webpages -- nodes, hyperlinks -- transitions. Corresponding transition matrix M is the matrix that you discuss. If Markov chain is irreducible (there is a path from each vertex to each vertex) then it has a limit probability distribution L (Frobenius-Perron theorem). One can pick arbitrary prob. vector V [for ex.(1/N, 1/N,...,1/N)] as initial "rank"-distribution and after sufficiently many iterations: M^k*V will be close to L. This L is the "fair" rank distribution that we are looking for.

However web-graph does not lead to irreducible
Markov chain, since there are sites that have no
outgoing links. If one takes a random walk in the web one will be finally stuck in one of those. Solution: "Let's jump to a random site if we are stuck" (corresponds to connecting each terminal node to all the other nodes in the graph). This explains the factor d in the formula.

However the graph is still not strongly connected since there can be "sinks". In a simplest case consider two nodes that point to each other and suppose that there is a link to one of these nodes from the outside. At each iteration these two nodes will be accumulating the probability mass..

Google paper suggests a solution of adding vector E which will balance the deficiency of the prob. mass due to sinks. The choice of vector E allows to play with the ranks as you like, see the paper...

2. Google was started as an academic project (Stanford), papers and even source code was on the net. Now it is a commercial enterprise it's know-how is not published. The fact that the issue of ranking is not resolved by a single formula is obvious: if it were so simple all search engines on the net would be as good as Google, but they are not (my opinion).

3. Google is great at ranking [and IMHO he who rules the ranking -- rules the net], it has also a great feature of "cached pages". Also, it can show you all citations made to your cite (can it be done in yandex?)


4. Annoying in Google is its poor query language.
It also searches for the words literally (looking for "apple" will not find "apples"). What is cool in yandex is that it has morph-engine and a rich query syntax.

(Ответить) (Ветвь дискуссии)

Re: Thanks for an interesting discussion
[info]ex_tipharet@lj
2001-06-11 05:08 (ссылка)

Yes!
Thank you for an extremely informative and
coherent reply! It answers all points I raised.

????? ?????????? ??????????????? ??????????:
?????????? ?????? ????????? ??????????????
?????? ????????????? ????????, ?????????
??? ??????? ?? ????????? ?? ??????????
?????????? ?? ??????? ?????????????? ??????????????
(???, ???????????? ?????? ?? ??????????
?????????????? ???????? ? ????????????
?????????? ????????????? ???, ??? ??????????
????????? ???????? ????????????? ?????)
???? ?? ??????????? ????????? ? ????????????
???????? (? ????, ??? ????????, ????????
???????? ??????????? page ranking-?).

? ?????? ????? ??????? ????? ? ???, ???
??? ??? ???????? ???????; ??????? ????? ?
???? ???????????, ???????, ?? ????????.

??, ??? ?????????????? ???? ????
? ????????????? ???????? - ?????????? ???????.
http://imperium.lenin.ru/EOWN/eown4/penrose.html
????? ???????????, ??? ???????.

???? ?????? ?????? ? ??????.

????? ????
????.

P. S. By the way, the "cached pages" feature and the search
of all links to your page were all introduced in Altavista,
about 4 years ago I think. I distinctly remember Nossik
writing in VI about this stuff.

(Ответить) (Уровень выше)

citation feature
[info]snyders@lj
2001-06-10 06:16 (ссылка)
I see that yandex also has the citation feature:

#link="www...."

it was even used in the 1st discussion.



(Ответить)

?????? ?? ???????????? ????????
[info]janetg@lj
2002-01-17 23:58 (ссылка)
? ????? ?????????????? ?????????? ?? ???????? ? ??????, ? ????????? ???????????? ?????????? ? ?????? ???? searchengines.ru.

??? ?? ???????? ???????, ??? ???? ???? ????? ??????? ????????: ?????? ????? ? ?????? ?????? ??????? ????????? ????????????? ??????????????... ???? ?????????, ????????? ????????. ?.?. ??, ??? ????? ???????????? ?? ???? ????????? ???????, ?????? ???? ???? ?????? ? ??????. ? ?? ???????? ? ????? ?????? ?????????????? ????????? ????????????? ????????? ???????, ??????? ????? ?????? ??????? ?????? ????? ?????????? ?????, ? ?? ????? ????? ????? ???????????.

(Ответить)