Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет pe3yc ([info]pe3yc)
@ 2008-03-26 22:00:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Как интересно иногда работает яндекс-поиск-по-блогам.

Вот, например, захотел я найти пост в коммюнити [info]sup_ru@lj, в котором шла речь о планируемом введении спонсорских эккаунтов. При этом я помню дату поста - 20 марта.

Я просто вбиваю в форму поиска-по-блогам "спонсорские аккаунты" (я знаю, что большинство любит писать это дурацкое слово именно через "а").

И что же я вижу? При сортировке выдачи в хронологическом порядке ("по дате") - за 20 марта найден только один пост [info]missblackjoker@lj, не имеющий отношения к тому, что я ищу.

Странно. Может быть, коммюнити отключено от индексирования? Да нет, вроде бы другие посты находятся поиском без проблем, во всяком случае я их регулярно замечаю в выдаче. Может быть, пост написан с использованием тэгов [nofollow] и [noindex]?

Пробую поискать по-другому - расширенным поиском в указанном диапазоне дат - то есть с 20 марта по 20 марта. И - опаньки - вот она, выдача.

Найден искомый пост, а также попутно ещё два поста за ту же дату - юзера [info]kvakin@lj и какой-то лидок_832 с блогов.привет.ру

Так что же это получается, яндекс-поиск-по-блогам в обычной выдаче имеет привычку выдавать только четверть результатов, а три четверти остаются невыданными? Это у них там такая своеобразная борьба со спамом, что ли?

Может быть, [info]anton@lj Волнухин сможет объяснить этот феномен?


(Добавить комментарий)

(Комментарий удалён)

[info]pe3yc@lj
2008-03-26 19:33 (ссылка)
Ну да, получается моя транскрипция ближе к истине.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]icamel@lj
2008-03-27 03:00 (ссылка)
Со временем правильной станет не та, которая ближе к истине, а та, которая общеупотребительна.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2008-03-27 06:08 (ссылка)
По произношению моя ближе. А какая более употребительна - мне лично по барабану.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]icamel@lj
2008-03-27 06:10 (ссылка)
- Не заблуждай меня, товарищ Дванов. У нас же все решается по большинству, а почти все неграмотные, и выйдет когда-нибудь, что неграмотные постановят отучить грамотных от букв - для всеобщего равенства... Тем больше, что отучить редких от грамоты сподручней, чем выучить всех сначала. Дьявол их выучит! Ты их выучишь, а они все забудут...

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2008-03-27 06:12 (ссылка)
Ну разве что :)

(Ответить) (Уровень выше)


[info]anton@lj
2008-03-26 21:03 (ссылка)
Он отфильтровался как дубликат - в выдаче уже был пост с точно таким же заголовком и сниппетом, и остальные копии по умолчанию не отображаются, только самая последняя.

Если отключить филтрацию дублей (это можно сделать, нажав на соотв. ссылку на последней странице выдачи, или приписав к адресной строке &rd=0), всё находится: http://blogs.yandex.ru/search.xml?rd=0&text=%D1%EF%EE%ED%F1%EE%F0%F1%EA%E8%E5+%E0%EA%EA%E0%F3%ED%F2%FB&p=5

В большинстве случаев такая фильтрация помогает пользователям, избавляя их от бессмысленных дублей в выдаче, но иногда, действительно, приводит к недоразумениям.

(Ответить) (Ветвь дискуссии)


[info]pe3yc@lj
2008-03-26 21:22 (ссылка)
Но это же не дубли, это довольно разные посты, содержание заметно отличается.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]anton@lj
2008-03-26 21:28 (ссылка)
Сравнение идёт по тексту сниппета.

В улучшении эта система, действительно, нуждается, но полное её отключение помешало бы гораздо большему числу пользователей, чем те, кого она иногда путает.

(Ответить) (Уровень выше) (Ветвь дискуссии)


(Анонимно)
2008-03-27 03:51 (ссылка)
отличная система, превосходно работает

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2008-03-27 06:11 (ссылка)
особенно для копипастеров

(Ответить) (Уровень выше)


[info]pe3yc@lj
2008-03-27 06:30 (ссылка)

(Ответить) (Уровень выше)


[info]pe3yc@lj
2008-03-29 10:00 (ссылка)
Антон, а почему я постоянно получаю сообщение об ошибке при нажатии на плюсик в квадратике "показать полный текст"?

Line: 34
Char: 13
Error: Invalid pointer
Code: 0
URL: http://blogs.yandex.ru/search.xml?text=pe3yc&ft=blog

Причём на некоторых страницах поиска всё срабаотывает, по плюсику текст разворачивается. А на некоторых - в частности на той, что в примере - нет.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]anton@lj
2008-03-30 10:29 (ссылка)
Это повторяется стабильно? Вы не могли бы сказать, какой у вас браузер, и в какое точно время такое происходило?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2008-03-30 11:47 (ссылка)
Это стабильно, происходит всё время, и сейчас, и всю неделю прошлую. Появилось в какой-то момент, не помню когда. IE6SP1, W2KSP4.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]anton@lj
2008-04-02 11:12 (ссылка)
Спасибо - там действительно была ошибка на некоторых запросах в IE. Мы её исправили, теперь всё должно работать хорошо.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2008-04-02 17:01 (ссылка)
Да, сейчас открывается, спасибо.

(Ответить) (Уровень выше)


[info]squadette@lj
2008-03-27 02:50 (ссылка)
в применении к блогам это абсолютно бессмысленный алгоритм

он означает, что копи-пастеры получают приоритет перед авторами исходных сообщений

что, понятно (мне) -- так себе идея

но видимо в яндексе другое отношение к community contribution

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2008-03-27 06:10 (ссылка)
Если даже и использовать этот алгоритм, то чтобы не давать преимущества копипастерам, нужно выдавать самый ранний пост, причем время создания поста должно браться не из самого поста, а от реального времени его создания (хотя это сложно, - ну тогда хотя бы от времени его индексирования роботом).

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]anton@lj
2008-03-27 20:56 (ссылка)
Самый ранний пост не всегда можно выдать, сохранив сортировку по дате - как поступать, если оригинальный пост был давно, но сейчас есть много перепечаток?

Впрочем, проблема, конечно, решаемая, и мы стремимся сделать механизм отсечения дублей более удобным и понятным для наших пользователей, так и честным для авторов записей.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2008-03-28 04:42 (ссылка)
Если оригинальный пост был давно, то можно выдавать первую из перепечаток, в конце концов.

А вообще, конечно, всё не так просто, признаю.

(Ответить) (Уровень выше)


[info]anton@lj
2008-03-27 20:52 (ссылка)
Здесь вопрос не в отношении к community contribution, а в сложности задачи. Конечно, мы тоже хотели бы давать приоритет оригинальным постам, а не перепечаткам. К сожалению хорошо решить эту проблему довольно сложно технически (из-за особенностей архитектуры ППБ) и идейно (выдача в нынешнем варианте должна сохранять сортировку по дате - мы не можем просто показать вместо перепечатки оригинал).

В то же время, о проблеме мы знаем, её существование признаём, и обязательно найдём и реализуем её решение.

(Ответить) (Уровень выше)


(Анонимно)
2008-03-27 03:50 (ссылка)
Человекообразные не могут перестать критиковать
А Яндекс уже встроен в ЖЖ, не надо ходить на блогопоиск, просто ищите в ЖЖ и будет у вас отличный блогопоиск!
А теперь блогопоиск будет с координатами пользователей
У пользователей ЖЖ и ЛИ и др блоговых служб будут сниматься координаты и Вы можете искать в пределах своего города, области

(Ответить) (Ветвь дискуссии)


[info]pe3yc@lj
2008-03-27 05:53 (ссылка)
Человекообразные никого не критикуют и ничего не требуют.

Человекообразные пока что задают вопросы, - причём не анонимам, которые хуже известно кого.

(Ответить) (Уровень выше)