Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет dolboeb ([info]dolboeb)
@ 2007-02-24 09:07:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Так вот ты какой, северный олень...
Canon Digital IXUS по версии Яндекс.робота
Если на клетке слона прочтешь надпись «буйвол», не верь глазам своим.
© Козьма Прутков (1803-1863)


(Читать комментарии) - (Добавить комментарий)


[info]juliy@lj
2007-02-24 20:01 (ссылка)
процесс примерно такой:
есть список rss-потоков, которые обрабатывает news.yandex. их надо регистрировал на сайте, само ниче обрабатываться не будет, в отличии от поисковика
как только один из сайтов выдает в свой rss новость, news.yandex ее подхватывает, если до этого "похожих" не было, считает "первой" и пляшет от нее, выискивая далее в новых статьях в потоках такие же ключевые слова
потому и ошибки бывают, например, как та, что я картинку в пример приводил
кто-то писал про дерипаску и ввернул в текст про ходора, мол, тоже из этих, да с фоткой
а яндекс это просек и фотку ходора показывает как иллюстрацию к блоку статей про дерипаску
как-то так

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]krolchatina@lj
2007-02-24 20:15 (ссылка)
Так бы оно так, но у этих трех (1 (http://www.utro.ru/news/2007/02/24/627603.shtml),2 (http://www.championat.ru/news-34614.html),3 (http://www.bulvar.com.ua/arch/2007/8/45dd86f553f82/)) статей пересечений по смыслу нет. То есть, у меня есть сильное подозрение, что в рсс-записи, кроме собственно новости, попавшая в заголовок utro.ru сбросила еще какое-то не относящееся к делу дерьмо..
Судя по cl4url, основой для построения сюжета служит какая-то одна статья.

Еще, возможно, что получая рсс запись, яндекс идет на референцируемую в записи статью и подчитывает все содержимое, а не только то, что было в, собственно, записи. Попадаются ссылки на другие новости, которые, в результате, вносят шум.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]juliy@lj
2007-02-24 20:17 (ссылка)
в яндексе тоже не б-ги сидят, я там регулярно баги отлавливаю (клевый каламбур) и им об оных сообщаю

(Ответить) (Уровень выше)


(Читать комментарии) -