Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет pe3yc ([info]pe3yc)
@ 2009-11-13 17:00:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
К вопросу об оперативности яндексового агрегатора новостей
В Ульяновске вот уже около часа как горят и взрываются военные склады, обсуждается возможность эвакуации.

В Яндекс-новостях на данный момент об этом ничего. Последнее обновление у них было в 16:32.

При этом на лентеру соответствующая новость опубликована в 16:28, на ньюзруком в 16:21, на интерфаксе в 16:10, на РИА Новости в 16:21.

Что-то оно как-то не очень оперативно.

Update: после обновления 17:09 - появилось.


(Читать комментарии) - (Добавить комментарий)


[info]lgershenzon@lj
2009-11-13 12:08 (ссылка)
Давайте все-таки не всех собак сразу на нас вешать:)
1. Время итерации у нас действительно непозволительно большое, особенно к вечеру пятницы, когда размер трехдневной базы, которую приходится перекластеризовывать, максимальный. Но все-таки обновление происходит чаще, чем раз в час.
2. Яндекс.Новости - агрегатор и собирает все, что ему дают партнеры. В сюжете есть сообщения от РИА Новостей и от 16:17, и от 16:21, что нетрудно заметить.
3. Яндекс.Новости - агрегатор, и поэтому в принципе, по определению, не может соперничать в оперативности с производителями контента. Кроме того, чтобы сюжет достаточно высоко отранжировался, в него должно попасть достаточное количество сообщений на тему. Но это ни в коей мере не делает менее острой проблему с временем индексации и длинной новостной итерацией.
И спасибо за внимание к нашему сервису.
Лев Гершензон

(Ответить) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-13 12:25 (ссылка)
1. Да, примерно раз в 45 минут. Академический час, скажем так.
2. Понимаю, что агрегатор. Об этом и речь. Но сообщения от 16:17 и 16:21 появились не после обновления 16:32, а только после следующего - 17:09.
3. Никто и не требует, чтобы агрегатор сообщал о новости раньше новостника. Но собрать уже опубликованные новости - это именно то, что от него следует ожидать, не так ли?
4. Ранжирование по релевантности тут вообще ни при чём - я отранжировал по дате. Не то что "достаточного количества", но и ни одного сообщения на эту тему не было от обновления 16:32 до обновления 17:09.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]lgershenzon@lj
2009-11-13 12:34 (ссылка)
Время обновления - это не время последнего проиндексированного сообщения, а время формирования и выкладки очередного выпуска.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-13 13:01 (ссылка)
Именно так. И именно поэтому вопрос: почему во время формирования очередного выпуска робот не видит уже существующих к этому времени сообщений?

В данном случае это касается выпуска 16:32.

Насколько я понимаю, 16:32 - это время начала работы сборщика, потому что по факту выкладка появляется не несколько минут позже.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]lgershenzon@lj
2009-11-13 14:30 (ссылка)
Нет, это не так, я недостаточно четко выразился. 16:32 - это, грубо говоря, время, когда закончено формирование выпуска (обойдены и проиндексированы все новые сообщения, выделены объекты, определены дубликаты, перекластеризована вся трехдневная база - на сейчас это 121 тыс. документов - для каждого сюжета построена аннотация и выбраны основные заголовки, ну и еще кое-что) и начата раскладка, которая тоже занимает, к сожалению, пресловутые "несколько минут". Последнее сообщение для выпуска "16:32" от 16:09. Видимо, действительно, правильнее писать не это наше время обновления, а время последнего сообщения в базе, но это несущественно, это никому не интересно. Гораздо важнее, сократить эти 45-50 минут в пятницу (в первой половине недели все гораздо шустрее). Мы этим занимаемся, но это не так просто, как может показаться.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-13 15:00 (ссылка)
Тогда и надо писать, что последнее обновление было в 16:09, а не в 16:32. Кстати, мне тут сообщают, что Интерфакс сообщил о событии в 16:07, что раньше, чем 16:09.

Потому что любой, кто видит надпись о том, что последнее обновление было в 16:32 делает вывод о том, что в 16:32 этих новостей ещё не было. Одно дело, если бы обход робота занимал минуту-две и другое - 23 минуты, как в данном случае.

Кстати, если обход занимает такое немалое время, то и сокращать шаг между обновлениями тоже имеет смысл только до какого-то предела, вряд ли он может быть короче этого интервала.

(Ответить) (Уровень выше)


(Читать комментарии) -