Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет pe3yc ([info]pe3yc)
@ 2009-11-13 17:00:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
К вопросу об оперативности яндексового агрегатора новостей
В Ульяновске вот уже около часа как горят и взрываются военные склады, обсуждается возможность эвакуации.

В Яндекс-новостях на данный момент об этом ничего. Последнее обновление у них было в 16:32.

При этом на лентеру соответствующая новость опубликована в 16:28, на ньюзруком в 16:21, на интерфаксе в 16:10, на РИА Новости в 16:21.

Что-то оно как-то не очень оперативно.

Update: после обновления 17:09 - появилось.


(Добавить комментарий)


[info]abvgd@lj
2009-11-13 11:10 (ссылка)
на риа новостях вообще в 16.17
может, еще набралось достаточно сообщивших сайтов, чтобы робот счел событие важным?
вечер пятницы, многие копипастеры уже пиво пьют

(Ответить) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-13 11:12 (ссылка)
В 16:21 на РИА Новости.

Копипастеры тут ни при чём, там автоматический агрегатор.

Мало того, что он чухается раз в час, так он ещё и не всё собирает..

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]abvgd@lj
2009-11-13 12:27 (ссылка)
я про копипастеров на "сайтах СМИ" - когда они пьют пиво, то агрегировать яндексу нечего

риа за 16.17 тут -- http://www.rian.ru/incidents/20091113/193401394.html

(Ответить) (Уровень выше)


[info]vshiman@lj
2009-11-13 11:11 (ссылка)
а куда торопиться-то. все одно все сгорит и взорвется чему положено.

(Ответить) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-13 11:12 (ссылка)
"Новости - наша профессия".©

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]vshiman@lj
2009-11-13 11:20 (ссылка)
ну это понятно.
может пятница действует?

(Ответить) (Уровень выше)


[info]motto@lj
2009-11-13 11:16 (ссылка)
Автоматически обработано 2714 источников, обновлено в 16:32 мск

походу робот уел в самоволку

(Ответить)


[info]pepel@lj
2009-11-13 11:22 (ссылка)
http://news.yandex.ru/yandsearch?cl4url=www.rian.ru%2Fincidents%2F20091113%2F193401394.html

В топ просто не вышло еще.

(Ответить) (Ветвь дискуссии)


[info]ciccuta@lj
2009-11-13 11:36 (ссылка)
уже новость часа

(Ответить) (Уровень выше)


[info]pe3yc@lj
2009-11-13 11:38 (ссылка)
Нет, это уже после следующего обновления в 17:09.

До этого не было нигда вообще, поиском по слову Ульяновск и сортировке по дате - самая свежая запись была вчерашней.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ciccuta@lj
2009-11-13 11:39 (ссылка)
это обновление 16:32 мск

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-13 11:46 (ссылка)
Это обновление 17:09 мск, которое фактически появилось даже ещё позже, чем 17:09.

Я рефрешил вот эту страницу (http://news.yandex.ru/yandsearch?text=ульяновск&rpt=nnews2&np=1) каждую минуту. Новости о взрыве начали появляться с 17:14.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ciccuta@lj
2009-11-13 11:48 (ссылка)
я просто сделала поиск по сообщению
В Ульяновске загорелся военный склад
и получила сюжет на момент 16:32

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-13 11:51 (ссылка)
Я делал поиск по слову Ульяновск. Первые сообщения появились в 17:14. Это, увы, медицинский факт. И даже больше чем факт: так оно и было на самом деле.

(Ответить) (Уровень выше)


[info]ciccuta@lj
2009-11-13 11:40 (ссылка)
первое сообщение
В Заволжском районе Ульяновска гремят взрывы, МЧС устанавливает причину происходящего 16:08 Interfax-russia.ru

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-13 11:43 (ссылка)
Это время публикации самой новости.

Для тех кто в танке: робот-сборщик новостей в 16:32 не собрал ни одной новости о взрыве в Ульяновске, несмоторя на то, что они уже вовсю были. Он смог это сделать только при следующем заходе, в 17:09.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ciccuta@lj
2009-11-13 11:45 (ссылка)
жалко, что я не сфотографировала экран, но когда я смотрела, последнее обновление было именно 16:32
в 17:09 уже на морде и новость часа

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-13 11:47 (ссылка)
И я скриншоты не собираю, но это факт - только следующее обновление собрало эти новости.

(Ответить) (Уровень выше)


[info]pepel@lj
2009-11-13 12:19 (ссылка)
Фигассе.

(Ответить) (Уровень выше)


[info]ciccuta@lj
2009-11-13 11:22 (ссылка)
http://news.yandex.ru/yandsearch?cl4url=www.rian.ru%2Fincidents%2F20091113%2F193401394.html

(Ответить) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-13 11:39 (ссылка)
C 17:09 появилось, да.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ciccuta@lj
2009-11-13 11:41 (ссылка)
ну как же 17-09, когда мой комментарий 16-39

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-13 11:48 (ссылка)
См. выше про рефреш. Может у вас часы не тогось?

(Ответить) (Уровень выше)


[info]pe3yc@lj
2009-11-13 11:49 (ссылка)
Ваш комментарий - в 17:22.

(Ответить) (Уровень выше)


[info]j_marsel@lj
2009-11-13 11:42 (ссылка)
там кстати паника шо песдец

(Ответить) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-13 11:48 (ссылка)
Понятное дело. Из складов такое может прилететь, что мама не горюй.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]j_marsel@lj
2009-11-13 11:54 (ссылка)
по городу циркулируют усиленные слухи о хим. веществах, которые складируются прям напротив "арсенала 31". Панику подогревает неработающая мобильная связь, уже есть данные о "стертых с лица земли деревнях"(с) Понятное дело, что психоз, но чем меньше инфы, тем круче истерия

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-13 11:58 (ссылка)
Ну, летают там снаряды уже вовсю:

Image

(фото отсюда) (http://community.livejournal.com/ru_simbirsk/570291.html)

ГО порекомендовала жителям запастись водой и марлевыми повязками.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]j_marsel@lj
2009-11-13 12:16 (ссылка)
опа. значит про химию не такой уж и пиздежъ

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-13 12:18 (ссылка)
Да нет, повязки против химии бессильны совершенно. Только против сажи и гари.

(Ответить) (Уровень выше)


[info]pe3yc@lj
2009-11-13 12:02 (ссылка)
Не работает ни мобильная, ни обычная.

При этом в блоги к ульяновцам ломятся журналисты с просьбами "перезвонить" или "дать телефон".

(Ответить) (Уровень выше)


[info]eugraf@lj
2009-11-13 13:00 (ссылка)
Позвонил по мобиле знакомой - мобильная связь работает.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-13 14:57 (ссылка)
Уже полегче, стало быть. Пик нагрузки пройден.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]eugraf@lj
2009-11-13 14:58 (ссылка)
Её родители как раз там недалеко - на Нижней Террасе живут.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-13 15:01 (ссылка)
Да уж, приятного мало..

(Ответить) (Уровень выше)


[info]larchik@lj
2009-11-13 11:51 (ссылка)
http://community.livejournal.com/ru_simbirsk/569301.html

(Ответить) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-13 11:53 (ссылка)
Видел конечно. Там-то раньше всего появилось, ясное дело.

(Ответить) (Уровень выше)


[info]lgershenzon@lj
2009-11-13 12:08 (ссылка)
Давайте все-таки не всех собак сразу на нас вешать:)
1. Время итерации у нас действительно непозволительно большое, особенно к вечеру пятницы, когда размер трехдневной базы, которую приходится перекластеризовывать, максимальный. Но все-таки обновление происходит чаще, чем раз в час.
2. Яндекс.Новости - агрегатор и собирает все, что ему дают партнеры. В сюжете есть сообщения от РИА Новостей и от 16:17, и от 16:21, что нетрудно заметить.
3. Яндекс.Новости - агрегатор, и поэтому в принципе, по определению, не может соперничать в оперативности с производителями контента. Кроме того, чтобы сюжет достаточно высоко отранжировался, в него должно попасть достаточное количество сообщений на тему. Но это ни в коей мере не делает менее острой проблему с временем индексации и длинной новостной итерацией.
И спасибо за внимание к нашему сервису.
Лев Гершензон

(Ответить) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-13 12:25 (ссылка)
1. Да, примерно раз в 45 минут. Академический час, скажем так.
2. Понимаю, что агрегатор. Об этом и речь. Но сообщения от 16:17 и 16:21 появились не после обновления 16:32, а только после следующего - 17:09.
3. Никто и не требует, чтобы агрегатор сообщал о новости раньше новостника. Но собрать уже опубликованные новости - это именно то, что от него следует ожидать, не так ли?
4. Ранжирование по релевантности тут вообще ни при чём - я отранжировал по дате. Не то что "достаточного количества", но и ни одного сообщения на эту тему не было от обновления 16:32 до обновления 17:09.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]lgershenzon@lj
2009-11-13 12:34 (ссылка)
Время обновления - это не время последнего проиндексированного сообщения, а время формирования и выкладки очередного выпуска.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-13 13:01 (ссылка)
Именно так. И именно поэтому вопрос: почему во время формирования очередного выпуска робот не видит уже существующих к этому времени сообщений?

В данном случае это касается выпуска 16:32.

Насколько я понимаю, 16:32 - это время начала работы сборщика, потому что по факту выкладка появляется не несколько минут позже.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]lgershenzon@lj
2009-11-13 14:30 (ссылка)
Нет, это не так, я недостаточно четко выразился. 16:32 - это, грубо говоря, время, когда закончено формирование выпуска (обойдены и проиндексированы все новые сообщения, выделены объекты, определены дубликаты, перекластеризована вся трехдневная база - на сейчас это 121 тыс. документов - для каждого сюжета построена аннотация и выбраны основные заголовки, ну и еще кое-что) и начата раскладка, которая тоже занимает, к сожалению, пресловутые "несколько минут". Последнее сообщение для выпуска "16:32" от 16:09. Видимо, действительно, правильнее писать не это наше время обновления, а время последнего сообщения в базе, но это несущественно, это никому не интересно. Гораздо важнее, сократить эти 45-50 минут в пятницу (в первой половине недели все гораздо шустрее). Мы этим занимаемся, но это не так просто, как может показаться.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-13 15:00 (ссылка)
Тогда и надо писать, что последнее обновление было в 16:09, а не в 16:32. Кстати, мне тут сообщают, что Интерфакс сообщил о событии в 16:07, что раньше, чем 16:09.

Потому что любой, кто видит надпись о том, что последнее обновление было в 16:32 делает вывод о том, что в 16:32 этих новостей ещё не было. Одно дело, если бы обход робота занимал минуту-две и другое - 23 минуты, как в данном случае.

Кстати, если обход занимает такое немалое время, то и сокращать шаг между обновлениями тоже имеет смысл только до какого-то предела, вряд ли он может быть короче этого интервала.

(Ответить) (Уровень выше)


[info]sergeeva777@lj
2009-11-13 16:26 (ссылка)
Это вы молодец, что СМИ дисциплинируете...на всякий случай. Интернет ведь для этого и изобретали.

(Ответить)