Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет kouzdra ([info]kouzdra)
@ 2006-11-09 15:29:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Забавное про Яндекс
http://webplanet.ru/interview/service/2006/10/11/blogsearch.html
То есть, максимальная оценка размера "неучтенной блогосферы" - 17%. В реальности меньше. Опять же, эти 17% неучтенными являются с некоторыми оговорками - мы всё равно скачиваем потоки тех, кто закрыл индексацию - мы не выдаём их в поиске. Скачиваем для показа подписчикам Яндекс.Ленты, а также для ситуации, когда человек решит галочку "не давать индексировать" снять - чтобы к этому моменту у нас уже был архив его блога.


(Добавить комментарий)


[info]kukutz
2006-11-09 16:27 (ссылка)
А что именно забавно?

(Ответить) (Ветвь дискуссии)


[info]kouzdra
2006-11-09 17:26 (ссылка)
До сих пор, насколько мне известно, файл robots.txt запрещал отнюдь не индексирование, а любое посещение сайта роботами.

Кстати - в известных маразматических копирайтных делах на тему индексирования ваша позиция выглядит очень бледно - потому что вы нарушаете прямо выраженный запрет.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]kukutz
2006-11-09 17:34 (ссылка)
В момент появления в мире web-based personal RSS reader он перестал это запрещать, мне кажется.

Иначе получается, что desktop personal RSS reader имеет больше возможностей, чем web-based, и совсем непонятно, с чего бы это.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]quappa
2006-11-10 13:24 (ссылка)
Вот, кстати, как выкрутились гугельридеровцы: http://www.google.com/support/webmasters/bin/answer.py?answer=33583&topic=8460

Официально развязать ридеровский и поисковый кролеры -- это полезно для общего душевного спокойствия пользователей :)

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]kouzdra
2006-11-10 13:36 (ссылка)
Мне эта мысль тоже в голову приходила. Причем ключевой момент тут, то что FeedFetcher делает это только по запросу пользователя.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]quappa
2006-11-10 13:40 (ссылка)
Ну я лично в этом сомневаюсь ;)

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]kouzdra
2006-11-10 14:03 (ссылка)
Это в общем вполне разумно - зачем его зря напрягать, если этот URL никому не нужен

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]quappa
2006-11-10 14:11 (ссылка)
В форумах Ридера были жалобы на то, что ридеровский ФидФетчер приходит за фидом, от которого все давно отписались.

(Ответить) (Уровень выше)


[info]kukutz
2006-11-10 13:43 (ссылка)
Качать почти все блоги по два раза чтобы что?
Чтобы десятку человек спалось спокойнее?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]kouzdra
2006-11-10 14:05 (ссылка)
Ну если код криво писать - то да, а так - посмотреть в базе на тему, что уже скачивалось - не вижу проблемы. К тому же - позволю предположить, что количество фидов, которые читаются через яндекс составляет весьма незначительный % от общего их количества.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]kukutz
2006-11-10 14:07 (ссылка)
Да нет, значительный.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]kouzdra
2006-11-10 14:28 (ссылка)
Не думаю, что 10 миллионов фидов LJ читается хотя бы 100 тыс.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]kukutz
2006-11-11 14:39 (ссылка)
Мы индексируем не 10 миллионов, а 350 тысяч русскоязычных.

(Ответить) (Уровень выше)


[info]quappa
2006-11-10 14:10 (ссылка)
Брр. Почему бы ридеру не использовать накачанное поисковиком?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]kukutz
2006-11-10 14:16 (ссылка)
Архитектура системы 1.
* две качалки, одна со сложной логикой "не качать то, что уже скачала другая"
* две базы со скачанными фидами
* общий список фидов с флагом, запрещён ли фид к индексации
* аггрегатор вынужден аггрегировать по двум базам

Архитектура системы 2.
* одна качалка
* одна база
* один список фидов с флагом, запрещён ли фид к индексации
* поиск учитывает флаг
* аггрегатор работает по одной базе

Мне кажется, что первая система в несколько раз сложнее, то есть её заметно дороже писать и эксплуатировать.

Ради десяти человек.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]kouzdra
2006-11-10 14:27 (ссылка)
Арихтектура #3 - общая база и произвольное количество качалок, каждая со своей логикой, соотвествующей ее задаче.

Прежде чем качать, проверяется содержимое базы на наличие страницы в ней. Собственно - эта "сложная логика" называется "кэш", и наверняка все равно имеется.

(Ответить) (Уровень выше)