kouzdra: Забавное про Яндекс

(Добавить комментарий)

	kukutz 2006-11-09 16:27 (ссылка)
	А что именно забавно? (Ответить) (Ветвь дискуссии)

kouzdra
2006-11-09 17:26 (ссылка)

До сих пор, насколько мне известно, файл robots.txt запрещал отнюдь не индексирование, а любое посещение сайта роботами.

Кстати - в известных маразматических копирайтных делах на тему индексирования ваша позиция выглядит очень бледно - потому что вы нарушаете прямо выраженный запрет.

(Ответить) (Уровень выше) (Ветвь дискуссии)

kukutz
2006-11-09 17:34 (ссылка)

В момент появления в мире web-based personal RSS reader он перестал это запрещать, мне кажется.

Иначе получается, что desktop personal RSS reader имеет больше возможностей, чем web-based, и совсем непонятно, с чего бы это.

(Ответить) (Уровень выше) (Ветвь дискуссии)

quappa
2006-11-10 13:24 (ссылка)

Вот, кстати, как выкрутились гугельридеровцы: http://www.google.com/support/webmasters/bin/answer.py?answer=33583&topic=8460

Официально развязать ридеровский и поисковый кролеры -- это полезно для общего душевного спокойствия пользователей :)

(Ответить) (Уровень выше) (Ветвь дискуссии)

	kouzdra 2006-11-10 13:36 (ссылка)
	Мне эта мысль тоже в голову приходила. Причем ключевой момент тут, то что FeedFetcher делает это только по запросу пользователя. (Ответить) (Уровень выше) (Ветвь дискуссии)

	quappa 2006-11-10 13:40 (ссылка)
	Ну я лично в этом сомневаюсь ;) (Ответить) (Уровень выше) (Ветвь дискуссии)

	kouzdra 2006-11-10 14:03 (ссылка)
	Это в общем вполне разумно - зачем его зря напрягать, если этот URL никому не нужен (Ответить) (Уровень выше) (Ветвь дискуссии)

	quappa 2006-11-10 14:11 (ссылка)
	В форумах Ридера были жалобы на то, что ридеровский ФидФетчер приходит за фидом, от которого все давно отписались. (Ответить) (Уровень выше)

	kukutz 2006-11-10 13:43 (ссылка)
	Качать почти все блоги по два раза чтобы что? Чтобы десятку человек спалось спокойнее? (Ответить) (Уровень выше) (Ветвь дискуссии)

kouzdra
2006-11-10 14:05 (ссылка)

Ну если код криво писать - то да, а так - посмотреть в базе на тему, что уже скачивалось - не вижу проблемы. К тому же - позволю предположить, что количество фидов, которые читаются через яндекс составляет весьма незначительный % от общего их количества.

(Ответить) (Уровень выше) (Ветвь дискуссии)

	kukutz 2006-11-10 14:07 (ссылка)
	Да нет, значительный. (Ответить) (Уровень выше) (Ветвь дискуссии)

	kouzdra 2006-11-10 14:28 (ссылка)
	Не думаю, что 10 миллионов фидов LJ читается хотя бы 100 тыс. (Ответить) (Уровень выше) (Ветвь дискуссии)

	kukutz 2006-11-11 14:39 (ссылка)
	Мы индексируем не 10 миллионов, а 350 тысяч русскоязычных. (Ответить) (Уровень выше)

	quappa 2006-11-10 14:10 (ссылка)
	Брр. Почему бы ридеру не использовать накачанное поисковиком? (Ответить) (Уровень выше) (Ветвь дискуссии)

kukutz
2006-11-10 14:16 (ссылка)

Архитектура системы 1.
* две качалки, одна со сложной логикой "не качать то, что уже скачала другая"
* две базы со скачанными фидами
* общий список фидов с флагом, запрещён ли фид к индексации
* аггрегатор вынужден аггрегировать по двум базам

Архитектура системы 2.
* одна качалка
* одна база
* один список фидов с флагом, запрещён ли фид к индексации
* поиск учитывает флаг
* аггрегатор работает по одной базе

Мне кажется, что первая система в несколько раз сложнее, то есть её заметно дороже писать и эксплуатировать.

Ради десяти человек.

(Ответить) (Уровень выше) (Ветвь дискуссии)

kouzdra
2006-11-10 14:27 (ссылка)

Арихтектура #3 - общая база и произвольное количество качалок, каждая со своей логикой, соотвествующей ее задаче.

Прежде чем качать, проверяется содержимое базы на наличие страницы в ней. Собственно - эта "сложная логика" называется "кэш", и наверняка все равно имеется.

(Ответить) (Уровень выше)