Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет Игорь Петров ([info]labas)
@ 2010-08-27 09:13:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
новости культуры
Отхуячить до кровавых соплей no_nine вообще нет проблем, был бы адрес, она никто - хуячить можно.


(Читать комментарии) - (Добавить комментарий)


[info]kukutz@lj
2010-08-28 13:50 (ссылка)
1) Поиск по блогам индексирует данные в структурированном виде, в основном через RSS и Atom, мы никогда не обходили html по ссылкам, как веб-поиск Яндекса.

2) Нет, не нахожу. То, что мы индексируем RSS, не имеет никакого отношения к тому, что мы "перегружаем" чьи-то сервисы. И не является исключением для ЖЖ.

3) Я не готов сказать точно, около года. Нужно понимать, что в конце концов отредактированная версия всё же будет проиндексирована, вопрос лишь в сроке.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2010-08-28 14:05 (ссылка)
1. Это относится не только к ЖЖ, а вообще ко всем блогосервисам, а также к стандалонам? То есть ЯППБ принципиально не обходит html, как Яндекс, а работает со всеми источниками только через RSS и Atom? Что значит "в основном"?

2. Причиной работы с потоками вместо обхода html (как это делает поисковая машина) разве не является нагрузка на блогосервис, которую он может и не выдержать? Если нет, то что же тогда является причиной отказа от использования нормальной технологии, проверенной временем и прекрасно себя зарекомендовавшей в большом поиске? Отдаёте ли вы себе отчёт в том, что работа с данными, которые блогосервис отдаёт по RSS/Atom и работа с непосредственными данными, полученными от поисковых роботов, приводят к разным результатам?

3. По моим сведениям - больше, чем около года, скорее ближе к двум. Но даже если и около года - не считаете ли вы, что для "технической неисправности" это неприлично большой срок? В современном интернете "около года" практически неотличимо от "так было всегда" или как минимум "очень давно". Причём речь не о какой-то второстепенной примочке, а об одном из важнейших критериев работы сервиса: об актуализации поиска.

4. Кстати, вы снова забыли подчистить анонс кэша (http://yandex.ru/yandsearch?date=&text=%D0%97%D0%BD%D0%B0%D1%87%D0%B8%D1%82+%D0%B3%D0%BE%D0%B2%D0%BE%D1%80%D1%8F%D1%82+%D0%B4%D1%80%D1%83%D0%B7%D1%8C%D1%8F+%D0%BF%D1%80%D0%B5%D0%B4%D0%BB%D0%B0%D0%B3%D0%B0%D1%8E%D1%82+%D0%B4%D0%B2%D1%83%D1%85+%D0%BE%D1%85%D1%80%D0%B0%D0%BD%D0%BD%D0%B8%D0%BA%D0%BE%D0%B2+%D0%BA%D0%BE%D1%80%D0%BE%D1%82%D0%BA%D0%BE%D0%B5+%D0%B2%D1%80%D0%B5%D0%BC%D1%8F+%D0%BE%D0%B1%D0%BB%D0%B8%D0%BB%D0%B0+%D0%A2%D0%BE%D0%BB%D1%81%D1%82%D1%83%D1%8E+%D0%B4%D0%B5%D1%80%D1%8C%D0%BC%D0%BE%D0%BC+%D1%81%D1%84%D0%BE%D1%82%D0%BE%D0%B3%D1%80%D0%B0%D1%84%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BB%D0%B0+%D0%B2%D1%8B%D0%B2%D0%B5%D1%81%D0%B8%D0%BB%D0%B0+%D0%BB%D0%BE%D0%B6%D1%8C+%D0%B8%D0%BD%D0%B8%D1%86%D0%B8%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%83%D1%8E+%D1%82%D1%80%D0%B0%D0%B2%D0%BB%D1%8E+%D0%9E%D1%82%D1%85%D1%83%D1%8F%D1%87%D0%B8%D1%82%D1%8C+%D0%BA%D1%80%D0%BE%D0%B2%D0%B0%D0%B2%D1%8B%D1%85+%D1%81%D0%BE%D0%BF%D0%BB%D0%B5%D0%B9+no_nine+%D0%B0%D0%B4%D1%80%D0%B5%D1%81+%D0%BD%D0%B8%D0%BA%D1%82%D0%BE+%D1%85%D1%83%D1%8F%D1%87%D0%B8%D1%82%D1%8C+%D0%9A%D0%BE%D0%BB%D1%8B%D1%88%D0%B5%D0%B2%D1%81%D0%BA%D0%BE%D0%B3%D0%BE+%D0%BF%D0%BE%D1%83%D1%87%D0%B8%D0%BB%D0%B8+%D1%81%D1%82%D1%80%D0%B0%D1%85%D0%B0+%D0%BA%D0%B2%D0%B0%D1%80%D1%82%D0%B8%D1%80%D1%8B+%D1%81%D1%8A%D0%B5%D1%85%D0%B0%D0%BB+%D0%A3%D0%B3%D0%BE%D0%BB%D0%BE%D0%B2%D0%BD%D0%BE%D0%B9+%D0%BE%D1%82%D0%B2%D0%B5%D1%82%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D0%BE%D1%81%D1%82%D0%B8+%D0%BE%D0%B1%D0%BB%D0%B8%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5+%D0%B4%D0%B5%D1%80%D1%8C%D0%BC%D0%BE%D0%BC+%D0%B1%D0%B0%D0%BA%D0%BB%D0%B0%D0%BD%D0%BA%D0%B0+%D1%85%D1%83%D0%BB%D0%B8%D0%B3%D0%B0%D0%BD%D0%BA%D0%B0&site=becky-sharpe.livejournal.com&rstr=&zone=all&wordforms=all&lang=ru&within=0&from_day=&from_month=&from_year=&to_day=&to_month=&to_year=&mime=all&numdoc=10&lr=213), плохо выполнили команду Божены. Через большой поиск её пост всё равно находится (кэш, правда, уничтожен). Поправьте там, если у вас туда есть доступ, - а то некрасиво получается.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]kukutz@lj
2010-08-28 14:18 (ссылка)
1. Да, это относится ко всем сервисам, а также к автономным блогам. Я удивлен, что такой эксперт в области недостатков поиска по блогам Яндекса, как Вы, не знает этой базовой основополагающей вещи про него.

2. Нет, причиной является не нагрузка, а то, что индексация в машиночитаемом формате позволяет получать большое количество метаданных, не полагаясь на либо наколенные парсеры для каждого дизайна каждого блога, либо на искуственный интеллект, занимающийся сегментацией страниц блогов. Эти метаданные позволяют вести все те поиски, которые доступны со страницы расширенного поиска, в частности. Они позволяют понимать, кто автор какого комментария и так далее.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2010-08-28 14:42 (ссылка)
1. C чего бы это я эксперт? Нет уж, я обычный любитель, никаких экспертов. Однако вы не ответили на вопрос - что значит "в основном по RSS и Atom"? Почему "в основном", а не "только"?

2. Хорошо, допустим. Но тогда получается, что вы имеете дело не с самими блогами, а с теми их отражениями, которые блогосервис считает нужным отдать в трансляцию. Не полагаете ли вы, что такой подход искажает получаемую картину?

3. Вы так и не ответили - что это за загадочная "техническая причина", по которой вот уже больше года не происходит переиндексации поиска. Насколько я понимаю, главная функция сервиса ЯППБ, исходя из его названия - это именно поиск по блогам. Почему же он более года не работает, собственно? Кроме переиндексации отредактированных страниц имеются (годами причём имеются) также и лакуны в базе (часть постов и комментов вообще в неё не попадают). При этом прочие, не-поисковые функции вашего сервиса (например, рейтинги) вполне работают. Почему так? Вы считаете, что рейтинги нужнее поиска?

4. Есть и ещё вопросы. По вашей оценке, какую часть вашей базы составляют сплоги, бот-эккаунты, заброшенные эккаунты? (По каждой позиции свой процент, пожалуйста).

5. По каким критериям ведётся отбор эккаунтов в базу. Иначе говоря, что считается "блогом", а что нет. Надеюсь, это не секретные критерии и их можно опубликовать?

(Ответить) (Уровень выше)


[info]pe3yc@lj
2010-09-02 14:02 (ссылка)
Я правильно понимаю, что ответов на эти вопросы от вас я так и не дождусь?

(Ответить) (Уровень выше)


(Читать комментарии) -