Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет Misha Verbitsky ([info]tiphareth)
@ 2015-12-19 15:44:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Настроение: sick
Музыка: deadboy and the elephantmen - if this is hell, then i'm lucky
Entry tags:lj

блогопоиск по Яндексу
Кстати, блогопоиск по Яндексу отключен окончательно.
Вместо него стоит редирект на поисковую базу Яндекса
с разделом "блоги", но она полудохлая и ничего толком
не индексирует, то есть можно и не стараться.

Надеюсь, что и сам Яндекс скоро разорится,
к этому все идет.


Привет



(Читать комментарии) - (Добавить комментарий)


[info]rednyrg721
2015-12-19 17:08 (ссылка)
Надеюсь, что по жеже кто-нибудь сделает внешний поиск, ну сколько там места эти посты занимают - пару терабайт, небось.

Расчет с потолка, например:

4кб (средний пост) * 22563405 (accounts that have ever updated) * 100 (постов) = 8,6 тб (это с миллионами спам аккаунтов)

Заодно и кэш всего жеже будет.

Кстати, тенденция - на днях Apple Topsy убил (поиск по твиттеру крутой):

http://9to5mac.com/2015/12/15/apple-shuts-down-topsy/

(Ответить) (Ветвь дискуссии)


[info]lenkasm
2015-12-19 17:24 (ссылка)
да, Рашка рашкой, а гугл свой блогопоиск убил еще раньше
я думаю, что блогопоиск мешает коммерциализации
пользователи искали халяву, торренты всякие
а самое главное, отвлекались от потребления

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]tiphareth
2015-12-19 17:25 (ссылка)
> гугл свой блогопоиск убил еще раньше

а он был изначально сломанный, Гугл его ни разу не смог довести до ума
блогс.яндекс работал ок, слава Кукуцу

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]rednyrg721
2015-12-19 17:39 (ссылка)
по блогспоту он хорошо искал только

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]tiphareth
2015-12-19 17:57 (ссылка)
угу, но там же вообще сервак гугловский
а для других блогов, надо API осваивать и спам фильтровать
это трудно

(Ответить) (Уровень выше)


[info]rednyrg721
2015-12-19 17:38 (ссылка)
ага, я гугловский блогопоиск именно для поиска мп3 юзал, было удобно в свое время

(Ответить) (Уровень выше)


[info]yalexey
2015-12-19 18:51 (ссылка)
Там есть чисто технические сложности. ЖЖ блочит IP после превышения лимита запросов в сутки. Я не уверен, что они сами заинтересованы в хорошей работе поиска.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]rednyrg721
2015-12-19 19:38 (ссылка)
Вопрос, наверное, в том, сколько это будет стоить :) То есть, можно же несколько серваков на амазоне арендовать с разными айпи, десять, например. И это нужно будет только временно для обхода старых постов, новых-то постов и в лучшие времена было порядка 100-200 тысяч в день (то есть 1-2 в секунду), а теперь сильно меньше, наверное (latest.bml урезанный стал, и не прикинуть).

А комментов не знаю даже примерно, сколько, срут-то много, но ведь буквально в нескольких сотнях постов за день, и комменты сильно короче постов в среднем, так что не факт, что их больше по суммарному объему.

(Ответить) (Уровень выше)


[info]polytheme
2015-12-19 22:15 (ссылка)
а кто им сейчас хозяйничает, я отстал от поезда ? не Носик же уже давно ?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]rednyrg721
2015-12-20 11:25 (ссылка)
можно считать, наверное, что Мамут

https://ru.wikipedia.org/wiki/Rambler%26Co

(Ответить) (Уровень выше)


[info]yalexey
2015-12-19 18:53 (ссылка)
И, да, с каментами там насрано существенно жирнее.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]rednyrg721
2016-06-14 16:24 (ссылка)
Оказалось, что 1 тб всего (с комментами), близок был я к истине:

"В сервисе собраны данные с 2000 года по осень 2015 года — 340 млн заметок и 1 млрд комментариев, всего более терабайта информации."

https://vc.ru/n/kukutz-ljsearch

(Ответить) (Уровень выше)


(Читать комментарии) -