Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет Игорь Петров ([info]labas)
@ 2010-10-04 22:35:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
немного статистики
К посту коллеги [info]pe3yc@lj
Вот статистика жж за 10 лет и нарисованная на ее основе диаграмма:





Вертикальные засечки отмечают:
- введение приглашений
- отмену приглашений
- покупку жж Six Apart
- появление СУПа
- покупку жж СУПом

Таким образом, сегодня в жж в день постится столько же записей, сколько постилось в день в августе 2003 года. Тогда в жж было 1,2 миллиона аккаунтов, сейчас в 23 раза больше. Кроме того тогда не было трансляций с других блогоплатформ, перепостов и спама, который, судя по ленте последних записей, составляет около половины текущего контента.
Данные обновлений за неделю и за месяц количественно тоже находятся на уровне конца 2003 г
Почти половина аккаунтов (12 миллионов!) не обновлялась вообще никогда.
Несмотря на то, что физически нагрузка уменьшается, благодаря "улучшениям" и "нововведениям" жж работает все медленнее.

Поэтому, когда "директор по развитию продуктов" СУПа сообщает нам, что "20,000 человек, что даже если брать только зарегистрированных пользователей, а не всех уников, составит примерно 0,6%" пользователей сервиса, он разговаривает не с нами, а с духами рекламодателей.
20000 человек это примерно десятая часть того контингента, который у него вообще остался, и 50% контингента, который пока еще активно пользуется жж. Такие дела.


(Читать комментарии) - (Добавить комментарий)


[info]kukutz@lj
2010-10-05 06:49 (ссылка)
Панелью. Не в смысле тулбара, а в смысле репрезентативной выборки людей.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2010-10-05 10:31 (ссылка)
Кстати, Роман, хорошо что вы появились. Я до сих пор жду вашего ответа вот в этом треде.

Особенно меня интересуют ваши ответы на вопросы 3, 4 и 5. Не затруднит ли вас потратить несколько минут вашего драгоценного времени и ответить на них?

(Ответить) (Уровень выше) (Ветвь дискуссии)

Самим лень искать?
(Анонимно)
2010-10-05 16:52 (ссылка)
Никакого Кукуца там не нужно, вопросы-то детские. Выйдите уже из ЖЖ, на минуточку: сто раз уже это обсуждалось.

1. "Почему "в основном", а не "только"?
Потому что индексируются профили, к примеру:
http://api.yandex.ru/blogs/doc/indexation/concepts/what-is-foaf.xml

2. Очевидно глупый вопрос.
3. Главная функция сервиса ЯППБ — "узнать, что сейчас происходит в интернете".
4. А по Вашим? А разница-то какая? Потому что...
5. ...никакого отбора эккаунтов в базу не ведётся. Есть индексация RSS потоков. Из которого выкидывается явный мусор. По мере накопления данных о потоке — неявный втудаже идёт. И алгоритм этого "явный-неявный", разумеется, никогда не будет не то что опубликован — даже намекать на критерии невозможно. Причина, полагаю, на виду: любой критерий будет подхвачен и растиражирован.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2010-10-05 17:06 (ссылка)
Феерическая хуйня. Впрочем, чего ждать от анонима?

(Ответить) (Уровень выше) (Ветвь дискуссии)


(Анонимно)
2010-10-05 17:26 (ссылка)
Собственно, от Вас другого ответа и не ждал.
Не разочаровали.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2010-10-06 05:38 (ссылка)
Вот видите как хорошо получилось.

(Ответить) (Уровень выше)


[info]kukutz@lj
2010-10-06 02:36 (ссылка)
1. Прав аноним про FOAF, кроме того, часть индексации осуществляется через специальные ускоряющие механизмы, которые могут быть не в форматах RSS/Atom, а, например, PubSubHubBub.

2. Вопрос, на мой взгляд, бессмысленный. Что искажается, если ОДНИ И ТЕ ЖЕ данные представляются в разных форматах? А если представляются разные, то это попытка обмана поисковой системы, читай, спама. Мы с ними боремся с переменным успехом, но, скорее, довольно успешно.

3. Поиск работает. Работает не идеально (как, впрочем, любая программа), мы трудимся над тем, чтобы работал лучше. Конкретную техническую проблему я назвать не могу, т.к. просто её не знаю. Могу попросить Антона вам ответить.

4. Вы наверняка спрашиваете не про часть базы, а про часть индекса. База > индекса, выкидываем мы мусор именно из индекса, из базы выкидываем редко. Оценок таких у меня нет. Более того, судя по слову "аккаунт", вы спрашиваете про блоги на блогхостингах, а все автономные блоги не включаете. Или даже только про ЖЖ? В общем, уточните вопрос, я смогу тогда его задать внутри.

5. Аноним прав. Ситуация такая: любой новый аккаунт на отечественном блог-хостинге считается блогом. Любой новый аккаунт с записью на русском языке на зарубежном блог-хостинге считается блогом. Некоторые автономные RSS считаются блогами по умолчанию. Дальше происходит постоянный или разовый анализ на спам, на не-блоговость, на то, на сё.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2010-10-06 06:33 (ссылка)
Ну наконец-то с вами начался хоть какой-то разумный диалог, не прошло и трёх лет. Хотя Антон моих вопросов по-прежнему избегает, надеюсь, что и он подключится на каком-то этапе.

1. ОК, принято.

2. Это совсем не бессмысленный вопрос. Он имеет отношение к дальнейшим исправлениям и обновлениям при редактировании поста. Если робот не ходит по вебу, как в нормальном поисковике, а данные берутся исключительно из RSS, то такой поиск попросту обречен на постепенную, но неизбежную потерю релевантности. В вашем же случае, в отличие от Большого поиска, роботы, как я понимаю, - по блогам не ходят и даже единожды не заходят.

Что же касается борьбы со спамом, то она абсолютно безуспешна, и мы, с вашего позволения, поговорим с вами об этом отдельно. Пока что я могу констатировать, что вы затрудняетесь даже оценить объём спама, о чём свидетельствует ваш ответ на вопрос 4.

3. Поиск работает неудовлетворительно. Выдача ужасна: часть записей отсутствует в выдаче (при том, что эти записи присутствуют в базе и в индексе), несмотря на корректно составленный запрос. Примеров масса. Кроме того, выдача крайне засорена спамом - по сравнению с выдачей Большого Яндекса, опять же. И ко всему ещё часты отказы в обслуживании ("попробуйте попозже"). Это не "поиск работает".

4. Уточняю: Какую часть индекса составляют сплоги, бот-эккаунты, заброшенные эккаунты? (По каждой позиции свой процент, пожалуйста). Речь идёт обо всех блогохостингах и автономных блогах тоже - иначе говоря обо всех "блогах", которые вы индексируете, то есть обо всех, подпадающих под определение в пункте 5.

5. Ответ принимается, но требует некоторых уточнений.

- любой НОВЫЙ эккаунт на отечественном блог-хостинге - это блог для ЯППБ.

(прошу сообщить список отечественных блог-хостингов, они как считаются, по гражданству владельцев или по месту регистрации? И почему только новый эккаунт относится к блогу, а как же со старыми эккаунтами? И как определяется в данном случае новый/старый?)

- любой НОВЫЙ эккаунт на зарубежном блог-хостинге, если там сделана первая запись на русском - это блог для ЯППБ.

(что считается записью на русском? А на украинском? Сколько кириллицы должно быть в этой записи? А если первая запись на китайском, а потом пятая на русском?)

- некоторые автономные RSS считаются блогами по умолчанию.

(какие именно автономные RSS считаются блогами по умолчанию и почему? На основе какого критерия составлялся этот список и изменяется ли он - пополняется и/или сокращается?)

- дальше происходит постоянный или разовый анализ на спам, на не-блоговость, на то, на сё.

(вот это особенно мило, про то и про сё. Можно ли об этом поподробнее: кто производит анализ на спам, на не-блоговость, по каким критериям это происходит и всё-таки разово или постоянно?)

И ещё дополнительный вопрос к этому же пункту: известно ли вам, что с помощью блоговых платформ (например, WP) можно успешно создавать сайты, которые никоим образом блогами не являются?

Спасибо за сотрудничество, жду ответов.

(Ответить) (Уровень выше)


[info]labas@lj
2010-10-12 08:05 (ссылка)
> Поиск работает. Работает не идеально (как, впрочем, любая программа), мы трудимся над тем, чтобы работал лучше.

Багрепорт. При таком запросе
http://blogs.yandex.ru/search.xml?text=%D0%B1%D0%B5%D1%80%D1%82%D1%83%D0%BC
находится не мой изначальный пост, а какое-то спамоговно, которое его перепечатало.

(Ответить) (Уровень выше)


(Читать комментарии) -