Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет Игорь Петров ([info]labas)
@ 2010-10-04 22:35:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
немного статистики
К посту коллеги [info]pe3yc@lj
Вот статистика жж за 10 лет и нарисованная на ее основе диаграмма:





Вертикальные засечки отмечают:
- введение приглашений
- отмену приглашений
- покупку жж Six Apart
- появление СУПа
- покупку жж СУПом

Таким образом, сегодня в жж в день постится столько же записей, сколько постилось в день в августе 2003 года. Тогда в жж было 1,2 миллиона аккаунтов, сейчас в 23 раза больше. Кроме того тогда не было трансляций с других блогоплатформ, перепостов и спама, который, судя по ленте последних записей, составляет около половины текущего контента.
Данные обновлений за неделю и за месяц количественно тоже находятся на уровне конца 2003 г
Почти половина аккаунтов (12 миллионов!) не обновлялась вообще никогда.
Несмотря на то, что физически нагрузка уменьшается, благодаря "улучшениям" и "нововведениям" жж работает все медленнее.

Поэтому, когда "директор по развитию продуктов" СУПа сообщает нам, что "20,000 человек, что даже если брать только зарегистрированных пользователей, а не всех уников, составит примерно 0,6%" пользователей сервиса, он разговаривает не с нами, а с духами рекламодателей.
20000 человек это примерно десятая часть того контингента, который у него вообще остался, и 50% контингента, который пока еще активно пользуется жж. Такие дела.


(Читать комментарии) - (Добавить комментарий)


[info]labas@lj
2010-10-05 05:31 (ссылка)
Извиняюсь за вопиющую неграмотность, а что показывает TNS? Количество посещений страниц жж уникальными юзерами?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]kukutz@lj
2010-10-05 05:38 (ссылка)
Месячную аудиторию. Количество уникальных ЛЮДЕЙ (не кук) из России, которые посетили страницы ЖЖ хотя бы раз в месяц (день тоже показывает, отдельно).

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]labas@lj
2010-10-05 05:53 (ссылка)
Ну то есть [info]motto@lj прав во всем: сто тыщ пенсионеров и кладбище контента.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]kukutz@lj
2010-10-05 06:05 (ссылка)
По-прежнему нет никаких данных о росте или загибании русскоязычной пишущей части ЖЖ, так что про песионеров можно говорить, только основываясь на "я так чую".

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2010-10-05 10:24 (ссылка)
У кого нет таких данных? У вас их нет или их вообще нет?

В общем, парадокс вырисовывается: контента всё меньше и меньше, а посетителей всё больше и больше.

Отчего так?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]kukutz@lj
2010-10-05 11:17 (ссылка)
У меня их нет и в этом посте их нет. У вас есть?

Парадокс? Во-первых, контента всё больше, старый-то никуда не девается.
Во-вторых, нет доказательств, что объём нового русскоязычного неспамного контента уменьшается. Я бы посмотрел на данные ППБ, но вы им все равно не поверите.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2010-10-05 11:58 (ссылка)
Почему же? Я всем данным верю, просто каждые данные нужно верифицировать. Если данные ППБ бьются с прочими или хотя бы им не противоречат - это косвенно подтверждает и их, и прочие.

(Ответить) (Уровень выше) (Ветвь дискуссии)

О нагрузке
[info]kamen_jahr@lj
2010-10-07 05:30 (ссылка)
"Почему же? Я всем данным верю, просто каждые данные нужно верифицировать"
И как Вы, Дмитрий, верифицировали высказывание Игоря Петрова?

"Несмотря на то, что физически нагрузка уменьшается, благодаря "улучшениям" и "нововведениям" жж работает все медленнее."
Автор поста не остановился подробно на данном пункте, но в Вашем жеже вы субъективное мнение например , высказывали, что мол рюрешки "тормозят" жж.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2010-10-07 05:34 (ссылка)
А это не данные, а субъектвиное мнение. Оно не нуждается в верификации и может быть только принято к сведению.

А вот если появятся данные, что, мол, ХХ% пользователей жалуется на то, что всё стало тормозить, вот тогда это будут данные и их можно будет каким-то образом верифицировать - например, устроить опрос.

(Ответить) (Уровень выше) (Ветвь дискуссии)

Про опрос и имхи;-)
[info]kamen_jahr@lj
2010-10-07 05:56 (ссылка)
Когда я с lynx на нетскейп перешел, у меня тоже возникло ощущение, что все это жутко тормозит (тогда я еще изподмодема "серфал со ск. то ли 2800 БОД ;-))
Потом уже здесь в Германии, я серфал изпод "телефонного дозвона" ( звонишь на нумер, настраиваешь предварительно и серфаш) - я жутко удивился как все быстро "лётает" - тогда скорость была ок. 44000 Бит-в-секунду ( про боды, дление на 10 я тогда уж "позабыл")

Затем при той же скорости - снова все "тормозить" стало. Перешел на SDSL (урезанный на уплоад вариант). На SDSL был дцать леть. Ушел т.к. скорость быстрее нужна была- Теперь на VDSL.

П.С А опрос - вещь стоящая, тока сей опрос надо бы у тех прикрутить, кого много читают, чтобы хоть как то картина с медленностью яснее была...

(Ответить) (Уровень выше)


[info]msk01@lj
2010-10-05 06:42 (ссылка)
А людей они вычисляют не куками? А как?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]kukutz@lj
2010-10-05 06:49 (ссылка)
Панелью. Не в смысле тулбара, а в смысле репрезентативной выборки людей.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2010-10-05 10:31 (ссылка)
Кстати, Роман, хорошо что вы появились. Я до сих пор жду вашего ответа вот в этом треде.

Особенно меня интересуют ваши ответы на вопросы 3, 4 и 5. Не затруднит ли вас потратить несколько минут вашего драгоценного времени и ответить на них?

(Ответить) (Уровень выше) (Ветвь дискуссии)

Самим лень искать?
(Анонимно)
2010-10-05 16:52 (ссылка)
Никакого Кукуца там не нужно, вопросы-то детские. Выйдите уже из ЖЖ, на минуточку: сто раз уже это обсуждалось.

1. "Почему "в основном", а не "только"?
Потому что индексируются профили, к примеру:
http://api.yandex.ru/blogs/doc/indexation/concepts/what-is-foaf.xml

2. Очевидно глупый вопрос.
3. Главная функция сервиса ЯППБ — "узнать, что сейчас происходит в интернете".
4. А по Вашим? А разница-то какая? Потому что...
5. ...никакого отбора эккаунтов в базу не ведётся. Есть индексация RSS потоков. Из которого выкидывается явный мусор. По мере накопления данных о потоке — неявный втудаже идёт. И алгоритм этого "явный-неявный", разумеется, никогда не будет не то что опубликован — даже намекать на критерии невозможно. Причина, полагаю, на виду: любой критерий будет подхвачен и растиражирован.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2010-10-05 17:06 (ссылка)
Феерическая хуйня. Впрочем, чего ждать от анонима?

(Ответить) (Уровень выше) (Ветвь дискуссии)


(Анонимно)
2010-10-05 17:26 (ссылка)
Собственно, от Вас другого ответа и не ждал.
Не разочаровали.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2010-10-06 05:38 (ссылка)
Вот видите как хорошо получилось.

(Ответить) (Уровень выше)


[info]kukutz@lj
2010-10-06 02:36 (ссылка)
1. Прав аноним про FOAF, кроме того, часть индексации осуществляется через специальные ускоряющие механизмы, которые могут быть не в форматах RSS/Atom, а, например, PubSubHubBub.

2. Вопрос, на мой взгляд, бессмысленный. Что искажается, если ОДНИ И ТЕ ЖЕ данные представляются в разных форматах? А если представляются разные, то это попытка обмана поисковой системы, читай, спама. Мы с ними боремся с переменным успехом, но, скорее, довольно успешно.

3. Поиск работает. Работает не идеально (как, впрочем, любая программа), мы трудимся над тем, чтобы работал лучше. Конкретную техническую проблему я назвать не могу, т.к. просто её не знаю. Могу попросить Антона вам ответить.

4. Вы наверняка спрашиваете не про часть базы, а про часть индекса. База > индекса, выкидываем мы мусор именно из индекса, из базы выкидываем редко. Оценок таких у меня нет. Более того, судя по слову "аккаунт", вы спрашиваете про блоги на блогхостингах, а все автономные блоги не включаете. Или даже только про ЖЖ? В общем, уточните вопрос, я смогу тогда его задать внутри.

5. Аноним прав. Ситуация такая: любой новый аккаунт на отечественном блог-хостинге считается блогом. Любой новый аккаунт с записью на русском языке на зарубежном блог-хостинге считается блогом. Некоторые автономные RSS считаются блогами по умолчанию. Дальше происходит постоянный или разовый анализ на спам, на не-блоговость, на то, на сё.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2010-10-06 06:33 (ссылка)
Ну наконец-то с вами начался хоть какой-то разумный диалог, не прошло и трёх лет. Хотя Антон моих вопросов по-прежнему избегает, надеюсь, что и он подключится на каком-то этапе.

1. ОК, принято.

2. Это совсем не бессмысленный вопрос. Он имеет отношение к дальнейшим исправлениям и обновлениям при редактировании поста. Если робот не ходит по вебу, как в нормальном поисковике, а данные берутся исключительно из RSS, то такой поиск попросту обречен на постепенную, но неизбежную потерю релевантности. В вашем же случае, в отличие от Большого поиска, роботы, как я понимаю, - по блогам не ходят и даже единожды не заходят.

Что же касается борьбы со спамом, то она абсолютно безуспешна, и мы, с вашего позволения, поговорим с вами об этом отдельно. Пока что я могу констатировать, что вы затрудняетесь даже оценить объём спама, о чём свидетельствует ваш ответ на вопрос 4.

3. Поиск работает неудовлетворительно. Выдача ужасна: часть записей отсутствует в выдаче (при том, что эти записи присутствуют в базе и в индексе), несмотря на корректно составленный запрос. Примеров масса. Кроме того, выдача крайне засорена спамом - по сравнению с выдачей Большого Яндекса, опять же. И ко всему ещё часты отказы в обслуживании ("попробуйте попозже"). Это не "поиск работает".

4. Уточняю: Какую часть индекса составляют сплоги, бот-эккаунты, заброшенные эккаунты? (По каждой позиции свой процент, пожалуйста). Речь идёт обо всех блогохостингах и автономных блогах тоже - иначе говоря обо всех "блогах", которые вы индексируете, то есть обо всех, подпадающих под определение в пункте 5.

5. Ответ принимается, но требует некоторых уточнений.

- любой НОВЫЙ эккаунт на отечественном блог-хостинге - это блог для ЯППБ.

(прошу сообщить список отечественных блог-хостингов, они как считаются, по гражданству владельцев или по месту регистрации? И почему только новый эккаунт относится к блогу, а как же со старыми эккаунтами? И как определяется в данном случае новый/старый?)

- любой НОВЫЙ эккаунт на зарубежном блог-хостинге, если там сделана первая запись на русском - это блог для ЯППБ.

(что считается записью на русском? А на украинском? Сколько кириллицы должно быть в этой записи? А если первая запись на китайском, а потом пятая на русском?)

- некоторые автономные RSS считаются блогами по умолчанию.

(какие именно автономные RSS считаются блогами по умолчанию и почему? На основе какого критерия составлялся этот список и изменяется ли он - пополняется и/или сокращается?)

- дальше происходит постоянный или разовый анализ на спам, на не-блоговость, на то, на сё.

(вот это особенно мило, про то и про сё. Можно ли об этом поподробнее: кто производит анализ на спам, на не-блоговость, по каким критериям это происходит и всё-таки разово или постоянно?)

И ещё дополнительный вопрос к этому же пункту: известно ли вам, что с помощью блоговых платформ (например, WP) можно успешно создавать сайты, которые никоим образом блогами не являются?

Спасибо за сотрудничество, жду ответов.

(Ответить) (Уровень выше)


[info]labas@lj
2010-10-12 08:05 (ссылка)
> Поиск работает. Работает не идеально (как, впрочем, любая программа), мы трудимся над тем, чтобы работал лучше.

Багрепорт. При таком запросе
http://blogs.yandex.ru/search.xml?text=%D0%B1%D0%B5%D1%80%D1%82%D1%83%D0%BC
находится не мой изначальный пост, а какое-то спамоговно, которое его перепечатало.

(Ответить) (Уровень выше)


(Читать комментарии) -