Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет pe3yc ([info]pe3yc)
@ 2009-11-10 23:00:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Кстати, поскольку сегодня вдруг снова речь зашла о блогояндексе, хочу обратить внимание просвещённой публики на вот какое дело: в последнее время чрезвычайно активизировались не только назойливые спамботы, но и гораздо менее заметные простому юзеру спамблоги.

В принципе они уютненьким дневничкам не мешают - никого не комментят, просто гонят себе в блог произвольные тексты и вставляют туда линки. Линки эти нужны для накручивания всяких ТИЦев, хуицев и прочих SЕОшных пиздицев, - и часто сильно портят выдачу поисковикам.

Поисковики с этим злом борются как могут, но это не так-то просто. Кроме прочего, спамблоги (они же ещё называются сплогами) умеют словарно обрабатывать тексты, что мешает опознанию. То есть просто меняют некоторые слова на близкие или далёкие синонимы: например, в оригинале было "автомобиль двигался по пустынному шоссе", а в копиях "машина ехала по безлюдной дороге", "тачка летела по вымершей трассе" и "телега шкандыбала по мертвому просёлку". Точность здесь не нужна, нужно лишь внешнее подобие осмысленного текста, поискового робота обмануть не так уж сложно. Впрочем, если изначально брать огрызки текста из разных источников, то и никакая обработка не понадобится..

Так вот, юзерам эти мерзкие сущности почти по барабану, они как правило даже и не видят их (поскольку ленты fif уже давно нет, да и мало кто помнит, что это такое). Встретить они их могут разве что случайно, через поиск по блогам, напоровшись на загаженную выдачу.

А вот рейтинги - благодаря распространению подобных SЕОтехнологий - всегда будут обречены. Потому что рейтинги тупые. Им, гагарам, недоступны неземные алгоритмы. Все эти новые топы, "поднявшие упавшее знамя" и впившиеся в брошеную Яндексом косточку (доступ к API) неизбежно будут с умным видом и очень настойчиво жрать говно.

В качестве иллюстрации (тэги [noindex] и [nofollow] невозбранно used):

1. Берём произвольную спамблоговую запись. Например, вот эту. Материалом для неё служило, по-видимому, какое-то пособие по военно-полевой хирургии.

2. Выбираем для поиска по блогам "гемопневмоторакс". Почему именно это слово? Потому что оно содержится в исходном тексте, который послужил пищей спамблогам, и при этом не подвергается обработке их пищеварительной системой (в силу смысловой уникальности), и поэтому выходит у них из-под хвоста в неизменённом виде. Можно ловить ещё на имена собственные, например, - они тоже годятся. А вот частотные слова будут переварены, и хрен их узнаешь после этого.

3. Смотрим выдачу. И что же мы в ней видим? Из 328 результатов - 286 спамовых и только 42 нормальных, причём нормальные начинаются аж с 29-й страницы - при умалчиваемой сортировке по дате. Кстати, движок блогояндекса конкретно глючит: попасть на эту страницу не так уж просто, - но мы сейчас не об этом.

(Опаньки, пока я писал, цифры уже поменялись - уже 287 кучек говна - ещё один спамблог нагадил в 23:54). К утру, я думаю, точно за 300 перевалит..

4. Смотрим пульс блогосферы по этому же слову и хорошо видим дни, когда это стадо спамблогов (оно, кстати, далеко не единственное) начало пастись на травке. Они изволят хорошо кушать вот уже две недели, аж с 28 октября.



5. Как вы думаете, сколько спамблогов нужно, чтобы поднять этот самый гемопневмоторакс в топ? Так сказать, актуализировать его?

6. И на закуску - вопрос для самых любознательных: почему график имеет такой странный вид - сначала резкий рост, потом некоторый спад, потом снова резкий рост?

Update 11/11 10:00: К утру ситуацию подчистили и часть спамблогов грохнули. Но только часть, почему-то оставили записи в период с 29 октября по 3 ноября и вчерашние, от 9 ноября. Теперь спамовых постов только 118 (нормальных остается те же 42). Но, подозреваю, "зачистка по факту сообщения от pe3yca" - это херовая стратегия борьбы с заразой. И в Яндексе это понимают, потому и отказываются от рейтингов.


(Читать комментарии) - (Добавить комментарий)


[info]pe3yc@lj
2009-11-10 18:17 (ссылка)
А похуй за какие. Критерии накрутки плохо формализуются, без модерации (хотя бы эпизодической) никак.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ottenki_serogo@lj
2009-11-10 18:21 (ссылка)
значит блоги выкидываются только ручками?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-10 18:47 (ссылка)
В некоторых случаях можно и автоматически, я думаю.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ottenki_serogo@lj
2009-11-10 18:48 (ссылка)
правды искать я так понимаю бессмысленно? :)

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-10 19:11 (ссылка)
Какой ещё правды? Никакой правды ни в каких рейтингах не содержится по определению.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ottenki_serogo@lj
2009-11-10 19:35 (ссылка)
Я не про рейтинги. А про предоставляемую им инфу Яндексом. То есть, Яндекс кагбэ говорит мы самоустранемся, составляйте рейтинги сами, мы вне политики, а сам может одним нажатием кнопочки вычеркнуть неугодный сайт из индексации. Белый и пушистый.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-10 19:37 (ссылка)
Ну и при чём тут политика?

(Ответить) (Уровень выше)


(Читать комментарии) -