Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет pe3yc ([info]pe3yc)
@ 2009-11-10 23:00:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Кстати, поскольку сегодня вдруг снова речь зашла о блогояндексе, хочу обратить внимание просвещённой публики на вот какое дело: в последнее время чрезвычайно активизировались не только назойливые спамботы, но и гораздо менее заметные простому юзеру спамблоги.

В принципе они уютненьким дневничкам не мешают - никого не комментят, просто гонят себе в блог произвольные тексты и вставляют туда линки. Линки эти нужны для накручивания всяких ТИЦев, хуицев и прочих SЕОшных пиздицев, - и часто сильно портят выдачу поисковикам.

Поисковики с этим злом борются как могут, но это не так-то просто. Кроме прочего, спамблоги (они же ещё называются сплогами) умеют словарно обрабатывать тексты, что мешает опознанию. То есть просто меняют некоторые слова на близкие или далёкие синонимы: например, в оригинале было "автомобиль двигался по пустынному шоссе", а в копиях "машина ехала по безлюдной дороге", "тачка летела по вымершей трассе" и "телега шкандыбала по мертвому просёлку". Точность здесь не нужна, нужно лишь внешнее подобие осмысленного текста, поискового робота обмануть не так уж сложно. Впрочем, если изначально брать огрызки текста из разных источников, то и никакая обработка не понадобится..

Так вот, юзерам эти мерзкие сущности почти по барабану, они как правило даже и не видят их (поскольку ленты fif уже давно нет, да и мало кто помнит, что это такое). Встретить они их могут разве что случайно, через поиск по блогам, напоровшись на загаженную выдачу.

А вот рейтинги - благодаря распространению подобных SЕОтехнологий - всегда будут обречены. Потому что рейтинги тупые. Им, гагарам, недоступны неземные алгоритмы. Все эти новые топы, "поднявшие упавшее знамя" и впившиеся в брошеную Яндексом косточку (доступ к API) неизбежно будут с умным видом и очень настойчиво жрать говно.

В качестве иллюстрации (тэги [noindex] и [nofollow] невозбранно used):

1. Берём произвольную спамблоговую запись. Например, вот эту. Материалом для неё служило, по-видимому, какое-то пособие по военно-полевой хирургии.

2. Выбираем для поиска по блогам "гемопневмоторакс". Почему именно это слово? Потому что оно содержится в исходном тексте, который послужил пищей спамблогам, и при этом не подвергается обработке их пищеварительной системой (в силу смысловой уникальности), и поэтому выходит у них из-под хвоста в неизменённом виде. Можно ловить ещё на имена собственные, например, - они тоже годятся. А вот частотные слова будут переварены, и хрен их узнаешь после этого.

3. Смотрим выдачу. И что же мы в ней видим? Из 328 результатов - 286 спамовых и только 42 нормальных, причём нормальные начинаются аж с 29-й страницы - при умалчиваемой сортировке по дате. Кстати, движок блогояндекса конкретно глючит: попасть на эту страницу не так уж просто, - но мы сейчас не об этом.

(Опаньки, пока я писал, цифры уже поменялись - уже 287 кучек говна - ещё один спамблог нагадил в 23:54). К утру, я думаю, точно за 300 перевалит..

4. Смотрим пульс блогосферы по этому же слову и хорошо видим дни, когда это стадо спамблогов (оно, кстати, далеко не единственное) начало пастись на травке. Они изволят хорошо кушать вот уже две недели, аж с 28 октября.



5. Как вы думаете, сколько спамблогов нужно, чтобы поднять этот самый гемопневмоторакс в топ? Так сказать, актуализировать его?

6. И на закуску - вопрос для самых любознательных: почему график имеет такой странный вид - сначала резкий рост, потом некоторый спад, потом снова резкий рост?

Update 11/11 10:00: К утру ситуацию подчистили и часть спамблогов грохнули. Но только часть, почему-то оставили записи в период с 29 октября по 3 ноября и вчерашние, от 9 ноября. Теперь спамовых постов только 118 (нормальных остается те же 42). Но, подозреваю, "зачистка по факту сообщения от pe3yca" - это херовая стратегия борьбы с заразой. И в Яндексе это понимают, потому и отказываются от рейтингов.


(Добавить комментарий)


[info]ottenki_serogo@lj
2009-11-10 17:45 (ссылка)
Вот бы ты еще прояснил за что у меня во втором блоге стало показываться "ссылок 0". Чем я ему не угодил?...

(Ответить) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-10 17:58 (ссылка)
Это которого, [info]0-rub@lj или [info]vottm@lj? :)

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ottenki_serogo@lj
2009-11-10 18:00 (ссылка)
ага, раньше он 0_rub был 0-rub.livejournal.com

после обнуления переименовл в vottm - не помогло :)

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-10 18:04 (ссылка)
И не поможет.

Рейтинг сброшен за накрутки, я полагаю.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ottenki_serogo@lj
2009-11-10 18:08 (ссылка)
Вот бы узнать за какие :)
Был один грешок попробовал зациклить импорт rss твиттер - мблоги на квипе - твиттер...
Ну так формально тот блог ваще ни при чем. Так любой блог подставить можно.
Больше грехов ваще не было.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-10 18:17 (ссылка)
А похуй за какие. Критерии накрутки плохо формализуются, без модерации (хотя бы эпизодической) никак.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ottenki_serogo@lj
2009-11-10 18:21 (ссылка)
значит блоги выкидываются только ручками?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-10 18:47 (ссылка)
В некоторых случаях можно и автоматически, я думаю.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ottenki_serogo@lj
2009-11-10 18:48 (ссылка)
правды искать я так понимаю бессмысленно? :)

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-10 19:11 (ссылка)
Какой ещё правды? Никакой правды ни в каких рейтингах не содержится по определению.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ottenki_serogo@lj
2009-11-10 19:35 (ссылка)
Я не про рейтинги. А про предоставляемую им инфу Яндексом. То есть, Яндекс кагбэ говорит мы самоустранемся, составляйте рейтинги сами, мы вне политики, а сам может одним нажатием кнопочки вычеркнуть неугодный сайт из индексации. Белый и пушистый.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-10 19:37 (ссылка)
Ну и при чём тут политика?

(Ответить) (Уровень выше)


[info]sendfor@lj
2009-11-10 18:42 (ссылка)
Так вот кто этот говноед.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ottenki_serogo@lj
2009-11-10 18:44 (ссылка)
с этого места поподробней :)
у меня в обоих блогах написано что я веду 2 журнала

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]sendfor@lj
2009-11-10 18:46 (ссылка)
То есть это не Вы спамботством занимаетесь? Тогда приношу свои извинения, поторопился с выводами.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ottenki_serogo@lj
2009-11-10 18:47 (ссылка)
Бывает :)

(Ответить) (Уровень выше)


[info]ma79@lj
2009-11-12 06:46 (ссылка)
ух! класс

(Ответить) (Уровень выше)


[info]malsinc@lj
2009-11-10 19:05 (ссылка)
(упал)
=0)))))))))))

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]sendfor@lj
2009-11-10 19:08 (ссылка)
Грешно над несведущими смеяца!!111адин

(Ответить) (Уровень выше)


[info]nasha_sasha@lj
2009-11-10 17:50 (ссылка)
Они, кстати, эти произвольные тексты часто берут из блогов, по их мнению являющихся "перспективными". Напр., я часто нахожу свои тексты, взятые из жж, перепечатанные на всяких блогспотах и инкрустированные гуголь-кликами.

(Ответить) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-10 17:56 (ссылка)
Есть и простые боты-копипастеры, есть боты-сборщики, есть боты-обработчики. Тварей много, и будет ещё больше, поскольку плодить их легко.

(Ответить) (Уровень выше)


[info]malsinc@lj
2009-11-10 18:00 (ссылка)
ёбаные ублюдки
не могу найти свой текст пятилетней давности: семь слов подряд - слово в слово

(Ответить) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-10 18:05 (ссылка)
То ли ещё будет.

(Ответить) (Уровень выше)


[info]sendfor@lj
2009-11-10 18:44 (ссылка)
> ёбаные ублюдки

+++

(Ответить) (Уровень выше)


[info]maxalex@lj
2009-11-12 06:46 (ссылка)
так сделай поиск по своему журналу

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]malsinc@lj
2009-11-12 07:05 (ссылка)
не находится, в том-то и дело

(Ответить) (Уровень выше)


[info]_slw@lj
2009-11-10 18:46 (ссылка)
Почему именно это слово? Потому что оно содержится в исходном тексте, который послужил пищей спамблогам, и при этом не подвергается обработке их пищеварительной системой (в силу смысловой уникальности), и поэтому выходит у них из-под хвоста в неизменённом виде.

восторг!

(Ответить)


[info]tanchik@lj
2009-11-11 00:18 (ссылка)
(обиженно): А почему под катом нет ответа на шестой вопрос?
Предположу - потому что вторичные роботы сперли слово у первичных?

(Ответить) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-11 04:29 (ссылка)
Нет. Роботы не интересуются словами как таковыми.

Думаю, что всё проще - этот график отражает частоту употребления этого слова на протяжении чтения роботами учебника хирургии. В середине оно встречается меньше (там больше о патологоанатомии), а к концу - больше, потому что там идёт речь о полевых огнестрельных ранениях.

(Ответить) (Уровень выше)


[info]aldanur@lj
2009-11-11 05:38 (ссылка)
>юзерам эти мерзкие сущности почти по барабану, они как правило даже и не видят их
Мне вот, как простому юзеру, пришлось отказаться от привычки читать френдленты пары коммьюнитей: спамоблоги туда массово повступали — и привет.

(Ответить) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-11 05:53 (ссылка)
Это другое - там спамботы. Эти никого не комментят, только ссылки разбрасывают.

(Ответить) (Уровень выше)

(Комментарий удалён)

[info]pe3yc@lj
2009-11-11 11:40 (ссылка)
Адекватным - это каким именно?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]nestol_next@lj
2009-11-11 11:41 (ссылка)
Гугль конечно!

(слова для привлечения внимания к каменту: Кукуц, Волнухин)

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-11 11:57 (ссылка)
Данунах, гугль по русскоязычным блогам вообще больше половины записей не находит.

Гугль хороший поисковик, но по русскоязычным блогам он безнадёжно курит.

(Ответить) (Уровень выше)


[info]nestol_next@lj
2009-11-11 10:59 (ссылка)
адекватным поисковикам сплоги и флоги картины не портят

(Ответить) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-11 11:40 (ссылка)
Адекватным - это каким именно?

(Ответить) (Уровень выше)


[info]ljournalist_bot@lj
2009-11-12 05:47 (ссылка)
Поздравляем! Ваш пост был отобран нашими корреспондентами и опубликован в сегодняшнем выпуске (http://community.livejournal.com/ljournalist/304510.html) [info]ljournalist@ljа.

(Ответить) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-12 07:15 (ссылка)
Ебануться.

(Ответить) (Уровень выше)


[info]se_boy@lj
2009-11-12 06:22 (ссылка)
В итоге Яндек уперся в то же, во что уперлись когда-то составители электронных переводчиков, заявлявших, что "скоро можно будет переводить поэзию". Черта с два. Здесь то же - не хватает у компьютера уровня филологической, скажем так, эвристики, чтобы отличить спамовый текст от неспамового, поста с набором слов от нормальной записи.

Логично, что отказываются от рейтингов. Ибо кто-то на этом хорошо зарабатывает, наверное.

(Ответить) (Ветвь дискуссии)


[info]pe3yc@lj
2009-11-12 07:19 (ссылка)

(Ответить) (Уровень выше)