Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет Misha Verbitsky ([info]tiphareth)
@ 2004-01-08 04:12:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Настроение: tired
Музыка:Jaki Liebezeit's Phantom Band - "NOWHERE"

интеллектуальный фильтр Spamassassin
Отстал с чтением лже-друзей, прекрасных,
на неделю аж. И комментарии. И е-мэйл.
Простите, ага. Я прочту.

Занимался среди прочего
настройкой фильтра от спама.
Установил интеллектуальный фильтр Spamassassin, а
поскольку тот не локализован к российским
условиям, весь безобразно пропущенный фильтром
спам подробно читал и сочинял для него тесты,
чтоб больше не ходили.

Spamassassin пользуется колоссальных
размерой библиотекой тестов (на регекспе,
по преимуществу), некоторые из них чрезвычайно
интеллектуальные. Например, там есть тест,
который со стопроцентной надежностью
ловит нигерийские спамные сообщения
от негров.

Спам-фильтры бывают, оказывается, трех видов.

1. Фильтр располагает базой данных IP, с которых
высылается спам. Самые умные из этих обмениваются
с базой данных образчиками спама, для улучшения
базы данных. Образчик: the Open Relay DataBase,
http://www.ordb.org/
Дело это не сильно прогрессивное.
Критика борьбы со спамом с помощью RBL здесь
http://theory.whirlycott.com/~phil/antispam/rbl-bad/rbl-bad.html
и здесь
http://www.spamtest.ru/varticles.html?id=0022
(очень хорошее; от А. Тутубалина, автора русификации
apache, к настоящему времени устаревшей до полной
ненужности, и хозяина какого-то коммерческого
сервиса по борьбе со спамом).

2. Фильтры имеют библиотеку интеллектуальных
тестов, которые определяют спам. Обыкновенно,
каждый из тестов присваивает письму спамные
очки, и когда этих очков будет больше какого-то
количества, письмо идентифицируется как спам.
Образчик: spamassassin, описание тестов вот
http://www.spamassassin.org/tests.html
(осторожно - файл длиной в мегабайт).

3. Фильтр имеет внутри себя искусственный
интеллект. Ему скармливают 20 тыщ спамных сообщений
и 20 тыщ неспамных, после этого он запоминает
статистические характеристики спама и неспама
и учится их различать. По мере получения
спамных сообщений фильтр учится дополнительно.

Преимущества этого подхода очевидны -
можно бороться со спамом хоть на китайском;
недостатки тоже очевидны, скорее даже удивительно,
что такая штука может работать. Но она работает,
и чрезвычайно эффективно при этом; вот статья,
где приводятся результаты тестов
http://freshmeat.net/articles/view/964/
а вот доклад на конференции, где рассказывается
в подробных деталях
http://www.paulgraham.com/spam.html

Чрезвычайно интеллектуальный фильтр Spamassassin
пользуется всеми тремя способами, позволяя
пользователю выбирать, какие ему больше нравятся,
и присваивать каждому интеллектуальные очки.

Если кто-то напишет ко мне письмо со словами
"Центр Американского Английского" "Офис в аренду"
"оказываем .качественные. услуги по" или
"Guaranteed to work or your money back!",
вы знаете, что с вами будет.

Сегодня я не получил ни одного спама.

Привет



(Добавить комментарий)


[info]r_l@lj
2004-01-07 15:00 (ссылка)
По последнему пункту согласен, но тут уж ничего не сделаешь. А у тебя есть позитивные варианты решения проблемы, кроме убийства уродов?
У меня вот нету.
Я вообще-то давно уже про это ду-ду.

(Ответить) (Ветвь дискуссии)


[info]ex_tipharet@lj
2004-01-07 15:08 (ссылка)


Вот очень хорошая статья
http://www.paulgraham.com/spam.html
про обучающийся фильтр.

А в принципе, отмена денег назрела
давно уже. Если не отменять совсем, то
по крайней мере лицензировать торговлю,
примерно как лицензируют, например,
продажу алкоголя, проституцию, ментов,
героин или абортное дело.

Ибо торговля есть социальное зло
(необходимое, возможно, но и без
ментов и опиатов никуда не деться,
радости от этого не больше)

Привет

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]r_l@lj
2004-01-07 15:13 (ссылка)
Да, я тоже так думаю.
Не понимаю, зачем грешить на фильтры - фильтры пишут првильные люди. И фильтры работают.
Очень даже ничего.

(Ответить) (Уровень выше)


(Анонимно)
2004-01-08 01:56 (ссылка)
professor prav, Misha, den'gi eto zhe filter ot geneticheskogo spama
predstav' esli vsya nishaya gryaz' popret k nam v evropu
a tak hot' mozhno otdelit' zerna ot plevel

(Ответить) (Уровень выше)


[info]onsamyi@lj
2004-01-07 23:24 (ссылка)
прозитивный вариант состоит том, чтобы отфильтровывать СВОИ письма в потоке спама.
Собсно, вот http://noo.ru/?/NooSoft/nsfp хороший пример подобного решения, имевшего место на аппаратном уровне, но это просто можно делать в голове. А спаморезки - это тупиковый путь развития, потому что они мало что пробиваются рано или поздно, так еще и отфильтровывают нужные письма. Тот же спамассасин, его наш админ поставил не предупредив, и это случайно обнаружилось когда, был кошмар-очень много нужных писем попало в трэш...Я когда потом на них отвечал, то синел, блнеднел и зеленел.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]r_l@lj
2004-01-08 01:11 (ссылка)
В голове - это хорошо. Но некоторые сидят на медленных модемах до сих пор. Я таких знаю.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]onsamyi@lj
2004-01-08 01:27 (ссылка)
я вот например сижу на диалапе, первом пне и так далее:)) Очень удобно. когда начинаю злится на технику, знаю, чтьо что-то не в порядке не с техникой, а со мной. В любом случае - спам - это психиологическая проблема, а не технологическая.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]r_l@lj
2004-01-08 01:28 (ссылка)
Нет, все-таки не совсем так. Когда серверы падают от количества почты, половина которой - мусор - это не психологическая, а вполне экономико-технологическая проблема.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]onsamyi@lj
2004-01-08 05:19 (ссылка)
Ну, может быть, но Ваш конкретный пример не очень удачен - если сервер способен упасть под потоком почты, значит, спам благо для его администрации-ибо заставит, наконец, сделать нормальную. рабочую архитектуру, надежную, способную адекватно работать с потоками почты любого объема.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]r_l@lj
2004-01-08 05:33 (ссылка)
Если речь идет о бюджетных или малоимущих организациях (типа нашего университета), то.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]onsamyi@lj
2004-01-08 06:45 (ссылка)
а надежность сервера зависит не от бюджета сисадмина, а от его профессионализма и мозгов:))
То есть, я уверен, что нормально работающую, ни при каких условиях не падающую почтцу можно сделаить на любом оборудовании.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]r_l@lj
2004-01-08 06:47 (ссылка)
Имянно. Все нормальные сисадмины работают по фирмам. В университете за те деньги, которые там платят, администрят студенты второго-третьего курсов.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]onsamyi@lj
2004-01-08 06:51 (ссылка)
все нормальные профессиональные люди, в том числе и сисадмины, работают не только за деньги, и Вы об этом прекрасно сами знаете:))

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]r_l@lj
2004-01-08 06:54 (ссылка)
Дык не самая веселая работа - администрить университетскую почту.
Ну и вообще - не все, конечно. Некоторые, я бы сказал. И боюсь, что эстонские сисадмины в коммунизм не верят.
Кстати, об этом надо записать одну историю.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]onsamyi@lj
2004-01-08 07:05 (ссылка)
истории обязательно надо записывать:)
Но причем тцт коммунизм? Скорее, речь идет об очень шкурном принципе да плюс еще о естественном для обезьян любопытстве.
Принцип "таки отпусти хлеб свой по водам и по прошествии дней он вернется тебе к прибытком" это же махровое, матерое иудейство. Причем эээ "успешное, результативное". Самый шкурный что ни на есть.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]r_l@lj
2004-01-08 07:08 (ссылка)
Ну для этого надо быть махровым матерым иудеем-интересантом. Или неиудеем, но интересантом. Я, как старый пропагатор бесплатной работы, неоднократно сталкивался с непониманием (думаю, тут еще узость эстонского рынка труда сказывается и высокая безработица - на работу поэтому часто попадают просто по протекции).
Самые любознательные махровые регистрируются как частные предприниматели и пишут себе свой софт или что еще. Университетские админы, насколько я знаю - довольно печальны на этом фоне.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]onsamyi@lj
2004-01-08 07:22 (ссылка)
а прочему в эстонии? вот хороший пример - наш офисный Макс мне поставил программку для удаленного администрирования на комп, и совершенно без всякого присуттсвия у меня дома сделал меня частью корпоративной локалки. Думаю, если Вы вскричите: "нужен админ!"-тут же протянутся несколько десятков рук с системными зажигалками. Коммунизм - это когда с нормальными людьми есть возможность пообщаться, а не когда холодно и сибирь:)) Вообще, кстати, насчет того, что коммунизм "это когда есть материальные ценности"-странное заблуждение эпохи развитого социализма; "коммунизм"-это когда люди вместе. То есть, достаточно буквальной трактовки термина, и все становится на свои места. Кстати, вот мне кажется, что когда плохо и голодно, но все вместе - это гораздо лучше чем когда каждый сыт по отдельности.

В жж вот коммунизм, кстати, вполне типичный. да сеть - это вообще коммунизм, буквальный. Может быть, хрущев именно www имел в виду. Живем ведь при коммунизме...Правда, кормить бы еще пореже, совсем бы было хорошо.

(Ответить) (Уровень выше)


(Анонимно)
2004-01-07 15:05 (ссылка)
хрю хрю
всегда ваш, Центр Американского Английского

(Ответить)


[info]ex_udod985@lj
2004-01-07 18:48 (ссылка)
Spamassassin требует пристальной заботы об обучении. В свободном полете он сначала умный, а после сам выделяет несколько простейших признаков и присваивает им огромный вес. Такой "отжиг". Начинаются крупные потери. Например он сам забанил мне @ihes.fr. Любимая история -- спустил в сортир 3-х нобелевских экономистов сразу, подавших аппликациии на конферецию имени Канторовича. Туда им и дорога, но не все сразу со мной согласились. Мы сейчас перешли на гораздо более легкий milter-spamc. Пока довольны.

(Ответить) (Ветвь дискуссии)


[info]ex_tipharet@lj
2004-01-07 18:55 (ссылка)

Ага! Я тоже об этом думал
Но можно ведь отключить bayesian, да?
Тогда обучение ни на что не повлияет.

Или сказать ему

bayes_auto_learn_threshold_spam 25
bayes_auto_learn_threshold_nonspam 0.1

чтобы обучался только на самых зверских образчиках.

У меня этот bayesian до сих пор даже не включился
почему-то (хотя после 200-го спамного сообщения
должен включаться, кажется). Ждет 200-го неспамного
небось.

Страшно увлекательная игрушка на самом деле

Такие дела
Миша.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ex_udod985@lj
2004-01-07 19:26 (ссылка)
Да-да, с этим баесиан надо учиться -- как на велике ездить. Я тоже поиграл всласть. As_seen_on_national_TV! -- класс.
Вообще-то мы решили ставить фильтр на sendmail так что в случае подозрения на спам от лица демона (а не респондента!) идет ответ "Ваше письмо попало в спам. Если вы считаете что произошла ошибка -- вставьте в subject "Steklov" и письмо пройдет". Спам-роботы это не понимают и не воспринимают как знак внимания респондента на предмет подтверждения его адреса в спам-базах. Пока хорошо.

(Ответить) (Уровень выше)


[info]constantan@lj
2004-01-07 21:22 (ссылка)
Миша, Вы как-то странно пишете последние несколько абзацов.
Такое ощущение, что Вы пьяны.
Выпили алкоголя то есть.

(Ответить)


[info]evr@lj
2004-01-07 23:25 (ссылка)
"Если кто-то напишет ко мне письмо со словами "Центр Американского Английского" "Офис в аренду" "оказываем .качественные. услуги по" или ..."

Скажите, пожалуйста, я правильно понимаю, что если некто напишет вам письмо - "руководство хочет сдать соседний офис в аренду каким-то уродам", то вы его не получите?

(Ответить) (Ветвь дискуссии)


[info]r_l@lj
2004-01-08 01:21 (ссылка)
Нет, не совсем. Baesian фильтры обычно имеют как списки "черные", так и "белые". Если в письме много слов из белого списка (например, "уроды"), то письмо маркируется как неспам (зависит от настроек фильтра и от конкретной программы).
Но вообще см. выше - всякое бывает. Поэтому лучше фильтры ставить не на сервер все-таки.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]evr@lj
2004-01-08 01:40 (ссылка)
А если не на сервер, то письма все равно будут скачиваться ко мне на компьютер, а при моем диалапе это неинтересно. :)

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]r_l@lj
2004-01-08 01:42 (ссылка)
Вот-вот. Поэтому фильтры и не решение, конечно.
В принципе, Bat умеет настраиваться так, что кой-чего с сервера вообще не скачивать, просто удаляя. Но там минимальные настройки.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]evr@lj
2004-01-08 02:03 (ссылка)
А что тогда может быть решением? Принудительная идентификация каждого пользователя сети? Как, например, решается вопрос массовой расклейки объявлений в городе в неположенных местах?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]r_l@lj
2004-01-08 02:08 (ссылка)
Срывают объявления и штрафуют расклейщиков, если ловят.

Идентификация - один из путей (в более или менее жестком виде он предлагается многими).
Другой - принятие национальных законов (в Европе уже есть такой, в Штатах Буш что-то такое двигает), на которые радостно наплюют китайские спамеры.
В общем, оба пути хуже.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]evr@lj
2004-01-08 02:16 (ссылка)
Ясно, что хуже. Хуже ли будет делать что-нибудь или бездействовать - вот вопрос.
О том, что что-то было бы лучше, по-моему, даже и речи нет. :)

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]r_l@lj
2004-01-08 02:20 (ссылка)
Все-таки если спама много, что-то делать приходится.
Я завел новый эккаунт (пока его не нашли враги), на старом настроил реплай-ту на новый адрес, тем самым авторизовав помалу всех своих корреспондентов и перетащив переписку на новый адрес, а всю остальную площадь старого эккаунта покрыл разноцветными фильтрами. В принципе сейчас там кроме спама мало чего есть, а редкие письма от людей сквозь фильтры проходят правильно. Но если у Вас нету публично нужного адреса, висящего в разных публично нужных местах, то на новый адрес можно пересаживаться и без фильтров.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]evr@lj
2004-01-08 02:40 (ссылка)
Нет, я имею в виду глобальные меры.

Мне же лично всякие меры бесполезны, покуда я имею публичный рабочий адрес + диалап + отсутствие желания платить за возможность поставить какой-нибудь assasin на сервере и настраивать его по собственному вкусу.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]r_l@lj
2004-01-08 02:43 (ссылка)
Глобально - только через глобальную авторизацию, думаю. Что, в сущности, означает радикальное изменение архитектуры. Просто мыло не продумано было в этом отношении (потому что делалось для совсем другой среды).

(Ответить) (Уровень выше)


[info]a48@lj
2004-01-08 06:58 (ссылка)
еще какое решение. фильтр, конечно, обязан стоять именно на сервере. только при этом он должен давать каждому юзеру самому решать, что удалять, что перекладывать в другой фолдер, что пропускать. асасин вполне себе это позволяет.

кроме того, он жутко настраиваемый, любому из правил (в частности, только на разные байесовские проценты - 10 правил) можно переопределить веса под текущие нужды.

периодически или если есть подозрение, что асасин ошибся (у меня это было пока всего один раз за 2 месяца, то есть довольно много девяток после 99.) - можно имапом посмотреть в этот самый фолдер.

(Ответить) (Уровень выше)


[info]ex_tipharet@lj
2004-01-08 05:13 (ссылка)

Оно попадет в ящик под названием SPAM, и я его
немедленно сотру, ибо мне таких писем никто
написать не может - у меня нет знакомых
офисных работников

Привет

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]evr@lj
2004-01-08 07:57 (ссылка)
Хорошо иметь уверенность в чем-либо. :)

(Ответить) (Уровень выше)


[info]ex_tipharet@lj
2004-01-08 05:15 (ссылка)


Впрочем, непосредственно в SPAM оно не попадет -
"офис в аренду" имеет 2 очка, а нужно 5.

(Ответить) (Уровень выше)