Настроение: | tired |
Музыка: | Jaki Liebezeit's Phantom Band - "NOWHERE" |
интеллектуальный фильтр Spamassassin
Отстал с чтением лже-друзей, прекрасных,
на неделю аж. И комментарии. И е-мэйл.
Простите, ага. Я прочту.
Занимался среди прочего
настройкой фильтра от спама.
Установил интеллектуальный фильтр Spamassassin, а
поскольку тот не локализован к российским
условиям, весь безобразно пропущенный фильтром
спам подробно читал и сочинял для него тесты,
чтоб больше не ходили.
Spamassassin пользуется колоссальных
размерой библиотекой тестов (на регекспе,
по преимуществу), некоторые из них чрезвычайно
интеллектуальные. Например, там есть тест,
который со стопроцентной надежностью
ловит нигерийские спамные сообщения
от негров.
Спам-фильтры бывают, оказывается, трех видов.
1. Фильтр располагает базой данных IP, с которых
высылается спам. Самые умные из этих обмениваются
с базой данных образчиками спама, для улучшения
базы данных. Образчик: the Open Relay DataBase,
http://www.ordb.org/
Дело это не сильно прогрессивное.
Критика борьбы со спамом с помощью RBL здесь
http://theory.whirlycott.com/~phil/antispam/rbl-bad/rbl-bad.html
и здесь
http://www.spamtest.ru/varticles.html?id=0022
(очень хорошее; от А. Тутубалина, автора русификации
apache, к настоящему времени устаревшей до полной
ненужности, и хозяина какого-то коммерческого
сервиса по борьбе со спамом).
2. Фильтры имеют библиотеку интеллектуальных
тестов, которые определяют спам. Обыкновенно,
каждый из тестов присваивает письму спамные
очки, и когда этих очков будет больше какого-то
количества, письмо идентифицируется как спам.
Образчик: spamassassin, описание тестов вот
http://www.spamassassin.org/tests.html
(осторожно - файл длиной в мегабайт).
3. Фильтр имеет внутри себя искусственный
интеллект. Ему скармливают 20 тыщ спамных сообщений
и 20 тыщ неспамных, после этого он запоминает
статистические характеристики спама и неспама
и учится их различать. По мере получения
спамных сообщений фильтр учится дополнительно.
Преимущества этого подхода очевидны -
можно бороться со спамом хоть на китайском;
недостатки тоже очевидны, скорее даже удивительно,
что такая штука может работать. Но она работает,
и чрезвычайно эффективно при этом; вот статья,
где приводятся результаты тестов
http://freshmeat.net/articles/view/964/
а вот доклад на конференции, где рассказывается
в подробных деталях
http://www.paulgraham.com/spam.html
Чрезвычайно интеллектуальный фильтр Spamassassin
пользуется всеми тремя способами, позволяя
пользователю выбирать, какие ему больше нравятся,
и присваивать каждому интеллектуальные очки.
Если кто-то напишет ко мне письмо со словами
"Центр Американского Английского" "Офис в аренду"
"оказываем .качественные. услуги по" или
"Guaranteed to work or your money back!",
вы знаете, что с вами будет.
Сегодня я не получил ни одного спама.
Привет