From mboxrd@z Thu Jan 1 00:00:00 1970 Return-Path: Date: Mon, 27 Oct 2003 18:20:28 +0200 From: Victor Forsyuk To: sisyphus@altlinux.ru Subject: Re: [sisyphus] SpamAssassin Message-ID: <20031027162028.GF6219@mailhub.gu.net> References: <02e601c39c66$c531fa50$7004a8c0@sumtechsys.com> Mime-Version: 1.0 Content-Type: text/plain; charset=koi8-r Content-Disposition: inline Content-Transfer-Encoding: 8bit In-Reply-To: <02e601c39c66$c531fa50$7004a8c0@sumtechsys.com> User-Agent: Mutt/1.4i Sender: Victor Forsyuk X-BeenThere: sisyphus@altlinux.ru X-Mailman-Version: 2.1.2 Precedence: list Reply-To: sisyphus@altlinux.ru List-Id: List-Unsubscribe: , List-Archive: List-Post: List-Help: List-Subscribe: , X-List-Received-Date: Mon, 27 Oct 2003 16:20:31 -0000 Archived-At: List-Archive: On Mon, Oct 27, 2003 at 11:46:09AM +0300, Serj wrote: > Всем привет, > > Поставил SpamAssassin, сразу стал отсеивать % 30 спама, но для получения Всего 30% ? Что-то мало. Не модифицировали установленный из пакета /etc/mail/spamassassin/local.cf ? Там - совершенно намеренно! - установлен достаточно высокий порог срабатывания: required_hits 7.5 Попробуйте понизить его до 5 (что является прописанным внутри SA умолчанием). > большего % на сколько я понял надо обучать bayes фильтр. Я бы сформулировал иначе. Для получения большего процента отсева спама необходимо - если мы говорим не только конкретно о SA - строить комплексную "эшелонированную" :) оборону. Начиная с отсева спама еще во время SMTP-сеанса по различным критериям и только заканчивая контекстной фильтрацией инструментами типа spamassassin. Для SpamAssassin - больше увеличит процент отсева понижение порога срабатывания, если Вас устраивает сопутствующее увеличение вероятности false positives. > Отсюда вопрос, может стоит сделать дополнительный пакет с обученным > фильтром ? Это невозможно. По самой сути методов частотного разделения типа bayes не может быть "обученного вообще" фильтра с соответствующими базами, _подходящими для всех_. > Может поделится кто, у кого он хорошо обучен ? И это по сути неправильно. Объясню на простых примерах. Представим себе, что Вы работаете в фирме, которая занимается семинарами... да или вообще, допустим, по какой-то себе причине часто упоминаете их в письмах. В Украине одни из самых наглых и активных спамеров рассылают спам с рекламой семинаров (это наш аналог вашего ALC). Легко догадаться, что произойдет, если Вы попытаетесь воспользоваться частотными базами, обученными вовсе не на Вашем почтовом трафике. Такие базы неминуемо дадут большие false positives и false negatives. Включайте в SpamAssassin'е site-wide bayes autolearn и получите еще немного более "догадливый" в отношении спама фильтр. Причем без ручного вмешательства. Ну а если учите его ручками на своем профайле, получите еще более точный инструмент.