From mboxrd@z Thu Jan  1 00:00:00 1970
Return-Path: <victor@gu.net>
Date: Thu, 30 Oct 2003 16:31:35 +0200
From: Victor Forsyuk <victor@ksi-linux.com>
To: Sergey Solopov <serj@arte.ru>, sisyphus@altlinux.ru
Subject: Re: [sisyphus] SpamAssassin
Message-ID: <20031030143135.GB10062@mailhub.gu.net>
References: <02e601c39c66$c531fa50$7004a8c0@sumtechsys.com>
	<20031027162028.GF6219@mailhub.gu.net>
	<714239426.20031027200244@arte.ru>
Mime-Version: 1.0
Content-Type: text/plain; charset=koi8-r
Content-Disposition: inline
Content-Transfer-Encoding: 8bit
In-Reply-To: <714239426.20031027200244@arte.ru>
User-Agent: Mutt/1.4.1i
Sender: Victor Forsyuk <victor@gu.net>
Cc: 
X-BeenThere: sisyphus@altlinux.ru
X-Mailman-Version: 2.1.3
Precedence: list
Reply-To: sisyphus@altlinux.ru
List-Id: <sisyphus.altlinux.ru>
List-Unsubscribe: <http://altlinux.ru/mailman/listinfo/sisyphus>,
	<mailto:sisyphus-request@altlinux.ru?subject=unsubscribe>
List-Archive: </pipermail/sisyphus>
List-Post: <mailto:sisyphus@altlinux.ru>
List-Help: <mailto:sisyphus-request@altlinux.ru?subject=help>
List-Subscribe: <http://altlinux.ru/mailman/listinfo/sisyphus>,
	<mailto:sisyphus-request@altlinux.ru?subject=subscribe>
X-List-Received-Date: Thu, 30 Oct 2003 14:31:42 -0000
Archived-At: <http://lore.altlinux.org/sisyphus/20031030143135.GB10062@mailhub.gu.net/>
List-Archive: <http://lore.altlinux.org/sisyphus/>

On Mon, Oct 27, 2003 at 08:02:44PM +0300, Sergey Solopov wrote:
> 
> >> большего % на сколько я понял надо обучать bayes фильтр.
> 
> VF> Я бы сформулировал иначе. Для получения большего процента отсева спама
> VF> необходимо - если мы говорим не только конкретно о SA - строить
> VF> комплексную "эшелонированную" :) оборону. Начиная с отсева спама еще
> VF> во время SMTP-сеанса по различным критериям и только заканчивая
> VF> контекстной фильтрацией инструментами типа spamassassin.
> Это по поводу различных RBL и blacklist-ов ? Так уже используются.

И о них тоже, но далеко не только лишь о них. К примеру, если к вам из
внешнего Интернета (не от своих клиентов с виндюками) пришло соединение,
в котором параметр EHLO не содержит точки - это спам. Если параметр
EHLO compuserve.com - это спам. Если параметр EHLO является одним из
ваших доменных имен или IP одного из интерфейсов - это спам. И т.д.
 
> >> Отсюда вопрос, может стоит сделать дополнительный пакет с обученным
> >> фильтром ?
> 
> VF> Это невозможно. По самой сути методов частотного разделения типа bayes
> VF> не может быть "обученного вообще" фильтра с соответствующими базами,
> VF> _подходящими для всех_.
> 
> В принципе понятно, по ведь SA ставят, те-же ISP провайдеры, у которых
> под обучение попадает "общая" часть спама, а до учить уже можно на

Ну вот я поставил (ISP "Global Ukraine"). Обучается на живом потоке.
Вот как раз для ISP, где адресаты по определению получают разнопрофильную
почту, с "общей" частью лучше не играться.

> месте. Например, bayes-овский фильтр для 'the bat' имеет в поставке и
> обученную базу, хочешь используй, нет - обучай сам. На такой "общей
> базе" достигается показатель 80-90% и она подошла большенству моих
> знакомых.

Это Ritlabs такое поставляет?? Я конечно могу понять мотивы, но IMNSHO
это не вполне ответственное решение.
 
> А ложные сработатывания можно дооубчать с помошью sa-learn, если я
> правильно понял.
> 
> 
> VF> Включайте в SpamAssassin'е site-wide bayes autolearn и получите еще
> VF> немного более "догадливый" в отношении спама фильтр.
> autolearn стоит

Тогда подождите немного или покормите его своими архивами спама - пока
у SA bayes-база маленькая она слабо влияет на скоринг. Можете также
_немного_ понизить (с дефолтных 12) порог срабатывания spam autolearn,
для более быстрого наполнения.