From mboxrd@z Thu Jan 1 00:00:00 1970 Return-Path: Date: Thu, 30 Oct 2003 16:31:35 +0200 From: Victor Forsyuk To: Sergey Solopov , sisyphus@altlinux.ru Subject: Re: [sisyphus] SpamAssassin Message-ID: <20031030143135.GB10062@mailhub.gu.net> References: <02e601c39c66$c531fa50$7004a8c0@sumtechsys.com> <20031027162028.GF6219@mailhub.gu.net> <714239426.20031027200244@arte.ru> Mime-Version: 1.0 Content-Type: text/plain; charset=koi8-r Content-Disposition: inline Content-Transfer-Encoding: 8bit In-Reply-To: <714239426.20031027200244@arte.ru> User-Agent: Mutt/1.4.1i Sender: Victor Forsyuk Cc: X-BeenThere: sisyphus@altlinux.ru X-Mailman-Version: 2.1.3 Precedence: list Reply-To: sisyphus@altlinux.ru List-Id: List-Unsubscribe: , List-Archive: List-Post: List-Help: List-Subscribe: , X-List-Received-Date: Thu, 30 Oct 2003 14:31:42 -0000 Archived-At: List-Archive: On Mon, Oct 27, 2003 at 08:02:44PM +0300, Sergey Solopov wrote: > > >> большего % на сколько я понял надо обучать bayes фильтр. > > VF> Я бы сформулировал иначе. Для получения большего процента отсева спама > VF> необходимо - если мы говорим не только конкретно о SA - строить > VF> комплексную "эшелонированную" :) оборону. Начиная с отсева спама еще > VF> во время SMTP-сеанса по различным критериям и только заканчивая > VF> контекстной фильтрацией инструментами типа spamassassin. > Это по поводу различных RBL и blacklist-ов ? Так уже используются. И о них тоже, но далеко не только лишь о них. К примеру, если к вам из внешнего Интернета (не от своих клиентов с виндюками) пришло соединение, в котором параметр EHLO не содержит точки - это спам. Если параметр EHLO compuserve.com - это спам. Если параметр EHLO является одним из ваших доменных имен или IP одного из интерфейсов - это спам. И т.д. > >> Отсюда вопрос, может стоит сделать дополнительный пакет с обученным > >> фильтром ? > > VF> Это невозможно. По самой сути методов частотного разделения типа bayes > VF> не может быть "обученного вообще" фильтра с соответствующими базами, > VF> _подходящими для всех_. > > В принципе понятно, по ведь SA ставят, те-же ISP провайдеры, у которых > под обучение попадает "общая" часть спама, а до учить уже можно на Ну вот я поставил (ISP "Global Ukraine"). Обучается на живом потоке. Вот как раз для ISP, где адресаты по определению получают разнопрофильную почту, с "общей" частью лучше не играться. > месте. Например, bayes-овский фильтр для 'the bat' имеет в поставке и > обученную базу, хочешь используй, нет - обучай сам. На такой "общей > базе" достигается показатель 80-90% и она подошла большенству моих > знакомых. Это Ritlabs такое поставляет?? Я конечно могу понять мотивы, но IMNSHO это не вполне ответственное решение. > А ложные сработатывания можно дооубчать с помошью sa-learn, если я > правильно понял. > > > VF> Включайте в SpamAssassin'е site-wide bayes autolearn и получите еще > VF> немного более "догадливый" в отношении спама фильтр. > autolearn стоит Тогда подождите немного или покормите его своими архивами спама - пока у SA bayes-база маленькая она слабо влияет на скоринг. Можете также _немного_ понизить (с дефолтных 12) порог срабатывания spam autolearn, для более быстрого наполнения.