From mboxrd@z Thu Jan  1 00:00:00 1970
Return-Path: <victor@gu.net>
Date: Thu, 15 Jan 2004 19:51:13 +0200
From: Victor Forsyuk <victor@ksi-linux.com>
To: combr@vesna.ru, sisyphus@altlinux.ru
Subject: Re: [sisyphus] I: new package (amavisd-new)
Message-ID: <20040115175113.GB640@mailhub.gu.net>
References: <3FFC0AB8.8070709@vot.ru> <200401141013.00214.combr@vesna.ru>
	<20040114130533.GB26100@mailhub.gu.net>
	<200401151508.36199.combr@vesna.ru>
Mime-Version: 1.0
Content-Type: text/plain; charset=koi8-r
Content-Disposition: inline
Content-Transfer-Encoding: 8bit
In-Reply-To: <200401151508.36199.combr@vesna.ru>
User-Agent: Mutt/1.4.1i
Sender: Victor Forsyuk <victor@gu.net>
Cc: 
X-BeenThere: sisyphus@altlinux.ru
X-Mailman-Version: 2.1.3
Precedence: list
Reply-To: sisyphus@altlinux.ru
List-Id: <sisyphus.altlinux.ru>
List-Unsubscribe: <listinfo/sisyphus>,
	<mailto:sisyphus-request@altlinux.ru?subject=unsubscribe>
List-Archive: </pipermail/sisyphus>
List-Post: <mailto:sisyphus@altlinux.ru>
List-Help: <mailto:sisyphus-request@altlinux.ru?subject=help>
List-Subscribe: <listinfo/sisyphus>,
	<mailto:sisyphus-request@altlinux.ru?subject=subscribe>
X-List-Received-Date: Thu, 15 Jan 2004 17:51:16 -0000
Archived-At: <http://lore.altlinux.org/sisyphus/20040115175113.GB640@mailhub.gu.net/>
List-Archive: <http://lore.altlinux.org/sisyphus/>

On Thu, Jan 15, 2004 at 03:08:36PM +0400, Mike Lykov wrote:
> 
> > > > > Например, чем ассасин  лучше?
> > > > Тем, что это далеко не только байесовский классификатор.
> > > а какой процент ложных срабатываний (в обоих смыслах  - false
> > > positive/negative) он дает?
> > Кто "он"? Если spamassassin - зависит от многих факторов, как то:
> > включена ли проверка по RBL, включен ли AWL (auto-whitelisting),
> > используются ли dcc/razor...
> 
> ассасин. с не включенными доп. проверками(для которых надо куда-то 
> обращаться). то есть : 
> допустим, bogofilter на массиве из 1000 писем посчитал 3 штуки за спам 
> неверно. сколько таких ошибок сделает spamassasin, если будет учитывать такую 
> же спамбазу + свои дополнительные проверки?
> Думаю, больше.

Так ведь, что spamassasin посчитает за спам, зависит от required_hits!

Дефолтом в нем самом является 5, но в стандартном local.cf, устанавливаемом
с этим пакетом у меня прописано required_hits 7. Это более безопасное
значение (при 7-8 баллах false positives на практике крайне маловероятны).

Поймите, что любой инструмент типа bogofilter (то есть, только байесовский
классификатор) всегда будет иметь FP больше, даже если предположить,
что реализация его классификатора теоретически совершеннее. Ведь даже
при spamicity далекой от 1, но и ощутимо большей 0.5 ему приходится
отбрасывать письмо как спам, в то время как spamassasin имеет возможность
отобразить такую spamicity в меньшее количество спам-баллов, справедливо
надеясь, что если уж письмо и в самом деле было спамом, то другие тесты
с большой вероятностью доберут баллов до spam threshold!

> > > а не выше ли он (особенно это интересно для false positive), чем у
> > > bogofilter, из-за дополнительных проверок?
> > Нельзя ли пояснить, как из-за _дополнительных_ проверок результат может
> > быть хуже?
> 
> так он может начислить лишние спам-баллы письму, которое спамом не является (и 
> ошибиться).

Понимаете, спам-баллы начисляются не просто так. Если они (я сейчас говорю
не о баллах за байес-значения) начисляются, значит что-то в этом письме не
так, как в обычной электронной корреспонденции.

Баллы за срабатывание ассассиновских правил не с потолка берутся, кстати.
Используется система уточнения "веса" правил при прогоне на реальных
коллекциях спама.
 
> > > а как реализован там байесовский классификатор? так же он теоретически
> > > вылизан, как в bogofilter ?
> > Меня меньше всего волнует вылизан ли он теоретически.
> 
> а зря. теория + статистика тут решают все ;)

Критерием истины, помнится, была признана практика. Или сейчас приняты
другие критерии? ;)