ALT Linux Sisyphus discussions
 help / color / mirror / Atom feed
From: Victor Forsyuk <victor@ksi-linux.com>
To: combr@vesna.ru, sisyphus@altlinux.ru
Subject: Re: [sisyphus] I: new package (amavisd-new)
Date: Thu, 15 Jan 2004 19:51:13 +0200
Message-ID: <20040115175113.GB640@mailhub.gu.net> (raw)
In-Reply-To: <200401151508.36199.combr@vesna.ru>

On Thu, Jan 15, 2004 at 03:08:36PM +0400, Mike Lykov wrote:
> 
> > > > > Например, чем ассасин  лучше?
> > > > Тем, что это далеко не только байесовский классификатор.
> > > а какой процент ложных срабатываний (в обоих смыслах  - false
> > > positive/negative) он дает?
> > Кто "он"? Если spamassassin - зависит от многих факторов, как то:
> > включена ли проверка по RBL, включен ли AWL (auto-whitelisting),
> > используются ли dcc/razor...
> 
> ассасин. с не включенными доп. проверками(для которых надо куда-то 
> обращаться). то есть : 
> допустим, bogofilter на массиве из 1000 писем посчитал 3 штуки за спам 
> неверно. сколько таких ошибок сделает spamassasin, если будет учитывать такую 
> же спамбазу + свои дополнительные проверки?
> Думаю, больше.

Так ведь, что spamassasin посчитает за спам, зависит от required_hits!

Дефолтом в нем самом является 5, но в стандартном local.cf, устанавливаемом
с этим пакетом у меня прописано required_hits 7. Это более безопасное
значение (при 7-8 баллах false positives на практике крайне маловероятны).

Поймите, что любой инструмент типа bogofilter (то есть, только байесовский
классификатор) всегда будет иметь FP больше, даже если предположить,
что реализация его классификатора теоретически совершеннее. Ведь даже
при spamicity далекой от 1, но и ощутимо большей 0.5 ему приходится
отбрасывать письмо как спам, в то время как spamassasin имеет возможность
отобразить такую spamicity в меньшее количество спам-баллов, справедливо
надеясь, что если уж письмо и в самом деле было спамом, то другие тесты
с большой вероятностью доберут баллов до spam threshold!

> > > а не выше ли он (особенно это интересно для false positive), чем у
> > > bogofilter, из-за дополнительных проверок?
> > Нельзя ли пояснить, как из-за _дополнительных_ проверок результат может
> > быть хуже?
> 
> так он может начислить лишние спам-баллы письму, которое спамом не является (и 
> ошибиться).

Понимаете, спам-баллы начисляются не просто так. Если они (я сейчас говорю
не о баллах за байес-значения) начисляются, значит что-то в этом письме не
так, как в обычной электронной корреспонденции.

Баллы за срабатывание ассассиновских правил не с потолка берутся, кстати.
Используется система уточнения "веса" правил при прогоне на реальных
коллекциях спама.
 
> > > а как реализован там байесовский классификатор? так же он теоретически
> > > вылизан, как в bogofilter ?
> > Меня меньше всего волнует вылизан ли он теоретически.
> 
> а зря. теория + статистика тут решают все ;)

Критерием истины, помнится, была признана практика. Или сейчас приняты
другие критерии? ;)



  reply	other threads:[~2004-01-15 17:51 UTC|newest]

Thread overview: 25+ messages / expand[flat|nested]  mbox.gz  Atom feed  top
2004-01-07 13:33 Alexey Shabalin
2004-01-07 14:54 ` [sisyphus] " Andrey Khavryuchenko
2004-01-09  7:30   ` Alexey Shabalin
2004-01-09 14:41     ` Andrey Khavryuchenko
2004-01-11  0:33       ` Alexey Shabalin
2004-01-11 14:30         ` Andrey Khavryuchenko
2004-01-12 11:50 ` [sisyphus] " Arkadiy Pavlik
2004-01-12 14:14   ` Victor Forsyuk
2004-01-13  0:56     ` Аркадий Павлик
2004-01-13 10:23       ` Алексей Любимов
2004-01-13 13:34       ` Victor Forsyuk
2004-01-13 13:58         ` Arkadiy Pavlik
2004-01-13 15:19           ` Victor Forsyuk
2004-01-13 23:43             ` Аркадий Павлик
2004-01-14 12:57               ` Victor Forsyuk
2004-01-14  6:38             ` Mike Lykov
2004-01-14 13:16               ` Victor Forsyuk
2004-01-15 11:58                 ` Mike Lykov
2004-01-14  6:13         ` Mike Lykov
2004-01-14 13:05           ` Victor Forsyuk
2004-01-14 13:51             ` Gerasimov Dmitry
2004-01-14 15:42               ` Victor Forsyuk
2004-01-15 11:08             ` Mike Lykov
2004-01-15 17:51               ` Victor Forsyuk [this message]
2004-01-16  7:13                 ` Mike Lykov

Reply instructions:

You may reply publicly to this message via plain-text email
using any one of the following methods:

* Save the following mbox file, import it into your mail client,
  and reply-to-all from there: mbox

  Avoid top-posting and favor interleaved quoting:
  https://en.wikipedia.org/wiki/Posting_style#Interleaved_style

* Reply using the --to, --cc, and --in-reply-to
  switches of git-send-email(1):

  git send-email \
    --in-reply-to=20040115175113.GB640@mailhub.gu.net \
    --to=victor@ksi-linux.com \
    --cc=combr@vesna.ru \
    --cc=sisyphus@altlinux.ru \
    /path/to/YOUR_REPLY

  https://kernel.org/pub/software/scm/git/docs/git-send-email.html

* If your mail client supports setting the In-Reply-To header
  via mailto: links, try the mailto: link

ALT Linux Sisyphus discussions

This inbox may be cloned and mirrored by anyone:

	git clone --mirror http://lore.altlinux.org/sisyphus/0 sisyphus/git/0.git

	# If you have public-inbox 1.1+ installed, you may
	# initialize and index your mirror using the following commands:
	public-inbox-init -V2 sisyphus sisyphus/ http://lore.altlinux.org/sisyphus \
		sisyphus@altlinux.ru sisyphus@altlinux.org sisyphus@lists.altlinux.org sisyphus@lists.altlinux.ru sisyphus@lists.altlinux.com sisyphus@linuxteam.iplabs.ru sisyphus@list.linux-os.ru
	public-inbox-index sisyphus

Example config snippet for mirrors.
Newsgroup available over NNTP:
	nntp://lore.altlinux.org/org.altlinux.lists.sisyphus


AGPL code for this site: git clone https://public-inbox.org/public-inbox.git