ALT Linux Sisyphus discussions
 help / color / mirror / Atom feed
* [sisyphus] SpamAssassin
@ 2003-10-27  8:46 Serj
  2003-10-27 15:03 ` [sisyphus] SpamAssassin Michael Shigorin
  2003-10-27 16:20 ` [sisyphus] SpamAssassin Victor Forsyuk
  0 siblings, 2 replies; 8+ messages in thread
From: Serj @ 2003-10-27  8:46 UTC (permalink / raw)
  To: sisyphus

Всем привет,

Поставил SpamAssassin, сразу стал отсеивать % 30 спама, но для получения
большего % на сколько я понял надо обучать bayes фильтр.
Отсюда вопрос, может стоит сделать дополнительный пакет с обученным
фильтром ?

Может поделится кто, у кого он хорошо обучен ?

Sy, Serj

^ permalink raw reply	[flat|nested] 8+ messages in thread

* [sisyphus] Re: SpamAssassin
  2003-10-27  8:46 [sisyphus] SpamAssassin Serj
@ 2003-10-27 15:03 ` Michael Shigorin
  2003-10-27 16:20 ` [sisyphus] SpamAssassin Victor Forsyuk
  1 sibling, 0 replies; 8+ messages in thread
From: Michael Shigorin @ 2003-10-27 15:03 UTC (permalink / raw)
  To: sisyphus

On Mon, Oct 27, 2003 at 11:46:09AM +0300, Serj wrote:
> Отсюда вопрос, может стоит сделать дополнительный пакет с обученным
> фильтром ?  Может поделится кто, у кого он хорошо обучен ?

Слишком индивидуально, боюсь.  Можете попробовать скормить ему
вот это: http://xms.com.ua/~mike/spam.tar.gz -- но оно довольно
старое и новых веяний может не учитывать.

-- 
 ---- WBR, Michael Shigorin <mike@altlinux.ru>
  ------ Linux.Kiev http://www.linux.kiev.ua/


^ permalink raw reply	[flat|nested] 8+ messages in thread

* Re: [sisyphus] SpamAssassin
  2003-10-27  8:46 [sisyphus] SpamAssassin Serj
  2003-10-27 15:03 ` [sisyphus] SpamAssassin Michael Shigorin
@ 2003-10-27 16:20 ` Victor Forsyuk
  2003-10-27 17:02   ` Re[2]: " Sergey Solopov
  1 sibling, 1 reply; 8+ messages in thread
From: Victor Forsyuk @ 2003-10-27 16:20 UTC (permalink / raw)
  To: sisyphus

On Mon, Oct 27, 2003 at 11:46:09AM +0300, Serj wrote:
> Всем привет,
> 
> Поставил SpamAssassin, сразу стал отсеивать % 30 спама, но для получения

Всего 30% ? Что-то мало. Не модифицировали установленный из пакета
/etc/mail/spamassassin/local.cf ? Там - совершенно намеренно! - установлен
достаточно высокий порог срабатывания:

required_hits 7.5

Попробуйте понизить его до 5 (что является прописанным внутри SA
умолчанием).

> большего % на сколько я понял надо обучать bayes фильтр.

Я бы сформулировал иначе. Для получения большего процента отсева спама
необходимо - если мы говорим не только конкретно о SA - строить
комплексную "эшелонированную" :) оборону. Начиная с отсева спама еще
во время SMTP-сеанса по различным критериям и только заканчивая
контекстной фильтрацией инструментами типа spamassassin.

Для SpamAssassin - больше увеличит процент отсева понижение порога
срабатывания, если Вас устраивает сопутствующее увеличение вероятности
false positives.

> Отсюда вопрос, может стоит сделать дополнительный пакет с обученным
> фильтром ?

Это невозможно. По самой сути методов частотного разделения типа bayes
не может быть "обученного вообще" фильтра с соответствующими базами,
_подходящими для всех_.
 
> Может поделится кто, у кого он хорошо обучен ?

И это по сути неправильно. Объясню на простых примерах. Представим себе,
что Вы работаете в фирме, которая занимается семинарами... да или вообще,
допустим, по какой-то себе причине часто упоминаете их в письмах.

В Украине одни из самых наглых и активных спамеров рассылают спам с
рекламой семинаров (это наш аналог вашего ALC). Легко догадаться,
что произойдет, если Вы попытаетесь воспользоваться частотными базами,
обученными вовсе не на Вашем почтовом трафике. Такие базы неминуемо
дадут большие false positives и false negatives.

Включайте в SpamAssassin'е site-wide bayes autolearn и получите еще
немного более "догадливый" в отношении спама фильтр. Причем без
ручного вмешательства. Ну а если учите его ручками на своем профайле,
получите еще более точный инструмент.




^ permalink raw reply	[flat|nested] 8+ messages in thread

* Re[2]: [sisyphus] SpamAssassin
  2003-10-27 16:20 ` [sisyphus] SpamAssassin Victor Forsyuk
@ 2003-10-27 17:02   ` Sergey Solopov
  2003-10-30 10:35     ` vserge
  2003-10-30 14:31     ` Victor Forsyuk
  0 siblings, 2 replies; 8+ messages in thread
From: Sergey Solopov @ 2003-10-27 17:02 UTC (permalink / raw)
  To: sisyphus

Hello Victor,


VF> Попробуйте понизить его до 5 (что является прописанным внутри SA
VF> умолчанием).

Спасибо, изменю...

>> большего % на сколько я понял надо обучать bayes фильтр.

VF> Я бы сформулировал иначе. Для получения большего процента отсева спама
VF> необходимо - если мы говорим не только конкретно о SA - строить
VF> комплексную "эшелонированную" :) оборону. Начиная с отсева спама еще
VF> во время SMTP-сеанса по различным критериям и только заканчивая
VF> контекстной фильтрацией инструментами типа spamassassin.
Это по поводу различных RBL и blacklist-ов ? Так уже используются.


>> Отсюда вопрос, может стоит сделать дополнительный пакет с обученным
>> фильтром ?

VF> Это невозможно. По самой сути методов частотного разделения типа bayes
VF> не может быть "обученного вообще" фильтра с соответствующими базами,
VF> _подходящими для всех_.

В принципе понятно, по ведь SA ставят, те-же ISP провайдеры, у которых
под обучение попадает "общая" часть спама, а до учить уже можно на
месте. Например, bayes-овский фильтр для 'the bat' имеет в поставке и
обученную базу, хочешь используй, нет - обучай сам. На такой "общей
базе" достигается показатель 80-90% и она подошла большенству моих
знакомых.

А ложные сработатывания можно дооубчать с помошью sa-learn, если я
правильно понял.


VF> Включайте в SpamAssassin'е site-wide bayes autolearn и получите еще
VF> немного более "догадливый" в отношении спама фильтр.
autolearn стоит

-- 
SY, Serj



^ permalink raw reply	[flat|nested] 8+ messages in thread

* Re: Re[2]: [sisyphus] SpamAssassin
  2003-10-27 17:02   ` Re[2]: " Sergey Solopov
@ 2003-10-30 10:35     ` vserge
  2003-10-30 11:59       ` Salavat Yarmukhametov
  2003-10-30 12:09       ` Re[2]: " Victor Forsyuk
  2003-10-30 14:31     ` Victor Forsyuk
  1 sibling, 2 replies; 8+ messages in thread
From: vserge @ 2003-10-30 10:35 UTC (permalink / raw)
  To: Sergey Solopov, sisyphus

Добрый день

А не подскажите как SA работает на одной машине с KAV?

Вы написали Sergey Solopov <serj@arte.ru> Mon, 27 Oct 2003 20:02:44 +0300:

> Hello Victor,
> 
> 
> VF> Попробуйте понизить его до 5 (что является прописанным внутри SA
> VF> умолчанием).
> 
> Спасибо, изменю...
> 
> >> большего % на сколько я понял надо обучать bayes фильтр.
> 
> VF> Я бы сформулировал иначе. Для получения большего процента отсева спама
> VF> необходимо - если мы говорим не только конкретно о SA - строить
> VF> комплексную "эшелонированную" :) оборону. Начиная с отсева спама еще
> VF> во время SMTP-сеанса по различным критериям и только заканчивая
> VF> контекстной фильтрацией инструментами типа spamassassin.
> Это по поводу различных RBL и blacklist-ов ? Так уже используются.
> 
> 
> >> Отсюда вопрос, может стоит сделать дополнительный пакет с обученным
> >> фильтром ?
> 
> VF> Это невозможно. По самой сути методов частотного разделения типа bayes
> VF> не может быть "обученного вообще" фильтра с соответствующими базами,
> VF> _подходящими для всех_.
> 
> В принципе понятно, по ведь SA ставят, те-же ISP провайдеры, у которых
> под обучение попадает "общая" часть спама, а до учить уже можно на
> месте. Например, bayes-овский фильтр для 'the bat' имеет в поставке и
> обученную базу, хочешь используй, нет - обучай сам. На такой "общей
> базе" достигается показатель 80-90% и она подошла большенству моих
> знакомых.
> 
> А ложные сработатывания можно дооубчать с помошью sa-learn, если я
> правильно понял.
> 
> 
> VF> Включайте в SpamAssassin'е site-wide bayes autolearn и получите еще
> VF> немного более "догадливый" в отношении спама фильтр.
> autolearn стоит
> 





^ permalink raw reply	[flat|nested] 8+ messages in thread

* Re: [sisyphus] SpamAssassin
  2003-10-30 10:35     ` vserge
@ 2003-10-30 11:59       ` Salavat Yarmukhametov
  2003-10-30 12:09       ` Re[2]: " Victor Forsyuk
  1 sibling, 0 replies; 8+ messages in thread
From: Salavat Yarmukhametov @ 2003-10-30 11:59 UTC (permalink / raw)
  To: sisyphus

On Thu, Oct 30, 2003 at 01:35:58PM +0300, vserge wrote:
> Добрый день
> 
> А не подскажите как SA работает на одной машине с KAV?
> 

В смысле "как работает"? Нормально работают оба вместе.

> Вы написали Sergey Solopov <serj@arte.ru> Mon, 27 Oct 2003 20:02:44 +0300:
> 
> > Hello Victor,
> > 
> > 
> > VF> Попробуйте понизить его до 5 (что является прописанным внутри SA
> > VF> умолчанием).
> > 
> > Спасибо, изменю...
> > 
> > >> большего % на сколько я понял надо обучать bayes фильтр.
> > 
> > VF> Я бы сформулировал иначе. Для получения большего процента отсева спама
> > VF> необходимо - если мы говорим не только конкретно о SA - строить
> > VF> комплексную "эшелонированную" :) оборону. Начиная с отсева спама еще
> > VF> во время SMTP-сеанса по различным критериям и только заканчивая
> > VF> контекстной фильтрацией инструментами типа spamassassin.
> > Это по поводу различных RBL и blacklist-ов ? Так уже используются.
> > 
> > 
> > >> Отсюда вопрос, может стоит сделать дополнительный пакет с обученным
> > >> фильтром ?
> > 
> > VF> Это невозможно. По самой сути методов частотного разделения типа bayes
> > VF> не может быть "обученного вообще" фильтра с соответствующими базами,
> > VF> _подходящими для всех_.
> > 
> > В принципе понятно, по ведь SA ставят, те-же ISP провайдеры, у которых
> > под обучение попадает "общая" часть спама, а до учить уже можно на
> > месте. Например, bayes-овский фильтр для 'the bat' имеет в поставке и
> > обученную базу, хочешь используй, нет - обучай сам. На такой "общей
> > базе" достигается показатель 80-90% и она подошла большенству моих
> > знакомых.
> > 
> > А ложные сработатывания можно дооубчать с помошью sa-learn, если я
> > правильно понял.
> > 
> > 
> > VF> Включайте в SpamAssassin'е site-wide bayes autolearn и получите еще
> > VF> немного более "догадливый" в отношении спама фильтр.
> > autolearn стоит
> > 
> 
> 
> 
> _______________________________________________
> Sisyphus mailing list
> Sisyphus@altlinux.ru
> http://altlinux.ru/mailman/listinfo/sisyphus
--
Salavat Yarmukhametov
salavat@regiongarant.ru
ICQ 21144441


^ permalink raw reply	[flat|nested] 8+ messages in thread

* Re: Re[2]: [sisyphus] SpamAssassin
  2003-10-30 10:35     ` vserge
  2003-10-30 11:59       ` Salavat Yarmukhametov
@ 2003-10-30 12:09       ` Victor Forsyuk
  1 sibling, 0 replies; 8+ messages in thread
From: Victor Forsyuk @ 2003-10-30 12:09 UTC (permalink / raw)
  To: vserge, sisyphus

On Thu, Oct 30, 2003 at 01:35:58PM +0300, vserge wrote:
> Добрый день
> 
> А не подскажите как SA работает на одной машине с KAV?

Нормально работает. Если честно, не совсем понятен вопрос.
Ну вот у меня он работает плечом к плечу с ClamAV. Какие
могут быть у SA проблемы от наличия на той же машине KAV?



^ permalink raw reply	[flat|nested] 8+ messages in thread

* Re: [sisyphus] SpamAssassin
  2003-10-27 17:02   ` Re[2]: " Sergey Solopov
  2003-10-30 10:35     ` vserge
@ 2003-10-30 14:31     ` Victor Forsyuk
  1 sibling, 0 replies; 8+ messages in thread
From: Victor Forsyuk @ 2003-10-30 14:31 UTC (permalink / raw)
  To: Sergey Solopov, sisyphus

On Mon, Oct 27, 2003 at 08:02:44PM +0300, Sergey Solopov wrote:
> 
> >> большего % на сколько я понял надо обучать bayes фильтр.
> 
> VF> Я бы сформулировал иначе. Для получения большего процента отсева спама
> VF> необходимо - если мы говорим не только конкретно о SA - строить
> VF> комплексную "эшелонированную" :) оборону. Начиная с отсева спама еще
> VF> во время SMTP-сеанса по различным критериям и только заканчивая
> VF> контекстной фильтрацией инструментами типа spamassassin.
> Это по поводу различных RBL и blacklist-ов ? Так уже используются.

И о них тоже, но далеко не только лишь о них. К примеру, если к вам из
внешнего Интернета (не от своих клиентов с виндюками) пришло соединение,
в котором параметр EHLO не содержит точки - это спам. Если параметр
EHLO compuserve.com - это спам. Если параметр EHLO является одним из
ваших доменных имен или IP одного из интерфейсов - это спам. И т.д.
 
> >> Отсюда вопрос, может стоит сделать дополнительный пакет с обученным
> >> фильтром ?
> 
> VF> Это невозможно. По самой сути методов частотного разделения типа bayes
> VF> не может быть "обученного вообще" фильтра с соответствующими базами,
> VF> _подходящими для всех_.
> 
> В принципе понятно, по ведь SA ставят, те-же ISP провайдеры, у которых
> под обучение попадает "общая" часть спама, а до учить уже можно на

Ну вот я поставил (ISP "Global Ukraine"). Обучается на живом потоке.
Вот как раз для ISP, где адресаты по определению получают разнопрофильную
почту, с "общей" частью лучше не играться.

> месте. Например, bayes-овский фильтр для 'the bat' имеет в поставке и
> обученную базу, хочешь используй, нет - обучай сам. На такой "общей
> базе" достигается показатель 80-90% и она подошла большенству моих
> знакомых.

Это Ritlabs такое поставляет?? Я конечно могу понять мотивы, но IMNSHO
это не вполне ответственное решение.
 
> А ложные сработатывания можно дооубчать с помошью sa-learn, если я
> правильно понял.
> 
> 
> VF> Включайте в SpamAssassin'е site-wide bayes autolearn и получите еще
> VF> немного более "догадливый" в отношении спама фильтр.
> autolearn стоит

Тогда подождите немного или покормите его своими архивами спама - пока
у SA bayes-база маленькая она слабо влияет на скоринг. Можете также
_немного_ понизить (с дефолтных 12) порог срабатывания spam autolearn,
для более быстрого наполнения.



^ permalink raw reply	[flat|nested] 8+ messages in thread

end of thread, other threads:[~2003-10-30 14:31 UTC | newest]

Thread overview: 8+ messages (download: mbox.gz / follow: Atom feed)
-- links below jump to the message on this page --
2003-10-27  8:46 [sisyphus] SpamAssassin Serj
2003-10-27 15:03 ` [sisyphus] SpamAssassin Michael Shigorin
2003-10-27 16:20 ` [sisyphus] SpamAssassin Victor Forsyuk
2003-10-27 17:02   ` Re[2]: " Sergey Solopov
2003-10-30 10:35     ` vserge
2003-10-30 11:59       ` Salavat Yarmukhametov
2003-10-30 12:09       ` Re[2]: " Victor Forsyuk
2003-10-30 14:31     ` Victor Forsyuk

ALT Linux Sisyphus discussions

This inbox may be cloned and mirrored by anyone:

	git clone --mirror http://lore.altlinux.org/sisyphus/0 sisyphus/git/0.git

	# If you have public-inbox 1.1+ installed, you may
	# initialize and index your mirror using the following commands:
	public-inbox-init -V2 sisyphus sisyphus/ http://lore.altlinux.org/sisyphus \
		sisyphus@altlinux.ru sisyphus@altlinux.org sisyphus@lists.altlinux.org sisyphus@lists.altlinux.ru sisyphus@lists.altlinux.com sisyphus@linuxteam.iplabs.ru sisyphus@list.linux-os.ru
	public-inbox-index sisyphus

Example config snippet for mirrors.
Newsgroup available over NNTP:
	nntp://lore.altlinux.org/org.altlinux.lists.sisyphus


AGPL code for this site: git clone https://public-inbox.org/public-inbox.git