From mboxrd@z Thu Jan 1 00:00:00 1970 Return-Path: From: Mike Lykov Organization: Vesna To: sisyphus@altlinux.ru Subject: Re: [sisyphus] I: new package (amavisd-new) Date: Thu, 15 Jan 2004 15:58:34 +0400 User-Agent: KMail/1.5.4 References: <3FFC0AB8.8070709@vot.ru> <200401141038.47297.combr@vesna.ru> <20040114131656.GA7463@mailhub.gu.net> In-Reply-To: <20040114131656.GA7463@mailhub.gu.net> MIME-Version: 1.0 Content-Type: text/plain; charset="koi8-r" Content-Transfer-Encoding: 8bit Content-Disposition: inline Message-Id: <200401151558.34826.combr@vesna.ru> X-Bogosity: No, tests=bogofilter, spamicity=0.000000, version=0.15.7 X-BeenThere: sisyphus@altlinux.ru X-Mailman-Version: 2.1.3 Precedence: list Reply-To: combr@vesna.ru, sisyphus@altlinux.ru List-Id: List-Unsubscribe: , List-Archive: List-Post: List-Help: List-Subscribe: , X-List-Received-Date: Thu, 15 Jan 2004 12:28:24 -0000 Archived-At: List-Archive: В сообщении от Среда 14 Январь 2004 17:16 Victor Forsyuk написал: > > > Если даже этого не делать, spamassassin самообучается на проходящих > > > письмах. > > при этом постоянно увеличивая количество ошибок? > Не могли бы Вы пояснить, каким образом пришли к такому выводу? > Поскольку происходит самообучение, то процент ошибок благодаря > росту объема байесовской базы уменьшается. Логика такая - в процессе работы он будет неизбежно ошибаться. Допустим, он принял хорошее письмо за спам. И самообучил текст этого письма в базу спамовых писем. Тогда следующее хорошее письмо, похожее на первое, будет вероятнее принято за спам. Третье еще более вероятно, и так далее. То есть количество ошибок растет. И наоборот - допустим, он пропустил явный спам, и самообучил его в базу хороших писем. Тогда со временем (накапливая в базе ошибки) он будет пропускать все больше похожего спама. > > есть ли у него tri-state filtering (оценка как spam/ham/unsure) ? > Здесь эти понятия не совсем применимы. Речь о том, чтобы выставить порог не только для определения спама, а еще и определения хорошего письма. Например, spamcity: 0.95 и 0.10 (в spamassasin баллы не процентные, насколько я помнимаю). Тогда в середине будут unsure, и на них автообучения не будет. обучение будет только на явном спаме (в спам-базу) и на явно хороших письмах (в базу хороших писем). есть такое? -- Mike