Страница 1 из 1

dspam бьет "хорошие" письма

Добавлено: 2012-03-16 17:32:37
bartwell
Есть сервер, на нем exim, dovecot и dspam. Проблема в том, что последний постоянно помечает хорошие письма как спам. Переучиваю, начинает воспринимать нормально. Проходит несколько дней и опять начинает помечать как спам. В чем может быть дело? Конфиг dspam'а привожу:

Код: Выделить всё

Home /var/db/dspam
StorageDriver /usr/local/lib/dspam/libmysql_drv.so
#StorageDriver /usr/local/lib/libhash_drv.so
TrustedDeliveryAgent "/usr/local/sbin/exim -oMr spam-scanned"
OnFail error
Trust root
Trust mail
Trust mailnull
Trust dspam
TrainingMode teft
TestConditionalTraining on
Feature noise
Algorithm graham burton
PValue graham
StatisticalSedation 5
Preference "spamAction=deliver"
Preference "spamAction=quarantine"
Preference "signatureLocation=headers"
Preference "showFactors=off"
#Preference "spamAction=tag"
Preference "spamSubject=SPAM"
#AllowOverride trainingMode
#AllowOverride spamAction spamSubject
#AllowOverride statisticalSedation
#AllowOverride enableBNR
#AllowOverride enableWhitelist
#AllowOverride signatureLocation
#AllowOverride showFactors
#AllowOverride optIn optOut
#AllowOverride whitelistThreshold

MySQLServer     localhost
MySQLPort       3306
MySQLUser               dspam_user
MySQLPass               dspam_password
MySQLDb                 dspam_db
MySQLConnectionCache    1000
HashRecMax              98317
HashAutoExtend          on
HashMaxExtents          0
HashExtentSize          49157
HashMaxSeek             100
HashConnectionCache     100
IgnoreHeader X-Spam-Status
IgnoreHeader X-Spam-Score
IgnoreHeader X-Spam-Scanned
IgnoreHeader X-Virus-Scanner-Result
IgnoreHeader Date
IgnoreHeader Envelope-to
IgnoreHeader Delivery-date
IgnoreHeader Received
IgnoreHeader User-Agent
IgnoreHeader Content-Type
IgnoreHeader Content-Transfer-Encoding
IgnoreHeader To
Notifications   off
LocalMX 127.0.0.1
Opt out
MaxMessageSize 200000
ProcessorBias on
UserLog   on
SystemLog on
#Debug *
#DebugOpt process spam fp classify

PurgeSignatures 14          # Stale signatures
PurgeNeutral    90          # Tokens with neutralish probabilities
PurgeUnused     90          # Unused tokens
PurgeHapaxes    30          # Tokens with less than 5 hits (hapaxes)
PurgeHits1S     15          # Tokens with only 1 spam hit
PurgeHits1I     15          # Tokens with only 1 innocent hit

Re: dspam бьет "хорошие" письма

Добавлено: 2012-03-16 21:28:33
moury
Потеря репрезентативности базы - обычное дело.

Смириться, сжимать базу по крону, постоянно доучивать.

Учитывать, что спамеры регулярно меняют технологические схемы, чтобы обмануть спам-фильтры.

Re: dspam бьет "хорошие" письма

Добавлено: 2012-03-16 21:40:36
bartwell
Но я имею ввиду одни и те же письма. Например, уведомления от вконтакте. То есть сейчас уведомления от вк не спам, то через несколько дней они становятся спамом. Это оно? Извиняюсь, что не пояснил сразу.

Re: dspam бьет "хорошие" письма

Добавлено: 2012-03-18 9:31:35
moury
Причину я Вам указал - потеря репрезентативности байесовой базы.

Восстановление - процесс долгий и нудный. Если у Вас много времени, поставьте фильтр на заголовки X-DSPAM-Probability и X-DSPAM-Confidense и дообучайте на всех письмах, которые опознаны спам-фильтром правильно, но с недостаточной достоверностью.

Чобы ответить более подробно, нужно знать, каким образом пользователи работают с этой базой. Но при этом ответ качественно не изменится, и основная нагрузка по переобучению все равно ложится на сисадмина.

Re: dspam бьет "хорошие" письма

Добавлено: 2012-03-18 11:35:49
bartwell
Спасибо! Буду разбираться.

Re: dspam бьет "хорошие" письма

Добавлено: 2012-09-10 12:42:48
bartwell
Очистил базу и обучил заново. Но через некоторое время возникает опять та же проблема... Ощущение, что это связано с тем, что спамовых писем приходит гораздо больше, чем полезных. Видимо, нужно как-то сместить параметр StatisticalSedation... Но так ли это? И куда смещать, если так?