учить dspam только хорошему

EXIM, sendmail, postfix, Dovecot и прочие. Решение проблем связанных с работой электронной почты

Модератор: xM

Правила форума
Убедительная просьба юзать теги [code] при оформлении листингов.
Сообщения не оформленные должным образом имеют все шансы быть незамеченными.
vinnitu
проходил мимо
Сообщения: 2
Зарегистрирован: 2010-04-08 15:29:15

учить dspam только хорошему

Непрочитанное сообщение vinnitu » 2010-04-08 15:39:08

Привет! Помоги плиз разобраться с dspam.

Я планирую применить dspam для кассификации сообщений приходящих в службу поддержки

скажите насколько сложно это сделать с dspam?

думается сделать для каждой категории псевдо-юзера (чтобы настраивать для него фильтр), а потом входящее прогонять для каждого, чтобы
выявить наибольший коэффициент попадания...

ну это пока мысли, в правильном ли направлении я рассуждаю?

а что будет если учить только "хорошему" dspam? т.е. думаю если я возьму уже существующую базу сообщений, где уже известна категория и
натренирую dspam с соотв. псевдо-юзером

типа

Код: Выделить всё

./dspam --user mailtroubles --class=spam --process < message
я хочу знать, как будет себя вести dspam если его не(!) тренировать на innocent?

PS: много чего наговорил, но надеюсь общий смысл понятен

---------------- немного подумал и дополнил ----------------

предположим я имею 3 катерогии вопросов: sport, culture, books
и допустим 100 сообщений с уже известными категориями

что приходит в голову (очевидно, что это неффективно, но все же):
реализация обучения на псевдо-языке:

Код: Выделить всё

categories = {"sport", "culture", "books"};
foreach (msg in messages) {
    ./dspam --user msg.category --class=spam --source=corpus --process < msg.text
    foreach (category in categories) {
         if (category != msg.category) {
             ./dspam --user msg.category --class=innocent --source=corpus --process < msg.text
          }
    }
}
таким образом каждый пользователь имеет отметку о каждом сообщении,
помеченным относится ли оно к данной категории (мы пометили его как spam)
или нет (тогда оно помечаетсяч innocent)

мне кажется что тут большая избыточность...

а определения категории для нового сообщения

Код: Выделить всё

msg = new (....)
...
max_category = ""
max_probability = -1
foreach (caterory in categotied) {
    get probability from `./dspam --user category --classify < msg.text`
    if (probability > max_probability || max_probability == -1) {
         max_probability = probability
         max_category = category
    }
}
и тут типа мы знаем к какой категории мы ближе всего...

поделитесь мыслями, please

Хостинговая компания Host-Food.ru
Хостинг HostFood.ru
 

Услуги хостинговой компании Host-Food.ru

Хостинг HostFood.ru

Тарифы на хостинг в России, от 12 рублей: https://www.host-food.ru/tariffs/hosting/
Тарифы на виртуальные сервера (VPS/VDS/KVM) в РФ, от 189 руб.: https://www.host-food.ru/tariffs/virtualny-server-vps/
Выделенные сервера, Россия, Москва, от 2520 рублей (8 CPU, 8Gb RAM, 2x500Gb HDD, RAID 3ware 9750):
https://www.host-food.ru/tariffs/vydelennyi-server-ds/
Недорогие домены в популярных зонах: https://www.host-food.ru/domains/

vinnitu
проходил мимо
Сообщения: 2
Зарегистрирован: 2010-04-08 15:29:15

Re: учить dspam только хорошему

Непрочитанное сообщение vinnitu » 2010-04-12 10:04:37

не получилось...
интересно почему? :(