Libertonia
Portada · Todo · Software Libre · Desarrolladores · Comunidad · Internet · Tecnología · Meta · Diarios
Spamassassin y el filtrado bayesiano

Draco's Diary
Por Draco
departamento , Sección Diarios
Puesto a las Fri Nov 14th, 2003 at 08:40:55 AM CET

Desde hace poco Spamassassin soporta filtrado bayesiano. No es que sea difícil activarlo, pero para que no tengáis que gastar ni una neurona, os lo doy masticado.

 


Lo primero que hay que hacer es entrenarlo con sa-learn(no seréis de los que borran el spam, ¿verdad?). Para eso hay que darle el jamón y la mortadela diciéndoles lo que es, p.ej.:

$ sa-learn --ham --mbox Mail/inbox
$ sa-learn --spam --mbox Mail/spam

Si tienes más de doscientos mensajes de ambas cosas, ya está. Sólo falta añadir al .spamassassin/.user_prefs:

use_bayes 1
bayes_auto_learn 1

Si no tienes tanto spam o correo normal, tendrás que bajar los umbrales a partir de los cuales se empieza a usar este filtrado. Yo lo he probado con unos 130 mensajes de spam y de momento es bastante preciso

bayes_min_ham_num 100
bayes_min_spam_num 100

< De Debian a Mandrake (II) -Primeros pasos- (24 comments) | Indice: LaTeX (8 comments) >
Enlaces Relacionados
· Spamassassin
· More on Draco's Diary
· Also by Draco

Encuesta
Para el spam lo mejor es
· ...bogofilter 14%
· ...spambayes 0%
· ...spamassassin 28%
· ...mis filtros de procmail que para eso me los he currado 14%
· ...la recortada 42%

Votos: 14
Resultados | Otras Encuestas

Menu
· crear cuenta
· FAQ
· búsqueda
· Fuentes de Noticias

Login
Nueva cuenta
Usuario:
Contraseña:

Ver: Modo: Orden:
Spamassassin y el filtrado bayesiano | 4 comentarios (4 temáticos, editoriales, 0 ocultos)
Los ficheros de config (none / 0) (#1)
por gonzotba a las Fri Nov 14th, 2003 at 10:22:45 AM CET
(Información Usuario)

¿Dónde van exactamente los ficheros de config? Yo instalé un backport en woody, precisamente para gossar de los filtros bayesianos, y tengo ficheros de configuración por todas partes.

De momento me he limitado a tocar un /etc/spamassassin/local.cf que he visto por ahí, pero no sé yo...



$HOME/.spamassassin/.user_prefs (none / 0) (#2)
por Draco a las Fri Nov 14th, 2003 at 11:12:52 AM CET
(Información Usuario)

Allí es donde tengo yo la configuración personal, y las bases de datos que necesita el filtrado bayesiano. Todas las opciones de configuración(que son un rato) en:

perldoc Mail::SpamAssassin::Conf
There are two major products to come out of Berkeley: LSD & BSD Unix. I don't believe this to be a coincidence.
[ Padre ]


Ya está activado el filtro bayesiano por defecto. (none / 0) (#3)
por jamarier a las Fri Nov 14th, 2003 at 04:00:54 PM CET
(Información Usuario) http://barbacana.net/blog/

<Propaganda>Estoy probando el spamassassin. La versión 2.60 porque según estoy leyendo es la solución más completa al problema de las hemorroides; perdón del spam. Además de los heurísticos y las listas de acceso, tiene el filtro bayesiano que tambien me ha funcionado con bogofilter. </Propaganda>

Leyendo la documentación que trae, indica que ya está activado por defecto el filtro bayesiano y el auto aprendizaje y que para aumentar su precisión, no clasifica con él hasta llegar a 200 correos buenos y 200 malos. (los límites ya indicados arriba)

Por lo tanto, salvo si se quieren reducir los límite, no hay que tocar nada para que funcione este filtro (que desde mi punto de vista es el mejor) con spamassassin.

-----
- Porque mañana será un gran día.
[ Padre ]



Vale, pero... (4.00 / 1) (#4)
por Draco a las Fri Nov 14th, 2003 at 05:31:07 PM CET
(Información Usuario)

si te fijas los umbrales que aplica para el autoaprendizaje son "extremos"(0.1 y y 12)[1], así que en realidad puede costarle mucho más de 200 mensajes de spam que "aprenda" la diferencia. De ahí que sea bueno ayudarle con el mecanismo de detección de spam basado en "inteligencia natural", que (casi) todo humano llevamos incorporado :-), y enseñarle casos de spam no tan evidentes, porque precisamente esos son los que escapan al mecanismo de reglas.

Otra cosa buena del sa-learn es que recuerda qué mensajes ha visto para no contarlos dos veces.

[1] bayes_auto_learn_threshold_nonspam y bayes_auto_learn_threshold_spam
There are two major products to come out of Berkeley: LSD & BSD Unix. I don't believe this to be a coincidence.
[ Padre ]


 
Spamassassin y el filtrado bayesiano | 4 comentarios (4 temáticos, editoriales, 0 ocultos)
Ver: Modo: Orden:

ecol Logo Powered by Scoop
Todas las Marcas Registradas y copyrights de esta página son propiedad de sus respectivos dueños.
Los comentarios son propiedad del que los escribe.
Los iconos de las noticias y el logotipo son propiedad de Javier Malonda.
El Resto © 2002 Escomposlinux.org y aledaños.

Puedes sindicar los contenidos de libertonia en formato RSS 1.0 y RDF 0.9. También se puede sindicar la cola de envíos pendientes de moderación.

El proyecto escomposlinux.org está dedicado a la memoria de tas

crear cuenta | faq | búsqueda