Libertonia
Portada · Todo · Software Libre · Desarrolladores · Comunidad · Internet · Tecnología · Meta · Diarios
Ver: Modo: Orden:
Filtrando los putos Spammers | 3 comentarios (3 temáticos, editoriales, 0 ocultos)
Los filtros basados en patrones no son muy efectiv (5.00 / 2) (#2)
por jamarier a las Mon Dec 8th, 2003 at 05:57:53 PM CET
(Información Usuario) http://barbacana.net/blog/

durante un tiempo intenté controlar los contenidos de propaganda en la web con junkbuster. Era un sistema de filtro por patrones al igual que el que tu indicas con postfix o el que se podría hacer con procmail.

Mi experiencia es de una falsa sensación de efectividad.La naturaleza propia de estos «mensajes» es variable con el tiempo, por lo que obliga al usuario estar manualmente actualizando dichos patrones. Y en poco tiempo, tendrás un inmenso fichero de reglas inmantenible.

Mi siguiente paso fue usar Bogofilter un filtro bayesiano. Es decir por métodos estadísticos determina la naturaleza de los correos entrantes. Cuando están entrenados funcionan muy bien e incluso tiene capacidad de aprendizaje, con lo que se va adaptando a los nuevos términos. Tiene un problema importante y de difícil solución: Este filtro no entiende de idiomas. En mi caso, el 90% del correo en inglés es Spam, así que cuando recibo un correo en inglés bueno lo suele considerar spam. Igualmente el spam español lo considera como correo bueno. Se puede reeducar al Bogofilter, pero los contra ejemplos son bastante escasos como para ser significativos.

Mi siguiente paso fué establecer una lista de autorizados. Toda dirección de correo autorizada puede escribir y todas las demás son filtradas. Hice solo pruebas con este sistema que nunca me ha funcionado bien. Si los usuarios no son capaces de mandar copias de correos con «bcc:» ¿cómo van a ser capaces de hacer funcionar mi propio filtro?

Luego salté a Spamassassin. Filtrado por heurísticos. Con este sistema, hay una lista de actividades «sospechosas» y cada correo es examinado buscando estas actividades. Por ejemplo hablar de la cura de la impotencia es considerado sospechoso. Cada actividad tiene una puntuación asignada (1.3 en el ejemplo dado) y se suman los puntuaciones y si supera cierto límite se considera spam. Esto tiene la ventaja respecto a los patrones que se puede mandar un correo legítimo que hable sobre la impotencia. Pero si habla de impotencia, de oferta, de reembolso de dinero, además usa html y hay textos con el color de fondo igual al de la letra... sumas sumas sumas y al final se considera spam. El problema es que siguen existiendo mensajes de spam que se cuelan al ser muy parecido a los normales (los que huyen de frases fábulosas y gangas seguras). Ultimamente ha incorporado un filtro bayesiano como una regla más. La evolución de los sistemas de spam te obliga a actualizar la versión de spamassassin que incluya nuevas reglas.

Y ahora que te he contado las herramientas que he usado, cuento mi sistema de filtrado de correo no deseado.
Spamassassin -> Bogofilter(sin autoaprendizaje) -> procmail (fundamentalmente clasificador con algún filtro último) -> Yo


Y te aseguro que se escapan pocos correos. Si alguno se cuela, en función de donde sea lo utilizo para enseñar al filtro del Spamassassin o el de Bogofilter según corresponda.

Y luego dicen que el spam no ocasiona perdidas de tiempo.

-----
- Porque mañana será un gran día.



Others have rated this comment as follows:
advocatux 5
thibaut 5

Filtrando los putos Spammers | 3 comentarios (3 temáticos, editoriales, 0 ocultos)
Ver: Modo: Orden:
Menu
· crear cuenta
· FAQ
· búsqueda
· Fuentes de Noticias

Login
Nueva cuenta
Usuario:
Contraseña:

ecol Logo Powered by Scoop
Todas las Marcas Registradas y copyrights de esta página son propiedad de sus respectivos dueños.
Los comentarios son propiedad del que los escribe.
Los iconos de las noticias y el logotipo son propiedad de Javier Malonda.
El Resto © 2002 Escomposlinux.org y aledaños.

Puedes sindicar los contenidos de libertonia en formato RSS 1.0 y RDF 0.9. También se puede sindicar la cola de envíos pendientes de moderación.

El proyecto escomposlinux.org está dedicado a la memoria de tas

crear cuenta | faq | búsqueda