Dimensionality reduction for the improvement of anti-spam filters

VELEZ DE MENDIZABAL GONZALEZ, IÑAKI

Dimensionality reduction for the improvement of anti-spam filters

VELEZ DE MENDIZABAL GONZALEZ, IÑAKI

Dirigida por:

Urko Zurutuza Ortega Director/a
Enaitz Ezpeleta Gallastegi Codirector/a

Universidad de defensa: Mondragon Unibertsitatea

Fecha de defensa: 18 de julio de 2022

Tribunal:

Octavian Adrian Postolache Presidente/a
Iñaki Garitano Garitano Secretario/a
José María Gómez Hidalgo Vocal
Iryna Yevseyeva Vocal
Ander Barrena Madinabeitia Vocal

Tipo: Tesis

Teseo: 788093 DIALNET TESEO editor

Resumen

Actualmente el spam representa cerca del 45% del tráfico mundial de emails. En los últimos años las técnicas de filtrado para combatir el spam han sido objeto de innumerables estudios. Se han probado distintas soluciones combinando aspectos legales, administrativos y técnicos. Desde el punto de vista técnico, la combinación de técnicas de filtrado basadas en tokens y técnicas de filtrado basadas en contenidos han traído mejoras poco significativas en las tasas de clasificación del spam. Debido a las limitadas mejoras conseguidas con estas estrategias, se han desarrollado nuevos esquemas de representación del conocimiento (como las representaciones vectoriales, temas o synsets). El usar synsets para representar el significado de las palabras nos guía a la identificación de la intencionalidad de un mensaje, permitiendo clasificarlos como mensajes que quieren vender productos, obtener información sobre nosotros, etc. La ventaja de este tipo de representaciones está en su capacidad de agrupar taxonómicamente los conceptos, resolviendo la polisemia y la sinonímia. Estas propiedades han sido utilizadas con éxito en este trabajo de investigación, para diseñar un nuevo esquema de reducción de características sin pérdida de información mediante agrupaciones de conceptos basado en técnicas de Aprendizaje Automático. Gracias a este esquema de reducción, se ha conseguido reducir la dimensionalidad del problema de clasificación (número de características), mejorando el rendimiento. En un segundo paso, presentamos y demostramos la eficacia de un nuevo esquema de reducción de características que combina los puntos fuertes de la estrategia sin pérdida de información combinándola con una leve pérdida de información. Por último, para recuperar la información de las palabras cifradas mediante Leetspeak, se ha diseñado y probado un decodificador. El sistema presentado reduce considerablemente el número de palabras cifradas (ofuscadas) que se quedan sin procesar, mejorando los índices de clasificación de los mensajes de spam.