Método para la reducción de sistemas de reglas de clasificación por dominios de significancia

  1. Rabasa Dolado, Alejandro
Dirigée par:
  1. Laureano Fernando Escudero Bueno Directeur/trice
  2. Marcos Almiñana Alemany Directeur/trice

Université de défendre: Universidad Miguel Hernández de Elche

Fecha de defensa: 05 mars 2009

Jury:
  1. José María Gómez Gras President
  2. Joaquín Sánchez Soriano Secrétaire
  3. María Araceli Garín Martín Rapporteur
  4. María Teresa Ortuño Sánchez Rapporteur
  5. Gloria Pérez Sainz de Rozas Rapporteur

Type: Thèses

Teseo: 202641 DIALNET

Résumé

Los sistemas de Reglas de Clasificación suelen ser difíciles de interpretar por parte de los expertos a los que van dirigidos porque: contienen numerosas reglas, éstas están desordenadas y a veces presentan inconsistencias y redundancias entre ellas, Esta Tesis pretende facilitar la interpretación de tales sistemas, a partir de la consecución de los siguientes objetivos: Realizar un detallado estado del arte de los métodos predictivos usados en Data Mining, especialmente centrado en las Reglas de Clasificación. Se pretende desarrollar un método de complejidad polinomial, que basado en una nueva métrica de significancia de las reglas, sea capaz de clasificarlas según su tipo de significancia, eliminando las irrelevantes. Por último, se debe comparar cualitativamente la métrica propuesta con otras existentes, evaluando bajo qué condiciones es aconsejable el uso de la misma. El método ubica las reglas en un espacio bi-dimensional según sus valores de soporte y confianza y las asigna a su correspondiente región. Posteriormente se calcula la métrica que identifica, por si misma, el tipo de significancia. Se calcula también el índice de correlación de los atributos del sistema al que pertenece dicha regla. Las reglas estadísticamente insignificantes son eliminadas del sistema, y el conjunto final contiene las reglas agrupadas según su tipo de significancia: positiva, discriminante o casos anómalos. El método es probado sobre grandes conjuntos de datos, simulados, algunos privados y otros públicos (de la Universidad de California, Irvine). Los resultados son sometidos a la interpretación de expertos de ámbitos tan diferentes como los Recursos Hídricos, la Inserción Laboral y la Medicina quienes constatan, en cada caso, la correcta ubicación de las reglas en sus correspondientes regiones, así como la validez del conjunto final reducido. Los resultados sobre el conjunto de datos simulado ponen de manifiesto la validez y la genericidad del algoritmo, pues reflejan absolutamente las condiciones a partir de las cuales se realizó la simulación. Las conclusiones más relevantes alcanzadas son las siguientes: El estado del arte en métodos predictivos de Data Mining señala el campo de la reducción de sistemas de Reglas de Clasificación como susceptible de ser sometido a mejoras orientadas a facilitar su interpretación. La métrica propuesta es capaz de clasificar, por su propio valor, el tipo de significancia de las reglas. El método de reducción posee una complejidad temporal lineal (mejor caso de la polinomial propuesta como objetivo), es independiente de los métodos de generación de sistemas y es de carácter genérico, según se desprende de su validez en diferentes ámbitos y se constata con experimento sobre datos simulados.