Trimming methods for model validation and supervised classification in the presence of contamination

  1. Agulló Antolín, Marina
Dirigida por:
  1. Eustasio del Barrio Tellado Director/a

Universidad de defensa: Universidad de Valladolid

Fecha de defensa: 29 de junio de 2018

Tribunal:
  1. José R. León Ramos Presidente/a
  2. Luis Angel García Escudero Secretario/a
  3. Javier Cárcamo Urtiaga Vocal

Tipo: Tesis

Resumen

En esta tesis exploramos el uso de los métodos de recorte en dos problemas estadísticos diferentes: la validación de modelos y el aprendizaje supervisado. En estas dos configuraciones propondremos y analizaremos nuevos procedimientos que se basan en el uso de recortes. Observamos en este punto que los nuevos métodos no sólo comparten un uso coincidente del recorte. De hecho, el recorte es la base de lo que podríamos llamar "validación esencial de modelos" o "clasificación esencial" lo que significa que estamos cambiando nuestro paradigma a través del uso de recortes y estamos tratando con nuevas versiones de la validación de modelos o del problema de clasificación. Intentaremos determinar si el generador aleatorio subyacente a una muestra puede ser asumido como una versión ligeramente contaminada de un modelo dado o identificar clasificadores simples que funcionan bien en una gran fracción de las instancias. Todo esto se hará con un uso sistemático de métodos de recorte y conceptos relacionados. Hemos propuesto métodos y analizado aspectos teóricos y prácticos. Estos dos objetivos han hecho necesario utilizar una gran variedad de herramientas de diferentes campos matemáticos, así como de estadística y computación. Entre otros, queremos destacar las desigualdades de concentración, las desigualdades oráculo, los problemas de transporte óptimo, la teoría de dualidad, la programación lineal, la optimización convexa y los algoritmos de gradiente. En aras de la legibilidad, se incluye un capítulo preliminar en el que se describen algunos de los conceptos y resultados fundamentales utilizados durante esta investigación. Además, hemos implementado algoritmos para calcular eficientemente los métodos estadísticos propuestos en esta tesis.