On reproducing kernel methods in functional statistics

  1. Bueno Larraz, Beatriz
Dirigida por:
  1. José Ramón Berrendero Díaz Director/a
  2. Antonio Cuevas González Director/a

Universidad de defensa: Universidad Autónoma de Madrid

Fecha de defensa: 30 de noviembre de 2018

Tribunal:
  1. Juan Antonio Cuesta Albertos Presidente/a
  2. Javier Cárcamo Urtiaga Secretario/a
  3. Enea Giuseppe Bongiorno Vocal

Tipo: Tesis

Resumen

A lo largo de esta tesis se profundiza en algunos problemas con datos funcionales desde un nuevo punto de vista matemático, que clarifica las técnicas existentes y al mismo tiempo ayuda a desarrollar nuevas ideas basadas en un enfoque puramente funcional. Estas nuevas herramientas suelen ser más simples y eficientes que las meras extensiones de técnicas multivariantes, ya que están específicamente diseñadas teniendo en cuenta la naturaleza de los datos. En particular, se tratan los siguientes problemas estadísticos: - la definición de una extensión funcional de la distancia de Mahalanobis clásica, - regresión lineal funcional, con respuesta tanto escalar como funcional, aplicada a la predicción de series temporales funcionales, - y regresión logística funcional. El hilo conductor de este trabajo es el uso de los espacios de Hilbert con núcleo reproductor (RKHS's según sus siglas en inglés), de forma que el primer capítulo está básicamente dedicado a ellos. Estos espacios resultan de gran utilidad para establecer conexiones plenamente fundadas entre problemas funcionales y sus respectivos problemas multivariantes. Tras una breve introducción a los datos funcionales, se recogen diversas definiciones de los RKHS's y se analizan las relaciones entre ellas, así como algunas aplicaciones. En el capítulo 2 se introduce una extensión funcional de la clásica distancia de Mahalanobis. La expresión de la distancia de Mahalanobis multivariante incluye la inversa de la matriz de covarianza. El homólogo funcional de dicha matriz es el operador de covarianza. Este operador no es invertible en L2[0,1], así que no es posible definir una extensión directa de la distancia original. Existen en la literatura un par de propuestas interesantes tratando de resolver este problema. En este trabajo se propone utilizar una perspectiva bastante diferente, motivada en términos de los RKHS, que está completamente fundamentada desde un punto de vista matemático. Además se prueba que la nueva distancia comparte algunas propiedades interesantes con la distancia original y que puede ser estimada consistentemente a partir de una muestra. El capítulo 3 consta de dos partes. En la primera se aborda el problema de regresión funcional con respuesta escalar. Se propone reemplazar el producto escalar en L2[0,1] del modelo de regresión estándar con la inversa de la isometría de Loève de la función de coeficientes de regresión. Este nuevo modelo es especialmente útil para hacer selección de variables. De hecho, se reduce al modelo clásico de regresión lineal finito-dimensional cuando la función de coeficientes de regresión depende de un número finito de puntos en [0,1] (a veces llamados “puntos de impacto”). Este modelo en función de los puntos de impacto no podría obtenerse con la aproximación estándar en L2[0,1], ya que requeriría que los funcionales de evaluación x⟼x(t) fuesen continuos, que no es el caso. Se han obtenido resultados de consistencia tanto para los puntos seleccionados como para las respuestas. Además se propone un nuevo estimador consistente para el número de puntos a elegir. En la segunda parte del capítulo 3 se extiende la metodología previa al problema de regresión con respuesta funcional, aplicándola posteriormente a la predicción de series temporales funcionales. La definición del modelo debe adaptarse para seleccionar puntos que sean relevantes para la predicción de la curva completa. En este caso la función de covarianza cruzada entre los regresores y las respuestas juega un papel importante y es parte esencial del criterio de selección de los puntos de impacto. Por lo tanto se introducen restricciones adicionales en la función de coeficientes de regresión. Los resultados obtenidos en la primera parte del capítulo son extendidos a este contexto. El capítulo 4 está dedicado a la regresión logística funcional. La aproximación más común al problema consiste en definir el modelo de regresión logística en función del producto interno en L2[0,1]. Sin embargo, se prueba que cuando las distribuciones del proceso dado Y=0,1 son Gaussianas homocedásticas, el modelo logístico que se infiere involucra el producto escalar en el RKHS. Para derivar este resultado se requiere el uso de derivadas de Radon-Nikodym. Como en el capítulo 3, el modelo propuesto es especialmente útil para selección de variables y también tiene como caso particular al modelo de regresión logística finito-dimensional. Finalmente, estudiamos en detalle la existencia del estimador de Máxima Verosimilitud de la función de coeficientes de regresión, obteniendo algunos resultados interesantes de no-existencia que no requieren grandes restricciones sobre los procesos involucrados (incluyendo el Browniano, entre otros). Se han llevado a cabo simulaciones y experimentos para todos los métodos propuestos en esta tesis. El lenguaje de programación utilizado es R y todo el código desarrollado se puede proporcionar bajo demanda.