Contributions to learning Bayesian network models from weakly supervised dataApplication to Assisted Reproductive Technologies and Software Defect Classification

  1. Hernández González, Jerónimo
Zuzendaria:
  1. José Antonio Lozano Alonso Zuzendaria
  2. Iñaki Inza Cano Zuzendaria

Defentsa unibertsitatea: Universidad del País Vasco - Euskal Herriko Unibertsitatea

Fecha de defensa: 2015(e)ko urria-(a)k 23

Epaimahaia:
  1. Concha Bielza Lozoya Presidentea
  2. Borja Calvo Molinos Idazkaria
  3. Gavin Brown Kidea
Saila:
  1. Konputazio Zientzia eta Adimen Artifiziala

Mota: Tesia

Teseo: 120393 DIALNET lock_openADDI editor

Laburpena

Resumen de Tesis Doctoral: Las t¿cnicas de an¿lisis de datos permitenextraer informaci¿n de un conjunto de datos. Hoy en d¿a, con la explosi¿n delas nuevas tecnolog¿as, el enorme volumen de datos que una amplia variedadde dispositivos recogen y almacenan no puede ser procesado por medio de last¿cnicas cl¿sicas de an¿lisis de datos. Para afrontar esta tarea, la miner¿a dedatos y el aprendizaje autom¿tico son dos campos dentro de la inteligenciaartificial que desarrollan m¿todos computacionales de an¿lisis de datos queaprovechan la capacidad de procesamiento de los ordenadores modernos.Las t¿cnicas de clasificaci¿n supervisada se enmarcan dentro del campodel aprendizaje autom¿tico. En un problema de clasificaci¿n, existe un conjuntode posibles categor¿as a una de las cuales se asigna cada uno de los casosdel problema. En este contexto, se entiende por aprendizaje el proceso de inferirel mapeo de casos y categor¿as que se observa en el problema original apartir de un conjunto de casos de ejemplo. Estas t¿cnicas de clasificaci¿n sedicen ¿supervisadas¿ porque dicho conjunto de ejemplos lo forman casos delproblema que han sido previamente asignados, uno a uno, a sus respectivascategor¿as. De esta manera, las t¿cnicas de clasificaci¿n supervisada infierenel mapeo a partir de un conjunto de ejemplos completamente categorizado(o etiquetado) y construyen un clasificador que, dado un nuevo caso del problemaa¿n sin categorizar, es capaz de predecir su pertenencia a una de lasposibles categor¿as.En esta tesis se explora el problema de la clasificaci¿n supervisada cuandolos ejemplos que se aportan no est¿n completamente categorizados. Elconjunto de trabajos que estudian la posibilidad de aprender un clasificadoren este tipo de escenarios son globalmente conocidos como clasificaci¿nd¿bilmente supervisada o parcialmente etiquetada. El problema cl¿sico declasificaci¿n semi-supervisada, donde s¿lo un subconjunto de los ejemplos est¿categorizado, es uno de los primeros ejemplos de este tipo de problemas.Recientemente, el intento de resolver cada vez problemas de clasificaci¿npor medio de t¿cnicas de clasificaci¿n supervisada ha hecho patente que laobtenci¿n de un conjunto de datos completamente supervisado es con frecuenciaimposible o extremadamente dif¿cil. Ante esta situaci¿n, diferentesinvestigadores han propuesto t¿cnicas de clasificaci¿n d¿bilmente supervisadaespec¿ficas que les permiten aprovechar toda la informaci¿n de supervisi¿nque han podido recoger para su conjunto de ejemplos. La amplia variedadde restricciones que han impedido a los diferentes investigadores recoger unconjunto de ejemplos totalmente categorizado ha multiplicado el n¿mero deproblemas de clasificaci¿n d¿bilmente supervisada presentados recientementeen la literatura junto con las soluciones propuestas para resolverlos.Nuestra primera propuesta en esta tesis es precisamente una ordenaci¿nnovedosa del espectro de problemas de clasificaci¿n d¿bilmente supervisada.Se trata de una taxonom¿a con tres ejes donde cada uno de los cuales representauna caracter¿stica fundamental a la hora de describir un problema declasificaci¿n d¿bilmente supervisada. Todos los problemas se pueden identificarpor el tipo de informaci¿n parcial de supervisi¿n con que se categorizanlos ejemplos con que se aprende el clasificador. Adem¿s, en un segundo eje sediscute y visualiza la existencia de problemas de clasificaci¿n que permitenal clasificador, una vez aprendido, aprovechar cierta informaci¿n parcial desupervisi¿n de los ejemplos que debe predecir. El tercer eje de la taxonom¿asepara los diferentes problemas seg¿n lo que se entiende en cada casoconcreto por ejemplo y categor¿a. Esta organizaci¿n del estado del arte permitedescubrir las similitudes y diferencias entre los diferentes problemas declasificaci¿n. Alternativamente, el uso de esta taxonom¿a permite detectar ycaracterizar ¿reas por explorar, las cuales podr¿an representar nuevos problemasque todav¿a no han sido estudiados en la literatura relacionada.La taxonom¿a propuesta establece un marco general que cubre los diferentesproblemas estudiados en esta tesis. Hasta cuatro problemas diferentes declasificaci¿n d¿bilmente supervisada han sido considerados. Todas nuestraspropuestas para abordarlos se basan en el aprendizaje de modelos de clasificaci¿nprobabilista, en concreto los clasificadores basados en redes Bayesianas(BNCs, por sus siglas en ingl¿s). Esta familia de clasificadores est¿ basadaen la s¿lida teor¿a matem¿tica de las redes Bayesianas y los modelos gr¿ficosprobabil¿sticos. Nuestras t¿cnicas para aprender este tipo de clasificadoresusando un conjunto de datos d¿bilmente supervisado se basan en una estrategiaiterativa conocida como EM (del ingl¿s, expectation-maximization).Una adaptaci¿n de esta estrategia cl¿sica para lidiar con la informaci¿n parcialde supervisi¿n disponible en cada problema estudiado est¿ en la base delas propuestas metodol¿gicas.Aparte de la taxonom¿a, esta tesis contiene otros cuatro trabajos de investigaci¿nnovedosos. Dos de ellos son contribuciones metolod¿gicas que resuelvensendos problemas de clasificaci¿n d¿bilmente supervisada: el aprendizajea partir de proporciones de etiquetas (LLP, por sus siglas en ingl¿s) y elaprendizaje con ejemplos etiquetados por m¿ltiples anotadores (CrL).El problema LLP se caracteriza por un conjunto de ejemplos, el cual noha podido ser categorizado, que se divide en subconjuntos. Para cada subconjunto,la informaci¿n de supervisi¿n de la que se dispone consiste en laproporci¿n de ejemplos que pertenece a cada una de las categor¿as (etiquetas)posibles. En nuestro trabajo, se considera el coste del aprendizaje en losdiferentes escenarios de este problema de clasificaci¿n. Hasta cuatro versionesde un m¿todo basado en la estrategia EM, los cuales tratan la incertidumbreen el etiquetado del problema de diversas maneras, son propuestos. Laestrategia EM permite, iterativamente, aprender un modelo a la vez que sedescubre la imputaci¿n id¿nea para las etiquetas de los ejemplos provistos.La primera versi¿n propuesta imputa la etiqueta m¿s probable (de acuerdocon el modelo actual) para cada ejemplo. Una segunda versi¿n, probabilista,asigna cada ejemplo a cada una de las posibles etiquetas con la probabilidadque el modelo devuelve para esa combinaci¿n de ejemplo y categor¿a. La terceraversi¿n est¿ dise¿ada para lidiar con los escenarios del problema m¿scostosos, realizando una imputaci¿n probabilista aproximada mediante unproceso MCMC (del ingl¿s Markov Chain Monte Carlo). La ¿ltima versi¿n,la cual se ha demostrado que es la m¿s eficiente y sin diferencias significativascon respecto a la versi¿n probabilista exacta (2), es una combinaci¿n de lasversiones 2 y 3 que s¿lo lleva a cabo la aproximaci¿n MCMC en caso de que elcoste de la imputaci¿n exacta supere cierto umbral. Este trabajo incluye unestudio experimental de la estabilidad del m¿todo ante escenarios del problemacada vez m¿s costosos, as¿ como una comparativa con dos propuestas delestado del arte, ante las cuales nuestro m¿todo muestra un comportamientocompetitivo.En la segunda contribuci¿n metodol¿gica estudiamos el problema CrL. Eneste caso, la etiqueta real de cada ejemplo es desconocida, pero se disponede las diferentes categor¿as propuestas por m¿ltiples anotadores de credi-bilidad cuestionable (los anotadores no siempre anotan la etiqueta real delejemplo en cuesti¿n). En este trabajo, estudiamos la robustez de dos estrategiasb¿sicas que ofrecen resultados competitivos en escenarios del problemabien informados (los anotadores, abundantes en n¿mero, son suficientementecompetentes). Centrado en escenarios poco informados, hemos propuestoun m¿todo que aprende clasificadores multidimensionales (a cada ejemplo lecorresponde una categor¿a simult¿neamente en diferentes clasificaciones). Unconjunto de pesos codifica la fiabilidad de cada anotador en cada dimensi¿n oglobalmente. Este conjunto de pesos es actualizado iterativamente usando laestrategia EM mediante una de estas dos posibles configuraciones: de acuerdoa la tasa de acierto del anotador considerando las etiquetas predichas porel modelo recientemente aprendido como las reales, o bien, usando la mediade las probabilidades asignadas por el modelo a cada par caso-categor¿asetiquetado por el anotador. Mediante una completa experimentaci¿n, la configuraci¿ndel m¿todo que obtiene mejores resultados ha sido identificada.Adem¿s, se ha testado la capacidad del m¿todo propuesto para recuperar lafiabilidad real de cada anotador en entornos simulados y se ha comparado endiferentes escenarios con las estrategias b¿sicas estudiadas.La ¿ltima parte de la tesis consiste en dos trabajos de investigaci¿n aplicados,los cuales nos han permitido testar nuestras propuestas metodol¿gicasen entornos reales. El primero de ellos, un estudio de la aplicaci¿n de t¿cnicasde clasificaci¿n d¿bilmente supervisada para mejorar la tasa de ¿xito entratamientos de reproducci¿n asistida, ha sido llevado a cabo en colaboraci¿ncon la Unidad de Reproducci¿n Asistida del Hospital Donostia (Gipuzkoa).En el segundo caso, un problema de clasificaci¿n de defectos de software extra¿dosde la plataforma oficial de seguimiento de errores/fallos del softwareCompendium ha sido abordado desde el punto de vista de un problema CrL.El problema de las tecnolog¿as de reproducci¿n asistida (ARTs, por susiglas en ingl¿s) se trata de un ejemplo claro de clasificaci¿n d¿bilmente supervisadadebido a la imposibilidad de monitorizar el proceso completo de lareproducci¿n asistida; concretamente, entre la transferencia del ¿vulo fecundadohasta su implantaci¿n e inicio del proceso de gestaci¿n. En realidad, latarea es doble. Por un lado, se afronta la tarea de identificar el tratamientoindividualizado para cada mujer (pareja) que maximiza la probabilidad deembarazo. Asimismo, tambi¿n se aborda la selecci¿n de los embriones m¿sprometedores (obtenidos tras extraer y fecundar los ¿vulos, y cultivarlos hastala formaci¿n de embriones). Ambas tareas adquieren un matiz diferente sise consideran antes o despu¿s de la transferencia de los embriones al ¿terode la paciente ¿es entonces cuando se pierde la capacidad de monitorizarel proceso¿ pues la informaci¿n de supervisi¿n disponible es diferente. As¿,cuatro aproximaciones diferentes han sido usadas para resolver parcialmentediferentes aristas de este problema. La primera, predecir la probabilidad deque un tratamiento acabe en embarazo, se ha modelado mediante un problemade clasificaci¿n supervisada cl¿sico. As¿, t¿cnicas est¿ndar de aprendizajede BNCs han podido ser utilizadas. La segunda aproximaci¿n, predecir la posibilidadde que un embri¿n se implante (e induzca un embarazo), se modelamediante el problema LLP. La metodolog¿a presentada en esta misma tesisha sido usada para abordar este problema. Las dos siguientes aproximacionesson equivalentes a las dos anteriores, pero evitan el proceso de implantaci¿nmodelando un evento del proceso ART previo a la transferencia. As¿, la tercerapredice si un tratamiento se ha configurado de una manera id¿nea paragestar un embarazo y se modela mediante un problema de aprendizaje conejemplos positivos y no-etiquetados (PU, por sus siglas en ingl¿s). Una metodolog¿adesarrollada previamente en nuestro grupo de investigaci¿n paralidiar con este tipo de problemas ha sido aplicada. Finalmente, la cuartaaproximaci¿n, que anticipa si un embri¿n se desarrollar¿ correctamente, hasido modelada mediante otro problema de clasificaci¿n d¿bilmente supervisada:el aprendizaje con proporciones de ejemplos positivos y no-etiquetados(PUP), un problema que combina caracter¿sticas de los problemas LLP yPU. Algunos resultados cl¿nicamente relevantes se han derivado del an¿lisisde un conjunto de datos recogido por la citada Unidad durante un per¿odode 18 meses. El rendimiento de los clasificadores aprendidos para predecirla viabilidad de un ciclo (tratamiento de ARTs) es prometedora. Se ha podidoconstatar experimentalmente que los datos referentes a la estimulaci¿ny otros factores del tratamiento son relevantes a la hora de predecir la implantaci¿nde un embri¿n. Sin embargo, el proceso de implantaci¿n est¿ lejosde ser completamente entendido. En consonancia, de los resultados obtenidostambi¿n se desprende que los datos recogidos para elegir los embriones atransferir determinan m¿s efectivamente el correcto desarrollo de los embrionesque su implantaci¿n en caso de ser transferido. De todas formas, el buendesarrollo del embri¿n es indiscutiblemente un requisito para que un embri¿ntransferido al ¿tero de una mujer se implante. Por ello, una ordenaci¿n m¿sprecisa de los embriones de acuerdo a su probabilidad de desarrollarse espresentada en este trabajo. Este ordenamiento podr¿a ser asimismo usado enun nuevo criterio de selecci¿n de embriones a transferir.Del campo de la ingenier¿a del software nos llega la segunda aplicaci¿npr¿ctica, el estudio de la cual constituye la quinta y ¿ltima contribuci¿n deesta tesis. Un conjunto de ejemplos de defectos del software Compendiumregistrados por los usuarios en su sistema de seguimiento de errores ha sidoobtenido y etiquetado por un grupo de anotadores. El etiquetado de este tipode problemas de ingenier¿a del software es t¿picamente una tarea subjetivaque implica numerosas y habituales contradicciones entre diferentes anotadores.Por lo tanto, esta aplicaci¿n ha sido modelada como un problema CrL conm¿ltiples clases (categor¿as) desbalanceadas (no todas aparecen con la mismafrecuencia) y abordado mediante una adaptaci¿n de la metodolog¿a propuestaen esta misma tesis para el problema CrL. ¿sta es una aproximaci¿n alproblema de clasificaci¿n de defectos novedosa en la literatura relacionada.Adem¿s, la metodolog¿a de aprendizaje propuesta anteriormente se ha combinadocon dos t¿cnicas ampliamente utilizadas por la comunidad que intentanlidiar con dos dificultades a¿adidas que caracterizan a esta aplicaci¿n real:por un lado, una estrategia que descompone en subproblemas binarios el problemaoriginal con m¿ltiples clases (conocida como weighted OvO) y, por elotro, una t¿cnica de muestreo que intenta mitigar los efectos del desbalanceode las clases (conocida como SMOTEBoost). Estas t¿cnicas han sido exitosamenteadaptadas al entorno CrL. Las diferentes estrategias consideradas hansido testadas en un completo conjunto de experimentos. Para poder valorarel rendimiento de los modelos aprendidos se implementa una de las estrategiasb¿sicas m¿s robustas, el voto mayoritario (MV, por sus siglas en ingl¿s).Esta estrategia asigna a cada ejemplo la clase mayoritariamente etiquetadapor el conjunto de anotadores, convirtiendo el problema CrL en un problemacl¿sico de clasificaci¿n supervisada para el cual se pueden usar metodolog¿asest¿ndar de aprendizaje. En general, se aprecia que las metodolog¿as propuestasson competitivas ante la estrategia MV. Cada estrategia cumple sufunci¿n y, de esta manera, se puede observar que el SMOTEBoost adaptadosacrifica en parte el rendimiento global (menor tasa de acierto) para mejorarel rendimiento al predecir las clases minoritarias. La metodolog¿a propuestapara el problema CrL es competitiva tambi¿n para problemas con m¿ltiplesclases, como puede apreciarse en el hecho de que los resultados del weightedOvO rara vez mejoran los de nuestra metodolog¿a por s¿ sola.