Positive unlabelled learning with applications in computational biology
- José Antonio Lozano Alonso Director/a
- Pedro Larrañaga Múgica Director/a
Universidad de defensa: Universidad del País Vasco - Euskal Herriko Unibertsitatea
Fecha de defensa: 10 de noviembre de 2008
- Luis Miguel de Campos Ibáñez Presidente/a
- Iñaki Inza Cano Secretario/a
- Núria López Bigas Vocal
- Jesús Salvador Aguilar-Ruiz Vocal
- Yvan Saeys Vocal
Tipo: Tesis
Resumen
Con el aumento de la cantidad de información almacenada, el uso de técnicas de minería de datos se han convertido en una pieza clave en muchos campos. Los algoritmos de inducción de clasificadores son herramientas muy útiles ya que permiten condensar la información contenida en las bases de datos en clasificadores que pueden luego ser usados para realizar predicciones sobre nuevos datos. Una de las aplicaciones de los algoritmos de inducción de clasificadores es la recuperación de información, que puede ser definida como la recuperación de los objetos de un tipo determinado (aquellos en los cuales estamos interesados, normalmente llamados 'positivos') de grandes conjuntos de objetos no etiquetados (es decir, objetos que no sabemos a que clase pertenecen). Las aproximaciones clásicas implican tener ejemplos positivos (ejemplos del tipo de objetos que queremos recuperar) y ejemplos negativos (ejemplos de objetos diferentes a los que queremos recuperar), pero no siempre hay disponibles ejemplos negativos. Por este motivo, durante los últimos años se han venido desarrollando algoritmos que permitan aprender clasificadores binarios en ausencia de ejemplos negativos. El tema de esta tesis es el aprendizaje a partir de ejemplos positivos y no etiquetados. Las contribuciones de esta tesis abarcan la inducción de modelos de clasificación, el promediado de clasificadores, la selección de variables y la evaluación de clasificadores. En la parte aplicada, algunos de los algoritmos propuestos son utilizados para resolver dos problemas del área de la biología, la identificación de genes asociados a enfermedad y genes involucrados en cáncer.