Self-supervised learning for image-to-image translation in the small data regime

ÁLVAREZ GILA, AITOR

Self-supervised learning for image-to-image translation in the small data regime

ÁLVAREZ GILA, AITOR

Dirigida por:

Estíbaliz Garrote Contreras Director/a
Joost van de Weijer Codirector/a

Universidad de defensa: Universitat Autònoma de Barcelona

Fecha de defensa: 19 de julio de 2022

Tribunal:

Rafael García Campos Presidente/a
Maria Vanrell Martorell Secretario/a
Marc Masana Castrillo Vocal

Tipo: Tesis

Teseo: 821750 DIALNET TDX editor

Resumen

La irrupción masiva de las Redes Neuronales Convolucionales (CNN) en visión artificial a partir de 2012 condujo a un dominio del paradigma consistente en el aprendizaje extremo-a-extremo totalmente supervisado sobre bases de datos de imágenes de gran escala. Esta aproximación demostró ser extremadamente útil para la resolución de innumerables tareas de visión artificial con un rendimiento predictivo sin precedentes, a costa de requerir grandes cantidades de datos anotados y de recursos de computación, y de tener que descartar nuestro conocimiento previo sobre la tarea. Pese a que los métodos sencillos de aprendizaje por transferencia, tales como el fine-tuning, han logrado un impacto notable, su éxito se ve mermado cuando la cantidad de datos anotados en el dominio de destino es reducida. Asimismo, el carácter no estático de las fuentes de generación de datos deriva, en desplazamientos de la distribución de los datos que dan lugar a una degradación del rendimiento. En consecuencia, existe una demanda de métodos que puedan explotar tanto nuestro conocimiento a priori como fuentes de información adicionales a las anotaciones manuales, de manera que puedan adaptarse a nuevos dominios que constituyen un régimen de escasez de datos anotados. La presente tesis aborda dicho escenario en tres problemas de aprendizaje para mapeo imagen-a-imagen. En ella se hacen contribuciones que se apoyan en nuestro conocimiento previo sobre diferentes elementos del proceso de formación de imágenes: presentamos primero un marco de trabajo eficiente (en cuanto a uso de datos) para la detección de borrosidad, en base a un modelo capaz de producir degradaciones locales sintéticas realistas. La propuesta se compone de tres implementaciones (una auto-supervisada, una de supervisión débil, y una semi-supervisada), y supera a alternativas totalmente supervisadas. A continuación, empleamos nuestro conocimiento del dominio de la formación de imágenes en color para recopilar así parejas de imagenes de entrada y objetivo para la tarea de reconstrucción de imagen hiperespectral. Acometemos este problema haciendo uso de una CNN que nos permite explotar el contexto espacial y lograr resultados que suponen una avance en el estado de la técnica, dado un conjunto de imágenes hiperespectrales limitado. En nuestra siguiente contribución, presentamos la tarea semi-supervisada de segmentación semántica de vista cruzada con cero-pares: consideramos el caso de reubicación de la cámara en un sistema de segmentación semántica monocular ya implantado. Asumiendo que podemos obtener un conjunto adicional de pares de imágenes sincronizadas pero no anotadas de nuevas escenas desde ambas ubicaciones de cámara, presentamos ZPCVNet, un modelo que posibilita la generación de predicciones semánticas densas bajo ambas referencias. La inexistencia de bases de datos adecuadas para poder desarrollar este planteamiento nos condujo a la creación de MVMO, una base de datos de gran escala de imágenes Multi-Vista y Multi-Objeto, renderizadas mediante path tracing, y con anotaciones para segmentación semántica para cada vista. Esperamos que MVMO estimule futuras investigaciones en las áreas de la segmentación semántica multi-vista y de vista cruzada. Por último, en un ejercicio de investigación aplicada de utilidad directa en el contexto de monitorización del proceso en una planta de acería con horno eléctrico de arco (EAF), consideramos el problema de estimación conjunta de la temperatura y la emisividad espectral para muestras emisivas calientes distantes. Diseñamos nuestro propio dispositivo, el cual incorpora tres espectrómetros puntuales y es capaz de registrar la señal de radiancia procedente de un punto de 8cm ubicado a 20m de distancia. Asimismo, formulamos un modelo de transporte radiativo riguroso, para así resolver este problema inverso sin requerir dato anotado alguno, empleando una aproximación bayesiana apoyada en un modelo de programación probabilística que ofrece estimaciones de la distribución posterior de las variables aleatorias definidas consistentes con las mediciones de laboratorio.