Aportaciones al reconocimiento de locutores para su integración en la inteligencia ambiental

ZAMALLOA AQUIZU, MAIDER

Aportaciones al reconocimiento de locutores para su integración en la inteligencia ambiental

ZAMALLOA AQUIZU, MAIDER

Dirigida por:

Luis Javier Rodríguez Fuentes Director/a
Germán Bordel García Director/a

Universidad de defensa: Universidad del País Vasco - Euskal Herriko Unibertsitatea

Fecha de defensa: 21 de septiembre de 2010

Tribunal:

Eduardo Lleida Solano Presidente/a
Amparo Varona Fernández Secretario/a
Daniel Ramos Castro Vocal
Carmen García Mateo Vocal
Alfonso Ortega Giménez Vocal

Departamento:

Electricidad y Electrónica

Tipo: Tesis

Teseo: 300506 DIALNET TESEO editor

Resumen

La tesis aborda aspectos científico-tecnológicos del reconocimiento de personas mediante la voz y su aplicación en tareas de verificación, identificación y seguimiento. El estudio está motivado principalmente por el interés en la adecuación de este tipo de sistemas a entornos de inteligencia ambiental (AmI), entornos que disponen de dispositivos electrónicos (de capacidad computacional limitada) que permiten detectar la presencia de usuarios y adaptarse a sus necesidades de forma transparente. El primer aspecto abordado tiene como objetivo ahorrar esfuerzo computacional con una baja degradación o incluso una mejora del rendimiento del sistema. Para ello se han estudiado diferentes metodologías de reducción de dimensionalidad de la representación acústica de las señales. Como aportación a las metodologías básicas de modelado del locutor, se ha propuesto una nueva aproximación, denominada modelo superficial de fuente, que se estima a partir de la propia señal a evaluar y trata de representar la fuente de la señal con objeto de mejorar la robustez de los sistemas ante señales con fuentes no modeladas. Por otro lado, se ha propuesto y evaluado un sistema de seguimiento de locutores continuo, de baja latencia, para su aplicación en un hogar inteligente. El sistema propuesto sigue un algoritmo muy sencillo: la segmentación y la detección de la señal de entrada se realizan de forma conjunta mediante la definición de segmentos de longitud fija, y los locutores objetivo se modelan mediante mezclas de gaussianas estimadas mediante adaptación bayesiana de un modelo acústico universal. Desde un punto de vista práctico, se ha considerado el desarrollo de aplicaciones según la especificación SOA (Service Oriented Architecture), estándar que define un marco muy apropiado para proporcionar movilidad e interoperabilidad a las aplicaciones. Se ha desarrollado una aplicación de seguimiento de locutores, denominada AmISpeaker, bajo SOA, que implementa el sistema continuo propuesto. Por último, la tesis ha requerido el estudio y desarrollo de las infraestructuras necesarias para la evaluación de sistemas de identificación, verificación y seguimiento de locutores. Entre ellas, tienen especial importancia la base de datos AMI (utilizada para evaluar los sistemas de seguimiento del locutor) y especialmente las bases de datos ligadas a las campañas de evaluación de sistemas de reconocimiento de locutores organizadas por el NIST desde 1996. El estudio realizado sobre los conjuntos experimentales del NIST ha permitido la publicación de resultados homologables a los de otros grupos de investigación nacionales e internacionales, e incluso participar en la campaña de evaluación organizada por el NIST en 2008.