Modelos de lenguaje jerárquicos basados en clases de phrasesformulación, aprendizaje y decodificación

  1. Justo Blanco, Raquel
Dirigida por:
  1. María Inés Torres Barañano Director/a

Universidad de defensa: Universidad del País Vasco - Euskal Herriko Unibertsitatea

Fecha de defensa: 20 de julio de 2009

Tribunal:
  1. Renato De Mori Presidente/a
  2. Javier Ferreiros López Secretario/a
  3. Emilio Sanchís Arnal Vocal
  4. José Miguel Benedí Ruiz Vocal
  5. Eduardo Lleida Solano Vocal
Departamento:
  1. Electricidad y Electrónica

Tipo: Tesis

Teseo: 278624 DIALNET lock_openTESEO editor

Resumen

El trabajo que se presenta en esta memoria se centra en el área del modelado de lenguaje estocástico, Un modelo de lenguaje estocástico intenta recoger las regularidades del lenguaje utilizando distribuciones de probabilidad de eventos lingüísticos, tales como la frecuencia de aparición de palabras en sentencias. Para poder estimar de forma robusta los parámetros de estos modelos se necesitan grandes cantidades de datos de entrenamiento que no se encuentran siempre disponibles. En este trabajo se propone un modelo jerárquico de dos niveles cada uno de los cuales considera una fuente diferente de conocimiento para abordar el problema de la dispersión de los datos. En el nivel superior se consideran las relaciones entre entidades de alto nivel de abstracción como clases estadísticas, lingüísticas, semánticas, etc. En el nivel inferior se consideran las relaciones entre palabras. La integración de ambos niveles se lleva a cabo mediante la obtención de clases constituidas por secuencias de palabras o phrases. En este contexto se definen formalmente diferentes aproximaciones y métodos de combinación de modelos. A lo largo de este trabajo, se ha estudiado principalmente el modelado de lenguaje en el marco del Reconocimiento Automático del Habla (RAH). Por lo tanto, se ha desarrollado una metodología para la integración de los modelos propuestos en la fase de decodificación de un sistema de RAH. Finalmente se ha explorado el uso de los modelos propouestos en otras áreas del Procesamiento de Lenguaje Natural.