Modelos de lenguaje jerárquicos basados en clases de phrasesformulación, aprendizaje y decodificación

  1. Justo Blanco, Raquel
Supervised by:
  1. María Inés Torres Barañano Director

Defence university: Universidad del País Vasco - Euskal Herriko Unibertsitatea

Fecha de defensa: 20 July 2009

Committee:
  1. Renato De Mori Chair
  2. Javier Ferreiros López Secretary
  3. Emilio Sanchís Arnal Committee member
  4. José Miguel Benedí Ruiz Committee member
  5. Eduardo Lleida Solano Committee member
Department:
  1. Electricidad y Electrónica

Type: Thesis

Teseo: 278624 DIALNET lock_openTESEO editor

Abstract

El trabajo que se presenta en esta memoria se centra en el área del modelado de lenguaje estocástico, Un modelo de lenguaje estocástico intenta recoger las regularidades del lenguaje utilizando distribuciones de probabilidad de eventos lingüísticos, tales como la frecuencia de aparición de palabras en sentencias. Para poder estimar de forma robusta los parámetros de estos modelos se necesitan grandes cantidades de datos de entrenamiento que no se encuentran siempre disponibles. En este trabajo se propone un modelo jerárquico de dos niveles cada uno de los cuales considera una fuente diferente de conocimiento para abordar el problema de la dispersión de los datos. En el nivel superior se consideran las relaciones entre entidades de alto nivel de abstracción como clases estadísticas, lingüísticas, semánticas, etc. En el nivel inferior se consideran las relaciones entre palabras. La integración de ambos niveles se lleva a cabo mediante la obtención de clases constituidas por secuencias de palabras o phrases. En este contexto se definen formalmente diferentes aproximaciones y métodos de combinación de modelos. A lo largo de este trabajo, se ha estudiado principalmente el modelado de lenguaje en el marco del Reconocimiento Automático del Habla (RAH). Por lo tanto, se ha desarrollado una metodología para la integración de los modelos propuestos en la fase de decodificación de un sistema de RAH. Finalmente se ha explorado el uso de los modelos propouestos en otras áreas del Procesamiento de Lenguaje Natural.