Learning and inference in phrase recognitiona filtering-ranking architecture using perceptron
- Carreras, Xavier
- Lluís Márquez Villodre Doktorvater/Doktormutter
Universität der Verteidigung: Universitat Politècnica de Catalunya (UPC)
Fecha de defensa: 28 von Oktober von 2005
- Horacio Rodríguez Hontoria Präsident/in
- Jordi Turmo Sekretär/in
- Antal Van den Bosch Vocal
- Iñaki Alegría Loinaz Vocal
- Ferrán Pla Vocal
Art: Dissertation
Zusammenfassung
En aquesta tesi desenvolupem una aproximació basada en aprenentatge automàtic per al problema general de reconèixer estructures de segments en una oració, Aquest problema general s'instancia en diverses tasques de Processament del Llenguatge Natural, tals com Anàlisi Sintàctica Superficial, Identificació de Clàusules, Extracció de Noms Propis o Etiquetatge de Rols Semàntics. En totes elles l'objectiu és segmentar una oració en segments etiquetats, que formen una sequència o una jerarquia de segments. Estudiem aquests problemes sota un formalisme general per al reconeixement d'estructures de segments. El mètode combina tècniques d'aprenentatge i inferència, i consisteix en descomposar el problema general de reconèixer una estructura complexe en un cert nombre de decisions intermèdies o "locals", cadascuna de les quals reconeix una peça de l'estructura. Aquestes decisions locals es resolen amb aprenentatge supervisat, entrenant funcions que en prediuen els valors de sortida. Per a reconèixer l'estructura de segments d'una oració, un procés d'inferència combina els resultats de les decisons locals aplicades a diferents parts de l'oració. En una arquitectura per reconèixer estructures, dues qüestions són d'especial interés: eficiència i aprendibilitat. Descomposant el problema general en problemes d'ordre menor s'aconsegueixen les dues. D'una banda, el tipus de decisions locals que es tracten són suficientment simples com per ser apreses acuradament. D'altra banda, la representació que s'obté al descomposar una estructura permet que els processos involucrats en el reconeixement siguin eficients. En aquest context, discutim dues opcions de modelització, relatives a la granularitat en la qual es descomposa el problema: per paraules, o per segments. Les descomposicions a nivell de paraula, extensament usades en tasques d'anàlisi superficial, redueixen el problema general a un etiquetatge seqüencial de l'