Estimación de gramáticas incontextuales estocásticas y su aplicación en un modelo de lenguaje híbrido

  1. LINARES OSPINA DIEGO LUIS
Zuzendaria:
  1. José Miguel Benedí Ruiz Zuzendaria
  2. Joan Andreu Sánchez Peiró Zuzendarikidea

Defentsa unibertsitatea: Universitat Politècnica de València

Fecha de defensa: 2003(e)ko abendua-(a)k 19

Epaimahaia:
  1. Francisco Casacuberta Nolla Presidentea
  2. Ferrán Pla Idazkaria
  3. Andrés Marzal Varó Kidea
  4. María Inés Torres Barañano Kidea
  5. Jorge Calera Rubio Kidea

Mota: Tesia

Teseo: 105634 DIALNET

Garapen Iraunkorreko Helburuak

Laburpena

Esta tesis se centra en el estudio de las Gramáticas Incontextuales Estocásticas (GIE) generales. Pricipalmente se centra en los problemas de la estimación a partir de un corpus y de su integración como modelo de lenguaje en tareas reales. En lo que se refiere a la estimación, se unifica en un solo marco todos los algoritmos de estimación para las GIE en formato general. Para ello se utiliza un conjunto de derivaciones que al ser restringido, utilizando información estadística y estructural de la muestra, permite definir tanto los algoritmos clásicos de estimación como algunos que proponemos. Con respecto a la integración de las GIE en tareas reales, se utiliza un modelo de lenguaje híbrido. Este modelo se define como una combinación lineal de un modelo de n-gramas basado en palabras que se utiliza para capturar las relaciones locales entre palabras; y una gramática estocástica de categorías junto con una distribución de palabras en categorías, que se utiliza para representar las relaciones a largo término entre estas categorías. Igualmente se describe la manera como se estiman e integran todos estos modelo, de manera que el modelo de lenguaje híbrido sea útil en tareas reales con grandes vocabularios. Finalmente, se han realizado experimentos de evaluación tanto de los modelos estimados como del modelo de lenguaje híbrido definido a partir de éllos. Estos experimentos se han realizado principalmente con el corpus de "Upenn Trebank". Los resultados obtenidos se han medido en términos de la perplejidad de un conjunto de test y la tasa de error por palabra. Estos resultados se han comparado con toros modelos propuestos por otros autores.