Aprendizaje de gramáticas probabilísticas a partir de árboles sintácticos

  1. Verdú Más, José Luis
Revista:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Año de publicación: 2003

Número: 31

Páginas: 175-182

Tipo: Artículo

Otras publicaciones en: Procesamiento del lenguaje natural

Resumen

En este artículo se analizan varios tipos de gramáticas independientes del contexto probabilísticas obtenidas a partir de corpus etiquetados sintácticamente (treebanks). Estas gramáticas se utilizan para la desambiguación léxica y sintáctica de frases procedentes del lenguaje natural. Los modelos que aquí se estudian son los siguientes; (1) uno que simplemente extrae las reglas contenidas en el corpus y cuenta el número de ocurrencias de cada una; (2) un modelo que además almacena información acerca de la categoría sintáctica del nodo padre, y (3) un modelo que extrae y estima las probabilidades de las reglas almacenando información acerca de la categoría sintáctica de los hijos. Este último permite análisis sintácticos más eficientes, disminuye considerablemente la perplejidad de los conjuntos de tests y supone formalmente una generalización del concepto de a-gramas al caso de árboles.