Generación automática de resúmenes de texto para el acceso a la información
- MAÑA LÓPEZ, MANUEL J.
- Manuel de Buenaga Rodríguez Director/a
Universitat de defensa: Universidade de Vigo
Fecha de defensa: 28 de de novembre de 2003
- Antonio Ramón Vaquero Sánchez President/a
- Fernando Díaz Gómez Secretari/ària
- Horacio Rodríguez Hontoria Vocal
- Manuel Palomar Sanz Vocal
- Julio Gonzalo Arroyo Vocal
Tipus: Tesi
Resum
En esta memoria de tesis se proponen nuevas formas de generación, aplicación y evaluación de resúmenes indicativos, abordando tanto el ámbito de los resúmenes monoducumento como el de los multidocumento. La finalidad de estos resúmenes es la de convertirse en una ayuda eficaz para los usuarios de sistemas de acceso a la información. El marco de aplicación, en el que los documentos pueden ser de muy distintas características, requiere un sistema robusto, moderadamente independiente del género, dominio, estructura y escala de los textos. La utilización de técnicas de extracción de frases garantiza esa independencia. Para la generación de resúmenes monodocumento se han utilizado métricas estadísticas y posicionales. La personalización del resumen se basa en la consulta de usuario y la expansión de la misma utilizando WordNet. Los resúmenes generados de esta forma han sido evaluados en un marco de recuperación /ah. En la evaluación se utilizaron recursos disponibles y muy difundidos en el ámbito de la RI: las colecciones TREC. La ventaja que aporta esta marco experimental es que se pueden llevar a cabo evaluaciones sistemáticas y comparables sobre grandes colecciones de documentos. Los resultados de esta evaluación muestran la efectividad de los resúmenes adaptados a la consulta. Respecto a los resúmenes multidocumento, se propone su aplicación a un entorno de RI con agrupamiento de los resultados de la búsqueda. La información común y los aspectos particulares que se observan en los grupos de documentos relacionados semánticamente se presentan por separado en dos resúmenes. Los resúmenes de los documentos se centran en las diferencias relevantes que caracterizan a cada uno de ellos respecto a la información común proporcionada por el grupo al que pertenecen. El sistema segmenta los textos, tratando de identificar los temas tratados en cada documento y de averiguar el grado de cohesión entre los m