Por un análisis distante y profundoun corpus piloto de la poesía lírica castellana del Siglo de Oro

  1. Borja Navarro Colorado
Revista:
Revista de Poética Medieval

ISSN: 1137-8905

Año de publicación: 2019

Título del ejemplar: Los repertorios poéticos digitales: del Medievo a la interoperabilidad

Número: 33

Páginas: 51-76

Tipo: Artículo

DOI: 10.37536/RPM.2019.33.0.69109 DIALNET GOOGLE SCHOLAR

Otras publicaciones en: Revista de Poética Medieval

Resumen

En este trabajo se plantea la necesidad de combinar el análisis llamado «distante» (análisis panorámico de gran cantidad de texto literario) con el análisis profundo (análisis en detalle de diferentes aspectos lingüísticos o literarios). Para ello se propone la creación de amplios corpus literarios de referencia en los que, aprovechando los actuales avances en procesamiento del lenguaje natural, la información implícita del texto (tanto de tipo lingüístico como literario) esté marcada de manera explícita y formal. La propuesta se concreta en el diseño y desarrollo de un corpus piloto de la poesía lírica del Siglo de Oro que incluye poemas con diferentes modelos métrico-estróficos (sonetos, romances, liras, églogas, etc.) así como diversidad de autores. Actualmente consta de más de 52.000 versos anotados con información lingüística (palabras, lemas, categorías gramaticales y morfología) y literaria (tipo de poema o estrofa y métrica). Si bien la anotación general del corpus ha sido realizada de manera automática, un 10% de esa anotación (5069 versos) ha sido revisada, validada o, en su caso, corregida por expertos. Este 10%, en tanto que Gold Standard, es ya un primer paso tanto para el análisis distante y profundo de la poesía castellana como para el desarrollo de sistemas de procesamiento del lenguaje natural específicos para el texto literario y poético.

Referencias bibliográficas

  • Franco Moretti, La literatura vista desde lejos, Barcelona, Marbot ediciones, 2007
  • Matthew L. Jockers, Macroanalysis.Digital Media and Literary History, Illinois, University of Illinois Press, 2013
  • Borja Navarro Colorado, «Complementariedad de los Big Data y los estudios literarios», en #Nodos, ed. de Gustavo Ariel Schwartz y Víctor Bermúdez, Pamplona, Next Door Publishers, pp. 460-464
  • Borja Navarro Colorado, «On Poetic Topic Modeling: Extracting Themes and Motifs from a Corpus of Spanish Poetry», en Frontiers in Digital Humanities, 5:15 (2018). DOI: 10.3389/fdigh.2018.00015
  • Antonio García Berrio, «Retórica figural. Esquemas argumentativos en los sonetos de Garcilaso», en El centro en lo múltiple (selección de ensayos) II. El contenido de las formas (1985-2005), Barcelona, Anthropos, 2000, pp. 228-240
  • Christopher D. Manning y Hinri Schütze, Foundations of Statistical Natural Language Processing, Massachusetts, MIT Press, 1999
  • David M. Blei, «Probabilistic Topic Models», en Communications of the ACM, 55:4 (2012), pp. 77-84
  • Matthew L. Jockers y David Mimno, «Significant Themes in 19th-Century Literature», en Poetics, 41 (2013)
  • Christof Schöch, «Topic modeling genre: an exploration of french classical and enlightenment drama», en Digital Humanities Quarterly, 2017, DOI: 10.5281/zenodo.166356
  • T. Underwood, Distant Horizons. Digital evidence and literary change, University of Chicago Press, 2019
  • Christof Schöch, «Big? Smart? Clean? Messy? Data in the Humanities», en Journal of Digital Humanities, 22 (2013)
  • Antonio Rojas Castro. «La edición crítica digital y la codificación TEI. Preliminares para una nueva edición de las Soledades de Luis de Góngora», en Revista de Humanidades Digitales, 1 (2017), pp. 4-19
  • José Calvo Tello, Atlas de Datos, Würzburg, Universität Würzburg, 2016
  • Lou Burnard, «Metadata for corpus work», en Developing Linguistic Corpora: a Guide to Good Practice, ed. de Martin Wynne, Oxford, Oxbow Books, 2005, pp. 30-46
  • Alberto Blecua, Manual de crítica textual, Madrid, Castalia, 1983
  • Raquel López Sánchez y Borja Navarro Colorado, «Propuesta teórico y metodológica para el desarrollo de un corpus digital representativo del romancero nuevo», en Corpus y bases de datos para la investigación en literatura, ed. de Rebeca Lázaro Niso, Logroño, Fundación San Millán de la Cogolla, 2017
  • James Pustejovsky y Amber Stubbs, Natural Language Annotation for Machine Learning: A Guide to Corpus-Building for Applications, Sebastopol, O’Reilly, 2012
  • Steven Bird, Ewan Klein y Edward Loper, Natural language processing in Python, Sebastopol, O’Reilly, 2009
  • Daniel Jurafski y James H. Martin, Speech and Language Processing, New Jersey, Prentice Hall, 2008
  • Adam Hammond, Julian Brooke y Graeme Hirst, «A Tale of Two Cultures: Bringing Literary Analysis and Computational Linguistics Together», en Workshop on Computational Linguistics for Literature, Atlanta, 2013
  • Borja Navarro Colorado, María Ribes Lafoz y Noelia Sánchez, «Metrical Annotation of a Large Corpus of Spanish Sonnets: Representation, Scansion and Evaluation», en LREC 2016, Tenth International Conference on Language Resources and Evaluation Portoroz (Eslovenia), 2016 pp. 4360-4364
  • Borja Navarro Colorado, «A Metrical Scansion System for Fixed-Metre Spanish Poetry», en Digital Scholarship in the Humanities, 33:1 (2018), pp 112–127
  • Pablo Ruiz Fabo, Clara I Martínez Cantón, Thierry Poibeau y Elena González-Blanco, «Enjambment Detection in a Large Diachronic Corpus of Spanish Sonnets», en Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature, 2017, pp. 27-32
  • Lluis Padró y E. Stanilovsky, «FreeLing 3.0: Towards Wider Multilinguality», en Proceedings of the Language Resources and Evaluation Conference (LREC 2012), Istanbul, Turkey, 2012
  • Ekaterina Shutova, «Models of Metaphor in NLP», en Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, Uppsala (Suecia), 2010, pp. 688-697
  • Alice Deignan, Metaphor and Corpus Linguistics, Amsterdam, John Benjamins Publishing, 2005
  • George Lakoff y Mark Johnson, Metáforas de la vida cotidiana, Madrid, Cátedra, 2017
  • Vaibhav Kesarwani, Diana Inkpen, Stan Szpakowicz, Chris Tanasescu «Metaphor Detection in a Poetry Corpus», en Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature, Vancouver, 2017, pp. 1-9
  • José Manuel Blecua, Poesía de la Edad de Oro I. Renacimiento, Madrid, Castalia, 1984
  • José Manuel Blecua, Poesía de la Edad de Oro II. Barroco, Madrid, Castalia, 1984
  • María de los Ángeles Herrero, L’univers literari de les escriptores valencianes dels segles xvi-xvii, València, Institució Alfons el Magnànim, 2018
  • Borja Navarro Colorado, «Hacia un análisis distante del endecasílabo áureo: patrones métricos, frecuencias y evolución histórica», en Rhythmica. Revista Española de Métrica Comparada, 14 (2016), DOI: https://doi.org/10.5944/rhythmica.18459