Publicación y enriquecimiento semántico de datos abiertos en bibliotecas digitales
- Rafael C. Carrasco Jiménez Doktorvater
- Manuel Marco Such Doktorvater
Universität der Verteidigung: Universitat d'Alacant / Universidad de Alicante
Fecha de defensa: 02 von Juli von 2019
- Nieves R. Brisaboa Präsident/in
- Jesús Peral Cortés Sekretär
- José Ambrosio Toval Álvarez Vocal
Art: Dissertation
Zusammenfassung
Las bibliotecas han sido desde sus orígenes instrumentos para fomentar la difusión de información, permitiendo a los ciudadanos beneficiarse de un aprendizaje y una educación a lo largo de toda la vida. Desde la aparición de Internet y la revolución digital, su funcionamiento ha ido progresando hacia un universo conectado del conocimiento y la información, facilitando la creación de enlaces entre culturas separadas por fronteras geográficas y sociales. Tradicionalmente las bibliotecas se han servido del formato \gls{marc} para describir los registros bibliográficos en sus catálogos. MARC fue desarrollado por la LC durante la década de 1960, y estaba destinado a generar información bibliográfica que era consumida e interpretada por personas, donde las posibilidades de intercambiar registros eran limitadas y no existían catálogos en línea. En el año 2001, Tim Berners-Lee introdujo la Web Semántica como una evolución de la Web tradicional, que dotaba de estructura al contenido, permitiendo el procesamiento automático por parte de los ordenadores. La Web Semántica se basa en la idea de identificar cada concepto a través de una URI, permitiendo la agregación de nuevos conceptos y enlaces. El W3C proporciona un conjunto de tecnologías relacionadas con la Web Semántica que facilitan un marco común y su adopción. Este nuevo entorno ha generado un nuevo método de publicación de datos estructurados con licencia abierta e interconectados denominado datos abiertos y enlazados (LOD en inglés) que fomenta el intercambio de datos entre sistemas de información o interoperabilidad, y el enriquecimiento semántico. El concepto enlazado hace referencia al método con el que se pueden mostrar, recolectar y conectar datos a través de URIs en la Web. El objetivo del enriquecimiento semántico es la descripción de entidades a través de búsquedas en diferentes conjuntos de datos, almacenando la URI que identifica de forma unívoca o contextualiza las entidades. Este proceso se puede realizar de forma manual o automática para grandes colecciones de datos. La investigación por parte de grupos de trabajo relacionados con el patrimonio cultural ha dado lugar a numerosos estándares, en lo que respecta a vocabularios y ontologías. En este nuevo contexto, los estándares tradicionales han quedado relegados a un segundo plano, ya que no están orientados a las técnicas de búsqueda de recuperación de la información actuales y no explotan eficientemente las relaciones existentes entre los registros bibliográficos. Hoy en día la publicación y difusión del patrimonio cultural como LOD se ha convertido en una iniciativa global por parte de los organismos públicos y privados. Galerías, bibliotecas, archivos y museos ---conocidos como GLAMs en inglés--- de todo el mundo exploran nuevas formas para publicar sus datos y ofrecer nuevos interfaces que mejoren la experiencia de usuario. Sin embargo, la publicación de LOD no es una tarea sencilla y requiere unos conocimientos técnicos para el procesamiento de datos, la selección de vocabularios y ontologías, la ingestión, la consulta y el enriquecimiento semántico. Como consecuencia, muchas instituciones permanecen todavía ancladas a sus sistemas tradicionales, pensados para entornos locales y poco flexibles, ya sea por falta de conocimientos o falta de recursos económicos. En paralelo, nuevos estándares han aparecido para la catalogación como alternativa a los tradicionales. Por ejemplo, RDA es un nuevo código de catalogación para describir y dar acceso a recursos, diseñado para el mundo digital. RDA esta basado en el modelo conceptual FRBR, promovido por la IFLA, principal organismo internacional que representa los intereses de los usuarios, de los servicios bibliotecarios y de documentación. Otras iniciativas como CIDOC, originalmente orientadas a museos, han crecido en popularidad formando parte de numerosos proyectos de apertura de datos en instituciones museísticas y archivos. Recientemente, varias bases de datos estructuradas, abiertas y, en algunos casos, colaborativas se han publicado y puesto a disposición de la comunidad como por ejemplo DBpedia, Wikidata y YAGO. Estas iniciativas no se centran en un dominio específico, sino que cubren todos los campos de conocimiento. Los GLAMs están teniendo un papel destacado en este aspecto, ya que tradicionalmente han albergado colecciones digitales y son un referente en cuanto al uso de metadatos para la descripción de objetos. Sin embargo, la conexión entre estas nuevas bases de datos y las instituciones de patrimonio cultural para favorecer el enriquecimiento semántico no es una tarea sencilla, ya sea por la envergadura de las bases de datos o por la falta de formación. En este sentido, el desarrollo de aplicaciones para la extracción y reconocimiento automático de entidades nombradas en un texto se ha convertido en un elemento fundamental en el contexto del patrimonio cultural. Como resultado numerosas implementaciones y entornos de trabajo han aparecido dentro del marco del procesamiento del lenguaje natural para facilitar la automatización del reconocimiento de entidades. La finalidad de esta tesis es demostrar que a través del enriquecimiento semántico de manera automática es posible mejorar la interoperabilidad de los datos en el dominio de las bibliotecas digitales. Las bibliotecas albergan catálogos con numerosos registros bibliográficos y al mismo tiempo cuentan con recursos económicos y personales limitados. Resulta fundamental por tanto proporcionar herramientas que automaticen la publicación y el enriquecimiento semántico de datos abiertos, solucionando los posibles problemas de ambigüedad que se puedan producir. Sin embargo, tal y como se expone en el estado actual de las bibliotecas digitales, resulta complejo ofrecer una solución genérica para todas las bibliotecas debido a que cada una de ellas ha tomado unas decisiones particulares a la hora de publicar sus datos como LOD con respecto a los vocabularios y repositorios utilizados. Además, las soluciones existentes en el campo de la identificación de fuentes para el enlazado de conjuntos de datos estructurados presentan carencias que se pretenden solventar en esta tesis doctoral, como el caso concreto de la ambigüedad, y la creación de contextos a partir de bases de datos estructuradas y colaborativas. Desarrollo teórico Esta tesis presenta los pasos seguidos para publicar y enriquecer semánticamente los datos abiertos de la BVMC e incluye las siguientes aportaciones: Construcción de un entorno de publicación y enriquecimiento de datos abiertos que permite comprender mejor el contexto, los problemas y necesidades organizacionales, reduciendo las posibilidades de fracaso de este tipo de proyectos. Establecimiento de una metodología que sistematiza y facilita el descubrimiento e identificación de entidades en un dominio de bibliotecas digitales. Conclusión Con el objetivo de enriquecer ambos repositorios, Wikidata ha reutilizado los datos abiertos de la BVMC enlazando a autores y obras, creando para ello las propiedades necesarias para almacenar los identificadores que enlazan a la BVMC. Este hecho ha favorecido a la biblioteca incrementando su visibilidad en los motores de búsqueda y aumentado el tráfico. Por ejemplo, los autores que no disponen un apartado en la web tradicional como Hernán Cortés y también los autores menos conocidos como, por ejemplo, Alonso Carrió de la Vandera y José Cecilio del Valle, han incrementado en una media de 200 sus visitas diarias. El interfaz propuesto para navegar a través de las ubicaciones geográficas permite el acceso a los catálogos de forma innovadora y explota relaciones semánticas extraídas de información textual. Este interfaz es único en su contexto ya que el modelo sobre el que se basa ha sido definido por el autor de esta tesis. Como resultado de este trabajo, la BVMC ha sido una de las tres primeras iniciativas en ser federadas en Wikidata junto a la BNE y Europeana.