Uso de la similitud semántica para la recuperación de información geoespacial
- Machado García, Neili
- Andrés Montoyo Guijarro Director
Universidad de defensa: Universitat d'Alacant / Universidad de Alicante
Fecha de defensa: 22 de enero de 2015
- Rafael Muñoz Guillena Presidente
- Yoan Gutiérrez Vázquez Secretario
- Alexander Sánchez Díaz Vocal
Tipo: Tesis
Resumen
La Web Semántica, (Berners-Lee et al., 2001) constituye un espacio distribuido y heterogéneo. En este espacio compartir y reutilizar información se convierte en un tema de gran importancia ya que los usuarios requieren acceder a la información recopilada para satisfacer sus propósitos. El principio fundamental de la Web Semántica es la idea de contar con datos definidos y vinculados de tal manera que se puede utilizar para la detección más eficaz, la automatización, la integración y la reutilización a través de diversas aplicaciones (Fensel et al., 2002). Las aplicaciones sobre la Web Semántica pueden acceder a diversas fuentes de datos para recuperar la información pertinente, y luego unirlos para presentar los resultados coherentes y precisos para los usuarios de las aplicaciones. La heterogeneidad en los datos almacenados en los sistemas de información constituye una de las principales dificultades dentro de este campo y por tanto, un área de investigación creciente dentro de diferentes dominios de aplicación. (Buccella et al., 2009) En el dominio de la información geográfica el desarrollo de tecnologías para capturar información sobre la Tierra y el incremento en la distribución de los Sistemas de Información Geográfica (SIG) en la Web ha generado el almacenamiento de gran cantidad de información geoespacial. La razón fundamental para utilizar un SIG es la gestión de información espacial. Lo más característico de un SIG es su capacidad de generar nueva información a partir de un conjunto previo de datos mediante su manipulación y reelaboración. El sistema permite separar la información en diferentes capas temáticas y las almacena independientemente, permitiendo trabajar con ellas y facilitando al profesional la posibilidad de relacionar la información existente a través de la topología de los objetos, con el fin de generar otra nueva en algunas situaciones. Otra característica importante de los SIG es que están dirigidos a especialistas con conocimiento en este tipo de información. Como un intento de llevar la Web Semántica al dominio geográfico y lograr representaciones del conocimiento geográfico en estructuras semánticas más fáciles de manipular por cualquier tipo de usuario surge la Web Semántica Geoespacial. Según (Garea and Gil, 2007) más del 80% de la información que se encuentra en la Web se considera información geográfica, además, dentro de los textos u otro tipo de información también se incluyen referencias geográfica (por ejemplo, en la noticias generalmente se hace mención al lugar donde ocurre el evento). El tener en cuentas las referencias geográficas proporciona un valor añadido a los sistemas de recuperación de información (RI) clásicos. La importancia de las referencias geográficas reside en las características especiales que tienen debido a su naturaleza espacial. Pero la complejidad y diversidad de la información geográfica (Smith and Mark, 1998), formada a través de las asociaciones cognitivas y las referencias espacio-temporales, impone el desarrollo de métodos específicos para las necesidades de la disciplina geográfica (Rodríguez, 2000). El campo de la RI y el campo de los SIG han sido dos áreas de investigación que han avanzado de forma independiente a lo largo de los años. Por un lado, las estructuras de indexación y técnicas propuestas desde el campo de la RI no tienen en cuenta la naturaleza espacial de las referencias geográficas. Por otro lado, las estructuras de indexación espacial no son directamente aplicables en sistemas de RI. Sin embargo, los usuarios demandan cada vez más servicios que les permitan situar la información en su contexto espacial e incluso acceder a esa información mediante consultas que tengan en cuenta las características especiales de la información espacial. Esta demanda ha provocado que muchos investigadores de cada área empiecen a prestar atención a la otra, a esto se le suman las nuevas tendencias de la Web Semántica, dando lugar a un nuevo campo de investigación denominado Recuperación Semántica de Información Geográfica. El objetivo de este nuevo campo es ¿proponer arquitecturas de sistemas, estructuras de indexación y otros componentes que permitan desarrollar sistemas mediante los cuales los usuarios puedan recuperar y compartir información relevante tanto temática como geográficamente¿ (Delgado and Capote, 2009). Pero la información geográfica tiene unas características especiales que determinan una serie de diferencias entre un SIG y un sistema de información tradicional. Dentro de las características particulares que tiene la información geográfica se encuentran las relaciones espaciales, éstas establecen la ubicación en el espacio de algún objeto geográfico del mundo real con respecto a otro. Describen la configuración geoespacial de los objetos modeladas a través de regiones, líneas y puntos. Las relaciones espaciales se basan en conceptos matemáticos. Basado en sus diferentes propiedades matemática, la literatura ((Egenhofer and Mark, 1995); (Mark, 1999); (Papadias and Kavouras, 1994) identifica tres tipos de relaciones espaciales: las relaciones topológicas, de distancia y de dirección. Las diferencias entre un SIG y un sistema de RI se reflejan en todos los niveles del sistema desde el almacenamiento de datos, donde se necesitan nuevos tipos de datos y estructuras de acceso a ellos, hasta la presentación de información al usuario, donde se necesitan opciones de visualización mucho más avanzadas que en los sistemas tradicionales. Egenhofer destaca la necesidad de una forma simple canónica para plantear las consultas de los datos geoespaciales y los métodos para evaluar la semántica de las fuentes de este tipo de datos para ajustarlos a las consultas geoespaciales (Egenhofer, 2002). Estos métodos que propone Egenhofer requieren que los sistemas cuenten con representaciones especiales de los datos geográficos, con estructuras eficientes para el acceso a ellas, con algoritmos específicos de consulta y con interfaces de usuario adaptadas para permitir la interacción con ellas. Con respecto al acceso a la información Fonseca (Fonseca, 2001) propone utilizar como estructura para el desarrollo de aplicaciones geográficas a las ontologías para la integración de datos espaciales. Esta propuesta Fecha de actualización 22/07/2011 fundamenta la integración de ontologías con enlaces a fuentes de información geográfica por medio de su significado. La recuperación por conceptos permite además de que los sistemas puedan identificar mejor los datos, procesarlos en consecuencia y realizar análisis más eficientes con independencia del especialista, lo que constituiría una gran ventaja porque la información no solo será comprendida por las personas sino también por las maquinas incidiendo favorablemente sobre la reutilización del conocimiento, haciendo al sistema más potente y eficaz. Las ontologías se presentan precisamente como una alternativa potente para resolver muchos de estos problemas de heterogeneidad de las fuentes de información, permitiendo además desambiguar los términos de búsquedas porque en ellas el conocimiento se especifica a través de conceptos (Montoyo, 2008). Prueba de ello es la tendencia que se manifiesta en numerosas investigaciones en el área del procesamiento semántico de la información geográfica tales como: (Aparício et al., 2005), (Fonseca et al., 2002a), (Aparício et al., 2006), (Kavouras and Kokla, 2001) (Giger and Najar, 2003), (Gómez-Pérez, 2002), (Dolbear et al., 2005), (Rodríguez and Egenhofer, 2003), (Doan and Halevy, 2004), (Chen et al., 2009) y (Schwering and Raubal, 2005) que abordan esta problemática. Estas soluciones se basan principalmente en el uso de ontologías como mecanismo de representación del conocimiento. Los conceptos en las ontologías están vinculados y regidos mediante relaciones y axiomas que enriquecen el contexto que conceptualizan. La definición más consolidada de ontología es la propuesta por Gruber (1993) y extendida por Studer et. al (1998) que la describen como ¿una especificación explícita y formal sobre una conceptualización compartida¿. La interpretación de esta definición es que las ontologías definen conceptos y relaciones de algún dominio, de forma compartida y consensuada; y que esta conceptualización debe ser representada de una manera formal, legible y utilizable por los ordenadores. En (Vilches et al., 2006) podemos ver otras características de las ontologías como la posibilidad de interactuar semánticamente entre ellas, lo cual constituye un aspecto de avance, ya que posibilita obtener información desde otras fuentes. Esto significa que pudiera obtenerse datos desde otros sistemas incluso independientemente del lenguaje que tengan, dado que las consultas serian interpretables en un ámbito donde la información contenida en una ontología estaría en correspondencia con otra representación tal vez de la misma información, lo que es muy útil en el campo de la información geográfica. En (Rodríguez et al., 2006) se señalan 3 ventajas muy significativas sobre las otras formas de organización de la componte semántica. 1) Reducen la confusión semántica. Disminuye la ambigüedad terminológica al tener en cuenta sinónimos y polisemias, repercutiendo sobre la comunicación. Un sencillo ejemplo de la reducción de términos usando sinónimos con el uso de tesauros lo constituye la consulta: Obtenga los hospitales próximos al municipio San José. Aquí próximo nos indica cercano, inmediato, contiguo. Con cualquiera de estas palabras que se hubiese formulado la pregunta el sistema debiera ser capaz de identificar qué es lo mismo y responder igual. 2) Permite la posibilidad de reutilizar el conocimiento. Esta ventaja es la referida a la interacción entre distintas ontologías del dominio geográfico, ya que resultado del propio desarrollo de ontologías hay diversas formas de conceptualizar una misma realidad. 3) La traducción e intersección semántica a través de comparaciones utilizados para describir correspondencias entre fenómenos (ej. río, river, rivière y fleuve) y entre diferentes ontologías (ej. ontología de fenómenos hidrográficos y ontología de las ciudades). Las ontologías han sido analizadas en la Geociencia como un procedimiento de estandarización que facilita la comunicación entre diferentes fuentes de información (Chandrasekaran et al., 1999), (Smith, 1999), (Fonseca et al., 2002b). En la integración de las fuentes de información distribuidas la ambigüedad en la interpretación de los conceptos, también conocida como heterogeneidad semántica, constituye uno de los principales obstáculos para la realización de este proceso. La heterogeneidad generalmente se reduce en dos pasos: (i) a través de la comparación de los conceptos para determinar la alineación y (ii) ejecutando la alineación de acuerdo a las necesidades de la aplicación (ej. integración de esquemas, integración de datos, preguntas-respuestas) (Gal and Shvaiko, 2010). Un enfoque de integración de datos consiste en la alineación de los conceptos que describen los datos en las aplicaciones con una ontología global. Una vez establecida la alineación los usuarios pueden consultar cientos de fuentes de información a través de una sola consulta que oculta la heterogeneidad subyacente. Una propuesta para crear una ontología común es crear una base de conocimiento en términos de una ontología global e independiente del dominio. Un ejemplo de esto lo constituye Cyc (Lenat and Guha, 1990) (Lenat et al., 1995) compuesta por aproximadamente 40000 objetos. Utilizando Cyc una entidad de un recurso de información es mapeado en los conceptos de la ontología global a través de un conjunto de axiomas de articulación (Collet et al., 1991). Otro ejemplo lo constituye DBpedia1, este es un proyecto para la extracción de datos de Wikipedia, en la base de datos se describen 3.640.000 entidades, almacenadas en formato RDF (Resource Description Framework), las cuales pueden ser accedidas realizando consultas a la base de datos a través de SPARQL. Otro enfoque consiste en alinear las ontologías existentes para obtener una ontología integrada. OBSERVER (Mena et al. 1996) es un sistema que facilita la interoperabilidad entre ontologías existentes basado en las relaciones terminológicas (ej. sinónimos, hipónimos, hiperónimos) que conectan los términos en las diferentes ontologías. (Kashyap & Sheth 1998). 1 http://dbpedia.org Fecha de actualización 22/07/2011 Entre las principales técnicas utilizadas en los sistemas de recuperación, toma de decisiones, la minería de datos y el reconocimiento de patrones, las medidas de similitud juegan un rol fundamental (Schwering, 2006). Se necesitan adecuadas mediciones de similitud para procesar toda la información disponible y recuperar solamente la que es relevante para la consulta. Debido a las raíces interdisciplinarias que tiene la Recuperación de Información Geográfica (RIG), díganse los SIG y los sistemas de RI, esta hereda los componentes que tradicionalmente forman parte de esos sistemas. Dentro de estos componentes podemos citar los modelos para calcular la similitud. En este trabajo se han organizado las medidas de similitud en tres grupos, la similitud semántica las cuales calculan la similitud desde el punto de vista de los significados de los términos y son heredadas fundamentalmente de los sistemas de RI, la similitud espacial que calculan la similitud teniendo en cuenta las relaciones espaciales entre objetos geográficos utilizadas mayormente en los SIG, y por último, la similitud semántica espacial, en las cuales se calcula la similitud teniendo en cuenta las representaciones conceptuales tanto de los objetos como de las relaciones espaciales que existen entre ellos. La similitud semántica espacial es fundamental para el procesamiento semántico de datos geoespaciales (Quintero et al., 2012). Establece el grado de interoperabilidad semántica entre los datos o los diferentes SIG y constituye la base para la recuperación y la integración de información geoespacial (Janowicz et al., 2008). Valorar la similitud es un proceso que requiere que dos ¿objetos¿ sean descompuestos en los elementos en los que son iguales y en los que son diferentes (Rodríguez, 2011). Este tipo de valoración es parte del pensamiento lógico de los seres humanos, es intuitiva y subjetiva por lo que se dificulta su representación como un modelo matemático estricto (Tversky, 1977). En los SIG la similitud es particularmente importante debido a la dificultad para obtener representaciones de los fenómenos geográficos y a la variedad de formalizaciones que existen de las propiedades espaciales tales como su forma, localización y relaciones espaciales (Leake et al., 2002). Para el procesamiento semántico del conocimiento de los datos geoespaciales almacenados en las ontologías es fundamental el cálculo de la similitud semántica, la cual es esencial en el procesamiento de las consultas de datos de los usuarios y es la base para la recuperación e integración de información semántica (Schwering, 2008). La comparación, a través de medidas de similitud, de los conceptos que describen el significado de los datos es un enfoque que apunta a convertirse en una solución eficiente para el procesamiento de los datos geográficos desde el punto de vista semántico (Larín, 2013). El objetivo general consiste en diseñar una metodología de recuperación de información geoespacial en la que se apliquen medidas de similitud semántica integrando las relaciones conceptuales y espaciales asociadas a los objetos geográficos representadas en una ontología. Para la solución del problema científico y dar cumplimiento al objetivo, se plantearon los siguientes objetivos específicos: 1. Revisar el estado actual de los sistemas de recuperación semántica de información geográfica. 2. Identificar y analizar las relaciones semánticas y espaciales que existen entre los objetos geográficos. 3. Diseñar una ontología que describa las principales propiedades y relaciones de los objetos en el dominio geográfico en la que se mapeen información de fuentes de datos heterogéneas. 4. Analizar las potencialidades de las medidas de similitud semántica para la gestión de información geoespacial. 5. Seleccionar la medida de similitud semántica más apropiada para la metodología de recuperación de información geoespacial. 6. Estudiar la aplicación de la similitud semántica a la ontología. 7. Definir una metodología para la recuperación de información geoespacial orientada a para personas no expertas. 8. Validar la metodología con la estrategia de recuperación propuesta. Fecha de actualización 22/07/2011 4. Metodologia, hipòtesi i pla de treball / Metodologia, hipótesis y plan de trabajo Actualmente, la investigación dentro de la recuperación semántica de información geográfica enfrenta diversos retos como la extensión del enfoque sintáctico al semántico y espacial. Se han realizado trabajos en estos sentidos como el presentado por (Schwering, 2006) en el cual se presenta un método que representa las relaciones espaciales a nivel conceptual y calcula las distancias semántica entre los conceptos. A pesar de ser un intento para tratar las relaciones espaciales se queda a nivel general. Por su parte, (Li and Fonseca, 2006) proponen una medida de similitud que integra cuatro modelos (geométrico, de características, de transformación y el de alineación estructurada) para calcular la similitud entre escenas espaciales aplica el orden de prioridad topología, dirección, distancia. La valoración se hace a nivel geométrico y temático pero se deja el nivel semántico propuesto para trabajos futuros. Otro de los reto de la recuperación de información geográfica está relacionado con la determinación de intención del usuario expresada en las consultas. (Renteria, 2009) propone un modelo de recuperación, que integra un criterio semántico con criterios geoespaciales y en el que se propone como trabajos futuros complementar el modelo de recuperación con un módulo de Procesamiento de Lenguaje Natural, para procesar consultas y proponer componentes de análisis topológico a través de la implementación de medidas de similitud semántica. Al determinar la similitud semántica entre conceptos geoespaciales es importante tener en cuenta sus relaciones espaciales en el proceso de cálculo. Todos los objetos geoespaciales tienen una posición en el espacio con respecto a algún sistema de referencia espacial y por lo tanto, una autocorrelación espacial. La similitud espacial es difícil de tratar debido a las numerosas limitaciones de las propiedades espaciales y de la complejidad de las relaciones espaciales (Li and Fonseca, 2006). Todas estas dificultades se ven afectadas además por la heterogeneidad de las fuentes de información, lo cual, dificulta la extracción de términos geográficos desde fuentes de datos estructuradas y un reto aún mayor desde fuentes no estructuradas teniendo en cuenta criterios espaciales. Como consecuencia de esto se identifica la necesidad de estructuras de representación del conocimiento que permita mejorar los procesos de recuperación La mayoría de las representaciones semánticas de los conceptos espaciales se basan en características o descriptores de la información que tienen un carácter ambiguo en la explicación de lo que representan estas características. Gran parte de los modelos más empleados para determinar la similitud semántica se aplican a dominios generales, no se enfocan en las propiedades particulares de los conceptos en el dominio espacial (Schwering, 2006) y utilizan una ontología compartida que relaciona los conceptos semánticamente. Los modelos basados en las relaciones semánticas generalmente incluyen dos tipos de relaciones: la sinonimia (equivalencia) y la hiponimia (es-un). En el dominio espacial es importante tener en cuenta la relación de meronimia (es parte de) que proporciona una mejor representación de las interrelaciones entre los conceptos espaciales. (Larín, 2013) desarrolla un método para la representación semántica multidimensional de objetos geoespaciales integrados en un entorno de Sistemas de Información Geografica Gobernados por Ontologías (SIGGO). No obstante, no considera las relaciones topológicas. El análisis de esta problemática ubica como problema científico la siguiente pregunta: ¿Será posible consultar datos geoespaciales de forma simple y obtener resultados satisfactorios mejorando la recuperación de la información geoespacial mediante la integración de la similitud semántica con la similitud espacial? La determinación del problema científico situó como objeto de estudio las mediciones de la similitud semántica de la información geoespacial en el campo de la recuperación semántica de información geográfica. Este trabajo parte de la hipótesis de que una metodología de recuperación de información que aplique medidas similitud semántica que integren las relaciones espaciales en la evaluación de la distancia conceptual entre los conceptos de una ontología contribuye a mejorar la gestión semántica de la información geoespacial. Para llevar a cabo el trabajo se establece las siguientes tareas:: 1) Análisis del problema, esta tarea consiste en determinar las características importantes en los sistemas de recuperación de información geográfica, cuales se emplean adecuadamente y cuales son posible mejorar. Identificar las características representativas de los documentos con información geoespacial. En este sentido, el sistema a desarrollar combinará técnicas pertenecientes tanto al campo de los sistemas de RI como de los SIG. Además, con esta tarea se deben identificar las dificultades de los usuarios en el momento de plantear la consulta de la información deseada. 2) Creación y explotación de una ontología de dominio que permita simular el rol de un experto al que se le puede preguntar acerca de un tópico y esperar respuestas acertadas o relacionadas. 3) Integración de fuentes de datos heterogéneas con la cual se enriquece el grado de conocimiento que se tiene de los objetos geográficos, ejemplo: a partir de los análisis espaciales podemos conocer si un río Fecha de actualización 22/07/2011 atraviesa una región de suelo y podemos visualizar estos objetos en un mapa geoespacial, conceptualmente se puede definir una clasificación para dicho tipo de suelo o las características que presentan y mostrar imágenes relacionadas con estos objetos geográficos. 4) Desarrollo de una metodología de recuperación en la cual la principal aportación sobre otras propuestas es que, extiende los criterios de recuperación de información hacia criterios geográficos y de semántica espacial, es decir, combina medidas semánticas con análisis de las relaciones espaciales en la cuales se aplica el orden de topología, dirección y distancia. 5) Aplicación de técnicas de procesamiento del lenguaje natural a la solicitud como la expansión de la consulta basada en la ontología facilita a los usuarios no especializados recuperar resultados relevantes sin tener que conocer cómo expresar la consulta. 6) Desarrollo de un prototipo de sistema siguiendo la metodología para validar los componentes propuestos. Como resultado de esta Tesis doctoral, se le dió cumplimiento a su objetivo principal con el desarrollo de una metodología general para la recuperación de información que aplica un modelo integrado que combina mediciones de similitud entre las relaciones conceptuales y espaciales mediante las cuales se pueden describir los objetos geoespaciales, la cual constituye la aportación más importante de este trabajo de investigación. El estudio del estado de arte denotó la relevancia de los sistemas de recuperación de información geográfica. Este campo, tiene su origen en dos más consolidados como son la recuperación de información y los sistemas de información geográfica. Su objetivo principal, y también parte de los objetivos de este trabajo de tesis, es la indexación de información a través del uso de una ontología, teniendo en cuenta tanto las características temáticas como las geográficas, haciendo énfasis en las relaciones espaciales. Los modelos de datos geográficos generalmente representan explícitamente un conjunto de objetos básicos, su geometría y propiedades. Sin embargo, en muchos ambientes geográficos, la semántica aparece en las relaciones que enlazan estos objetos. No obstante, muchas de estas relaciones no son explícitamente representadas en modelos de datos geoespaciales, ya que aparecen solo implícitamente en el despliegue de las bases de datos geográficas; por lo cual es de suma importancia contar con descripciones semánticas que permitan realizar este tipo de representaciones entre objetos geográficos. Identificar el conjunto de propiedades y relaciones que poseen implícitamente los datos geoespaciales es otra de las aportaciones obtenidas en este trabajo. Con base en los elementos característicos identificados de los objetos geoespaciales se define una ontología geoespacial aplicada al dominio de los suelos cubanos, la cual constituye una estructura de indexación que tiene en cuenta tanto el ámbito textual como el espacial de la información geográfica. Esta ontología constituye otra de las aportaciones principales de este trabajo. La ontología propuesta para sistemas de RIG combina el espacio geográfico con el dominio de los suelos de Cuba. Se presentó un enfoque de integración en las medidas de similitud mediante la utilización de la ontología. Este enfoque se basa en la integración de medidas de similitud semántica con similitud en el análisis geoespacial. Los resultados obtenidos muestran que es posible la integración de criterios en un solo modelo utilizando el enfoque semántico geoespacial. La estructura propuesta permite resolver consultas clásicas, como pueden ser las consultas textuales puras, pero también nuevos tipos de consultas que combinan aspectos textuales y espaciales. Utilizar la ontología como estructura de indexación presenta una ventaja cualitativa muy importante sobre otras alternativas para sistemas de RIG que se han propuesto recientemente. Esta ventaja es que realiza expansión de los términos de consulta de manera implícita. Realizar la expansión de la consulta de manera implícita le facilita a los usuarios no expertos, hacia los cuales está orientada esta metodología de recuperación, obtener los resultados esperados. La representación conceptual le permite manipular la información geográfica sin considerar aspectos que normalmente se han utilizado en enfoques tradicionales como unidades de medida, escala, sistemas de referencia, etc. Así que esto difiere de los SIG tradicionales que se basan en las primitivas geométricas de representación. Todos estos elementos se presentan en una arquitectura completa para sistemas de RIG. Esta arquitectura define todos los componentes necesarios para que la información indexada pueda ser consultada de manera cómoda por los usuarios, y presentada de manera clara y organizada. Los resultados de los experimentos realizados demuestran que la estructura presenta buena relación entre la precisión y la cobertura de las búsquedas. El prototipo de la arquitectura ha permitido valorar el grado de consecución de los objetivos y el cumplimiento de los requisitos impuestos a la arquitectura. Las evaluaciones de los revisores de los congresos nacionales e internacionales en los que se han publicado los resultados obtenidos han servido también de validación externa del trabajo realizado.