Multilingualism in ontologies. Multilingual lexico-syntactic patterns for ontology modeling and linguistic information repository for ontology localization

  1. Montiel Ponsoda, Elena
Dirigée par:
  1. Guadalupe Aguado de Cea Directeur/trice
  2. Asunción Gómez Pérez Co-directeur/trice

Université de défendre: Universidad Politécnica de Madrid

Fecha de defensa: 24 janvier 2011

Jury:
  1. Ricardo Mairal Usón President
  2. Inmaculada Álvarez de Mon Rego Secrétaire
  3. Mercè Lorente Casafont Rapporteur
  4. Ruslan Mitkov Rapporteur
  5. Paul Buitelaar Rapporteur

Type: Thèses

Teseo: 303556 DIALNET

Résumé

The objective of this PhD thesis is to face some of the problems that arise from the interaction between ontologies and natural language in a multilingual context. In particular, our work focuses on two activities of the ontology development process, namely, knowledge acquisition for ontology modeling from natural language expressions, on the one hand, and localization of ontologies to different natural languages, on the other hand. This work can be understood as a twofold process in which, in the first phase, linguistic expressions are transformed into ontological constructs, and, in the second phase, ontological constructs are associated to linguistic information in multiple languages. Along this process, we take into account multilingualism at both ends: the starting point and at the final result. Both approaches aim at bringing ontologies closer to average users coming from different linguistic and cultural communities, being this a fundamental requirement for the consolidation of the Semantic Web. The two approaches presented here are based on our conviction that language forms an integral part of human cognition, of our understanding and categorization of reality. This is indeed one of the basic tenets of the functional-cognitive tradition. Taking this assumption into account, the first contribution of this PhD relies on an analysis of the deep semantics of users' formulations in the ontology development process. Such an analysis allows us to establish a correspondence to the ontological constructs that better capture the semantics of users' expressions. Target users in this case are newcomers to ontological engineering. For this aim, we propose a repository of linguistic patterns associated to a specific type of ontological constructs, called Ontology Design Patterns, as well as methodological guidelines to guide users in the activities of knowledge acquisition and ontology modeling. As for the second contribution of this work, we have designed a model of linguistic descriptions that is to be associated to ontologies in order to enrich them with multilingual information. The purpose of this model is to make the same conceptualization reusable in different linguistic and cultural settings. This research work also relies on functional-cognitive theories, specifically on experientialism, to face some of the issues regarding the validity of the same categorization of reality in different cultural settings. In this sense, we believe that ontologies represent interpretations of the extralinguistic world that reflect how certain groups of people perceive reality. Accordingly, ontologies may capture categorizations that are valid and shared by several groups of users or others that present some disparities. This fact has been taken into account when proposing a model for the localization of ontologies. The principal contributions of this work are summarized in the following: 1. We have created a repository of linguistic patterns in English and Spanish that are associated with ontological representations, considered good practices in ontology modeling, namely, the so-called Ontology Design Patterns. With the aim of establishing a reliable correspondence between linguistic patterns and Ontology Design Patterns, we have performed an analysis of the deep semantics of those linguistic structures characterized by a polysemous behavior. 2. We have defined a method to guide novice users in the formulation of linguistic expressions that are subsequently modeled in ontologies making use of Ontology Design Patterns. 3. We have provided an analysis of the dimensions involved in the ontology localization process, and devise some of the strategies to be followed according to the dimensions involved. We have also analyzed extant formalisms and models for the representation of multilingualism in ontologies. 4. We have designed a model of lexical and terminological descriptions that associated to ontologies allows for the representation of cultural mismatches, and the establishment of well-defined relations within descriptions both in the same language and across languages. The validity of both approaches has been supported by a set of experiments relying on suitable test cases. Experimental results reveal the feasibility of the proposed approaches, models and techniques. El objetivo de esta tesis es abordar algunos de los problemas que surgen de la interacción entre las ontologias y el lenguaje natural en un contexto multilingüe. En concreto, nuestro trabajo se centra en las actividades de adquisición de conocimiento para el modelado de ontologías a partir de expresiones en lenguaje natural, y en la localización de ontologías a diversas lenguas. En este sentido, podemos entender este trabajo como un doble proceso en el que el punto de partida son expresiones lingüísticas que se transforman en representaciones ontológicas, y representaciones ontológicas a las que asociamos información lingüística. Todo ello teniendo en cuenta el multilingüismo en el punto de partida y en el resultado final. Ambas aproximaciones tienen como propósito acercar las ontologías a los usuarios provenientes de comunidades lingüísticas y culturales diversas, requisito fundamental para el progreso y consolidación de la Web Semántica. Las dos vertientes que aquí presentamos se basan en nuestra convicción de que la capacidad lingüística es un elemento clave para la comprensión y categorización de la realidad, siendo éste uno de los principios básicos de las teorías cognitivofuncionales. Tomando estas asunciones como punto de partida, la primera contribución de esta tesis se apoya en el análisis semántico de las oraciones producidas por un usuario en el proceso de desarrollo de una ontología. Dicho análisis semántico nos permite establecer una correspondencia con la estructura ontológica que mejor reproduce la intención del usuario. Nuestro planteamiento está pensado para usuarios con un bajo nivel de conocimiento en ingeniería ontológica. Con ese fin, proponemos un repositorio de patrones lingüísticos asociados a patrones de diseño ontológico, así como unas guías metodológicas. De esta forma proporcionamos el soporte necesario para las actividades de adquisición de conocimiento y modelado de ontologías de forma transparente para el usuario no experto. En cuanto a la segunda contribución de esta tesis doctoral, hemos diseñado un modelo que, asociado a una ontología, permite describir la conceptualización representada en la ontología en múltiples lenguas. De esta manera se consigue que una misma conceptualización pueda ser utilizada en diversos contextos lingüísticos y culturales. Para esta investigación también nos hemos apoyado en las teorías cognitivo-funcionales, en particular en la concepción experiencialista, para abordar la cuestión de la validez de una misma categorización de la realidad en distintos contextos culturales. En este sentido, consideramos que las ontologías representan interpretaciones del mundo extralingüístico realizadas por distintos grupos de personas que reflejan una forma de entender o interpretar el mundo. Dichas ontologías pueden representar realidades compartidas u otras que no lo son tanto. Esto se ha tenido en cuenta a la hora de proponer un modelo para la localización de ontologías. Las principales contribuciones de este trabajo se resumen como sigue: 1. Hemos creado un repositorio de patrones lingüísticos en inglés y español asociados a representaciones ontológicas consideradas buenas prácticas en el modelado de ontologías, a saber, los patrones de diseño ontológico. Hemos llevado a cabo un análisis profundo de la semántica de aquellos patrones lingüísticos que presentan usos polisémicos, para un correcto establecimiento de las correspondencias entre los patrones lingüíticos y los patrones de diseño. 2. Hemos definido un método para guiar a usuarios no expertos en la tarea de formulación de expresiones lingüísticas para su consecuente modelado en una ontología, haciendo uso de los patrones de diseño ontológico. 3. Hemos proporcionado un análisis de las dimensiones que intervienen en el proceso de localización de ontologías, así como de las distintas estrategias de traducción a seguir en cada caso. Del mismo modo, hemos analizado las diferentes modalidades de representación de descripciones multilingües en ontologías de acuerdo con los formalismos de representación existentes. 4. Hemos diseñado un modelo de descripciones léxicas y terminológicas, que asociado a ontologías, permite la representación de discrepancias culturales, así como de relaciones entre descripciones en un misma lengua y entre distintas lenguas. La validez de ambas aproximaciones ha sido respaldada por una serie de experimentos realizados utilizando casos de prueba adecuados. Los resultados experimentales apuntan a la viabilidad de los enfoques, los modelos y las técnicas propuestas.