Un conjunto de perfiles de uml para el modelado conceptual de técnicas de minería de datos sobre almacenes de datos

  1. Zubcoff Vallejo, José J.
Dirigida por:
  1. Juan Trujillo Mondéjar Director

Universidad de defensa: Universitat d'Alacant / Universidad de Alicante

Fecha de defensa: 26 de junio de 2009

Tribunal:
  1. Rafael Berlanga Presidente/a
  2. Sergio Luján Mora Secretario
  3. Eduardo Fernández-Medina Patón Vocal
  4. Jesús Peral Cortés Vocal
  5. Belén Vela Vocal
Departamento:
  1. LENGUAJES Y SISTEMAS INFORMATICOS

Tipo: Tesis

Teseo: 247462 DIALNET

Resumen

En el proceso de descubrimiento de conocimiento, cuando se aplican técnicas de minería de datos, nos enfrentamos a varios problemas, El primero es que las técnicas de minería de datos se aplican sobre una gran cantidad de datos, normalmente no estructurados o semi-estructurados en ficheros planos, que no proporcionan información semántica o relaciones en los datos. Esto hace que el diseño de las técnicas de minería de datos se aplique desde la perspectiva lógica cuando disponemos de los datos sobre la base de datos una vez que está implementada. Desde la aparición de los almacenes de datos, las técnicas de minería se aplican sobre estos sistemas ya que constituyen un repositorio de datos históricos libre de errores. Dada la validez de los almacenes de datos en los procesos de descubrimiento de conocimiento, en esta tesis se presentan propuestas para acometer el diseño onceptual de las técnicas de minería de datos sobre los almacenes de datos. El modelado conceptual de las técnicas de minería de datos ayuda a evitar el principal problema con el que se encuentran las tareas de minería de datos: el hecho de que no se pueda garantizar la calidad de los datos, es decir, que los datos que requieren las técnicas de minería de datos estén en el repositorio. Esto se debe fundamentalmente a que el repositorio se ha diseñado con distintos fines, sin tener en cuenta los requisitos de minería de datos. De esta manera, se aplican las técnicas de minería de datos como procesos aislados, que no pueden integrarse desde las primeras etapas de un proceso de descubrimiento de conocimiento. El problema añadido cuando se aplica la minería de datos en sesiones aisladas es la duplicidad de las tareas de preprocesamiento dado que no existe documentación del proceso de descubrimiento de conocimiento. Así, también se duplica el coste en tiempo en la fase de preparación de datos y no se pueden aprovechar los modelos de minería de datos precisamente por presentarse como procesos aislados y no documentados. Con el objetivo de mejorar el proceso de descubrimiento de conocimiento en almacenes de datos se presentan extensiones de UML (Unified Modeling Language) en forma de perfiles UML para las distintas técnicas de minería de datos. Estos perfiles extienden UML y lo especializan, adaptándolo al dominio de la minería de datos. De esta manera, el modelado de las técnicas de minería de datos se realiza sobre los modelos multidimensionales de almacenes de datos. Así, se facilita la comprensión del dominio ya que los modelos multidimensionales aportan información sobre la estructura y relaciones de los datos. En el desarrollo de esta tesis se ha implementado una herramienta que permite modelar utilizando nuestra propuesta en un entorno de desarrollo ampliamente conocido como es Eclipse. Este entorno es independiente de plataforma, de libre distribución y permite diseñar de manera integrada las técnicas de minería de datos y los modelos multidimensionales de los almacenes de datos sobre los que se aplican estas técnicas. Para demostrar la facilidad de uso y la viabilidad de la propuesta se ha aplicado a un caso de estudio real enmarcado en un proyecto europeo, EMPAFISH (European Marine Protected Areas as tools for the Fishery management and conservation, código SSP8-006539), que tiene como objetivo estudiar el efecto de las áreas marinas protegidas en distintos aspectos. Se ha modelado el dominio de las áreas marinas utilizando el paradigma multidimensional, fácil de comprender y que representa toda la estructura y relaciones de los datos de una manera próxima a la forma de pensar de los analistas. Finalmente se han aplicado las técnicas de minería de datos sobre el almacén de datos del proyecto, usando nuestra aproximación con perfiles de UML. Los resultados obtenidos han sido documentados de manera que pueden repetirse o modificarse cualquiera de las etapas del proceso de descubrimiento del conocimiento en los datos de las áreas marinas. Ésta tesis comprende: Una revisión del estado del arte para el modelado de minería de datos. La propuesta de modelos conceptuales que facilitan el diseño de las diversas técnicas de minería de datos. La formalización de las técnicas de minería de datos mediante el uso de metamodelos. La extensión de UML con perfiles específicos para el dominio de las técnicas de minería de datos. La creación de un entorno de modelado de las técnicas de minería de datos. La definición e implementación de las transformaciones entre modelo-código (para una plataforma específica). El desarrollo de un prototipo en forma de plug-in de Eclipse para el desarrollo de proyectos de descubrimiento de conocimiento.