Metodología para procesos de inteligencia de negocios con mejoras en la extracción y transformación de fuentes de datos, orientado a la toma de decisiones
- Morales Cardoso, Santiago Leonardo
- Ramón Rizo Aldeguer Zuzendaria
Defentsa unibertsitatea: Universitat d'Alacant / Universidad de Alicante
Fecha de defensa: 2019(e)ko martxoa-(a)k 14
- Mar Pujol López Presidentea
- Ângelo Costa Idazkaria
- José María Cecilia Canales Kidea
Mota: Tesia
Laburpena
INTRODUCCIÓN Con la idea de orientar a quienes están al frente de diferentes tipos de organizaciones para la mejor y oportuna toma de decisiones, hemos analizado y consideramos que uno de los retrasos en proyectos de Inteligencia de Negocios (IN) conocido en el idioma ingles como Business Intelligence (BI) se produce en los procesos de Extracción, Transformación y Carga de Datos (ETC), para lo cual se propone un algoritmo de decisión basado en ID3, pero incluyendo mejoras en la búsqueda de sus nodos por medio de atributos ubicados en diferentes fuentes de datos estructurados o no, los mismos que pasan por procesos de limpieza especial y a los cuales se les da en este estudio una denominación de “puros”. Así obtenidos los nodos estos pasan a ser clasificados en base a los cálculos recursivos de entropía y ganancia de información para lograr una estructura robusta que tome decisiones para cualquier dato que ingrese en un determinado caso de estudio. M3S, fundamenta, representa y articula en la práctica la implementación de proyectos de IN usando modelos matemáticos y explotando datos disponibles para generar conocimiento tomando en cuenta el tiempo del proyecto, madurez de la información, introducción de técnicas de Inteligencia Artificial como los árboles de decisión y aprendizaje automático; todos estos en conjunto ayudarán a mejorar los procesos de extracción, transformación y carga de datos, de tal forma que aseguremos mejores decisiones en cualquier tipo de actividad empresarial. M3S, al recopilar datos de diferentes fuentes heterogéneas basados en la experiencia real de los expertos, consideramos que es más robusta y puede tener mayor certeza luego de su procesamiento de pureza de información, a diferencia de datos planos que se toman de equipos como lo que sucede en diferentes disciplinas y que generan variedad de escalas de tiempo, las mismas que determinan los parámetros de integración o identifican los acoplamientos entre estas series, como bien se lo menciona en la Entropía de Permutación. Es por eso que es pertinente la propuesta de M3S, al analizar desde otra perspectiva distinta a los datos, de cómo se los ve en la entropía de permutación que si bien es cierto proporciona un método simple para estimar la complejidad de las series de tiempo; M3S considera una variedad de tipos de datos que se conjugan para un estudio específico. Considerando la importancia que ha tomado en la actualidad la IN y las diversas tecnologías de información, las mismas que ayudan a lograr una toma de decisiones efectiva en todos los ámbitos empresariales, considero de gran valor fortalecer procesos dentro de metodologías que engloben a estos proyectos; de esta forma conseguiré que cada vez se cuente con una mayor formalidad y estructuración para la ejecución y seguimiento apropiado de los mismos. Esta investigación propone como OBJETIVO GENERAL el siguiente: Conseguir que se disminuyan los tiempos de desarrollo de los proyectos de IN, por medio de una metodología orientada a la toma de decisiones, mejorando principalmente los procesos de extracción y transformación de fuentes de datos heterogéneos con la ayuda de árboles de decisión que aplican aprendizaje automático en las decisiones. Este objetivo general se soporta en los siguientes OBJETIVOS ESPECÍFICOS: • Revisar procesos y metodologías que se hayan ejecutado en diferentes organizaciones en las cuales se usaron este tipo de tecnologías. • Desarrollar una metodología que permita establecer de manera óptima tanto en tiempo, como en recursos soluciones IN con un alto grado de confiabilidad en el conocimiento obtenido. • Contribuir con una nueva metodología formal en IN, para la generación de conocimiento en las organizaciones, particularmente en lo concerniente a manejo de indicadores relevantes de un determinado negocio o actividad de la vida. • Usar técnicas de aprendizaje automático para mejorar los procesos de decisión. • Usar todo tipo de herramientas informáticas y actividades como: foros, congresos, correo electrónico, redes sociales, aulas virtuales, entre otras; para apoyar la construcción de la nueva metodología a proponer. • Validar la metodología propuesta, aplicándola al menos a dos organizaciones que contengan conocimiento y procesos clave muy bien definidos. • Analizar diferentes herramientas de software en el mercado, y determinar aquellas que pueden apoyar de mejor manera a la metodología propuesta. DESARROLLO TEÓRICO. Actualmente, casi la totalidad de las organizaciones cuenta con un sistema de información que soporta sus actividades diarias propias del sector de sus negocios, este sistema puede ser sencillo o robusto todo depende de las exigencias del mismo y los niveles de información gubernamental que se deba entregar; “con el tiempo las aplicaciones llegan a tener la historia de la organización y los datos almacenados en las bases de datos, pueden ser utilizados para argumentar la decisión que se quiera tomar ante cualquier aspecto para mejora en la empresa”. (Rosado Gomez, 2010). El ser humano toma decisiones en cada uno de los aspectos que giran alrededor de su vida con experiencias y hechos pasados; como en actividades cotidianas como la de un ganadero que debe saber cuándo chequear a sus animales, o un floricultor que debe tener conocimiento de cuál es el mejor momento para pinchar los tallos de sus flores, o en una empresa pública o privada, contar con los indicadores que le permitan tomar decisiones en un momento crítico de la empresa en búsqueda de mejores oportunidades para su línea de negocio; en estos ejemplos se ve que los proyectos de explotación de información poseen características muy distintas a las de los proyectos de desarrollo de software tradicionales. “Las clásicas etapas de análisis, diseño, desarrollo, integración y testeo, no encajan ni son suficientes para brindar conocimiento, como lo son las etapas naturales de los procesos de desarrollo de este tipo de proyectos de mayor peso con la información” (García M, y otros, 2011). “La inteligencia de negocios, es un enfoque estratégico para orientar sistemáticamente el seguimiento, la comunicación y la transformación relacionada al débil conocimiento de la información procesable en la cual se basa la toma de decisiones”. (KAMEL. Rouibah y SAMIA, 2002). En la época pasada los Data Warehouse (DW) han sido ampliamente adoptados en los negocios, proveían análisis multidimensional con muchos datos históricos del negocio, ayudando a crear nuevas decisiones. “Sin embargo en el 20% de las empresas se encuentran los datos numéricos y el otro 80% están escondidos en NO numéricos y hay que recuperarlos para realizar un análisis más completo de BI”. (Tseng & H, 2006) “Las recomendaciones para implementar un proyecto de Inteligencia de Negocios basado en un DW, debe analizarse desde diferentes aspectos: Económico (Costos cuantificables e intangibles), Social (Ambiente organizacional, Apoyo, Aspectos Administrativos, Compromiso), y Técnico (Infraestructura, Metodologías)”. (Villalon M, 2006). Cada organización maneja la Inteligencia de Negocios de acuerdo a las exigencias de la misma, es aquí que se ve la necesidad de crear una metodología en cuanto al proceso ETC para empezar a definir estándares, ya que los softwares que existen actualmente en el mercado no necesariamente nos ofrecen las mejores alternativas. “En el año 2003 ya se decía que la demanda de Sistemas de Inteligencia de Negocios estaba creciendo, pero la producción de software en general caminaba más lento”. (Negash, 2004). De esta manera otro autor considera que “la investigación y la gestión del conocimiento es una idea básica, por lo que el conocimiento que se genere esté compartido a la comunidad”. (Krogh & von, 2002). El crecimiento en los servicios de consultoría de Reingeniería de Procesos de Negocio (BPR) ha llevado a una proliferación de métodos para conducir BPR. Se han hecho investigaciones revisando Métodos, Técnicas y Herramientas (MTTs), y en base a encuestas exhaustivas de estas técnicas de uso común de BPR, se forma una base de conocimientos para mejorar la práctica de cambio de procesos empresariales y proporciona una base para la investigación BPR futuro. (Kettinger, Teng, & Subashish, 1997) En este capítulo de la investigación se inicia con un análisis de las principales acepciones asociadas a BI, aportadas por diferentes autores en todos los tiempos; se analizan diferentes tipos de metodologías aplicables a proyectos de BI, para el seguimiento de calidad nos enmarcamos a círculos de procesos para finalmente, y apoyado en diversas experiencias, se efectúa un análisis comparativo de los modelos más representativos que se han venido proponiendo en los últimos años, desvelando sus puntos fuertes, débiles y aspectos no abordados a mejorar. Dentro de muchas acepciones realizadas sobre la inteligencia de negocios, vamos a presentar algunas de ellas propuestas por diferentes autores los que dicen que: “Se entiende por IN al conjunto de metodologías, aplicaciones, prácticas y capacidades enfocadas a la creación y administración de información que permite tomar mejores decisiones a los usuarios de una organización”. (Díaz J. C., 2010), (Vilchez, 2011); cada una de ellas se enfocan en la toma de decisiones como también las que mencionan que: “El objetivo primario de la Inteligencia de Negocios es contribuir a tomar decisiones que mejoren el desempeño de la empresa y promover su ventaja competitiva en el mercado. Este concepto se requiere analizar desde tres perspectivas: Tomar mejores decisiones más rápido, convertir datos en información, y usar una aplicación relacional para la administración”. (Calzada & Abreu, 2009) . “La Inteligencia de Negocios se puede definir como el cúmulo de modelos matemáticos y metodologías de análisis que explotan los datos disponibles para generar información y conocimientos útiles para los complejos procesos de toma de decisiones”. (Garcia Reyes, 2012). Así también se definen dos aseveraciones más que indican que: “La Inteligencia de Negocios BI (Inteligencia de Negocios) es una herramienta bajo la cual diferentes tipos de organizaciones, pueden soportar la toma de decisiones basadas en información precisa y oportuna; garantizando la generación del conocimiento necesario que permita escoger la alternativa que sea más conveniente para el éxito de la empresa”. (Rosado & Alveiro, 2010). Debido a la importancia de esta definición en nuestro estudio consideramos algunos autores más que indican: “Inteligencia de Negocio es un concepto que “integra como solución el almacenamiento y procesamiento de enormes cantidades de datos e información para transformarla en conocimiento y decisiones en tiempo real a través de una fácil explotación”. (Salinas La Rosa, 2010); el mismo investigador indica que: “BI es un término que engloba las aplicaciones, infraestructura, plataformas, herramientas y mejores prácticas que permiten acceder y analizar la información para optimizar las decisiones y gestionar el rendimiento empresarial” (Salinas La Rosa, 2010). “Se entiende por Inteligencia de Negocios al conjunto de metodologías, aplicaciones, prácticas y capacidades enfocadas a la creación y administración de información que permite tomar mejores decisiones a los usuarios de una organización”.(Díaz J. C., 2012). Desde otro punto de vista consideramos una definición en idioma ingles que indica: “La inteligencia empresarial es una categoría de aplicaciones y tecnologías para recopilar, proporcionar acceso y analizar datos con el fin de ayudar a los usuarios empresariales a tomar mejores decisiones” (Ranjan, 2009). Por último revisamos que la inteligencia de negocios se define como “la habilidad corporativa para tomar decisiones; esto se logra mediante el uso de metodologías, aplicaciones y tecnologías que permiten reunir, depurar, transformar datos, y aplicar en ellos técnicas analíticas de extracción de conocimiento” (Parr & Sons, 2009), “los datos pueden ser estructurados para que indiquen las características del área de interés” (Stackowiak, Greenwald, & Rayman, 2007), “generando el conocimiento sobre los problemas y oportunidades del negocio para que pueden ser corregidos y aprovechados respectivamente” (Ballard, 2006) y (Grossman, 1998), mencionan que IN, “es un término general para un conjunto de conceptos y métodos para mejorar la toma de decisiones empresariales, utilizando sistemas basados en hechos”. En vista de la relación existente con la Minería de Datos, tomamos algunas definiciones sobre esta que indican lo siguiente: “La minería de datos se refiere a la extracción de conocimiento a partir de grandes cantidades de datos, sobre los que se aplican métodos inteligentes con el fin de extraer patrones interesantes. Dichos datos pueden estar almacenados en bases de datos, almacenes de datos u otros repositorios de información”; (Garcia Reyes, 2012); otros autores indican que: “La etapa de minería de datos puede definirse sobre la base de un conjunto de primitivas diseñadas especialmente para facilitar un descubrimiento de conocimientos eficiente y fructífero. Tales primitivas incluyen: la especificación de las porciones de la base de datos o del conjunto de datos en los que se quiere trabajar; la clase de conocimiento a ser descubierto; los conocimientos existentes que podrían resultar útiles para guiar el proceso de Knowledge Discovery in Databases (KDD); las métricas de interés para llevar a cabo la evaluación de patrones en los datos analizados; y finalmente, las formas en que el conocimiento descubierto podría ser visualizado” (Duran & Costaguta, 2007) .“La minería de datos es una subdisciplina de las ciencias de la computación que ha logrado mucho reconocimiento en los últimos años, principalmente porque puede ser usada para diferentes propósitos como herramienta de apoyo en las demás disciplinas de las ciencias”. Su fortaleza radica en el hecho de que forma parte del proceso de descubrimiento del conocimiento, cuyo objetivo es la búsqueda de patrones de datos que sean válidos, novedosos, potencialmente útiles y comprensibles” (Rodallegas Ramos Erika, 2010). Adicionalmente encontramos que: “La Minería de Datos o Data Mining, se ve como el soporte a las decisiones en las actividades de negocio, requiere mucho más que la aplicación de sofisticadas técnicas de redes neuronales o árboles de decisión sobre las tablas de datos”. “Proceso que consta de diferentes fases, en las cuales se utilizan como apoyo, técnicas relacionadas con la estadística, el reconocimiento de patrones y algoritmos de aprendizaje, entre otras" (Dueñas-Reyes, 2009), y por último tomado textualmente en inglés: “La minería de datos es el proceso de descubrir patrones y conocimientos interesantes a partir de grandes cantidades de datos. Las fuentes de datos pueden incluir bases de datos, almacenes de datos, la web, otros repositorios de información o datos que se incorporan dinámicamente en el sistema”. (Han & Kamber, 2009). “La minería de datos puede definirse inicialmente como un proceso de descubrimiento de nuevas y significativas relaciones, patrones y tendencias al examinar grandes cantidades de datos. La disponibilidad de grandes volúmenes de información y el uso generalizado de herramientas informáticas ha transformado el análisis de datos orientados hacia determinadas técnicas especializadas englobadas bajo el nombre de minería de datos o Data Mining” (Pérez Cesar, 2008). Consideramos de igual forma algunas definiciones de Big Data como: ”Es el conjunto de herramientas informáticas destinadas a la manipulación, gestión y análisis de grandes volúmenes de datos de todo tipo los cuales no pueden ser gestionados por las herramientas informáticas tradicionales. “Big data es un término de origen inglés cuya traducción equivale a "Datos masivos", la tecnología Big Data tiene por objetivo analizar datos e información de manera inteligente que ayuden a una correcta toma de decisión” (Aaker, 2015); de igual forma podría definirse como: “La ciencia que se basa en el tratamiento de grandes volúmenes de información con técnicas matemáticas e informáticas y que permite recoger datos, procesarlos y visualizarlos obteniendo una gran velocidad en el análisis, pudiendo anticipar tendencias, con el objetivo de comprender y optimizar ciertos servicios en función del comportamiento del usuario, para satisfacer necesidades tanto en tiempo real, como elaborar estrategias de primer orden en un sector determinado” (Gallego Calonge, 2012) y por último: consideramos cuatro citas: “Big data se refiere a nuestra nueva habilidad de hacer cálculos con una gran cantidad de información, analizar al instante, y sacar conclusiones a veces sorprendentes de ella" (Jara, 2012); “Big Data es el término utilizado para describir a grandes volúmenes de datos no estructurados o semi-estructurados que son creados por diversas compañías o empresas los cuales tendrán demasiado costo a nivel de procesamiento, dinero y tiempo como para ser tratados de la forma actual, cargándolo en bases de datos transaccionales para su análisis”. (Jara, 2012) . Y según McKinsey Global Institute BigData, es el conjunto de datos cuyo tamaño está más allá de las capacidades de las herramientas típicas de software de bases de datos para capturar, almacenar, gestionar y analizar(Joyanes Aguilar, 2013). Por último (Grossman, 1998) menciona que se conoce como Big Data al “procesar grandes cantidades de datos, la velocidad de los datos, a la frecuencia con la que nuevos los datos ingresan, al proceso de integración y análisis, la variedad de datos, la diversidad de datos y la veracidad de los datos”. Uno de los términos que se ha trabajado en IN, es el de: Almacenes de Datos ó Data Warehouse en el idioma inglés y se dice lo siguiente: “Informed decisions faster. When better decisions making is the goal of the data warehouse, it will be succesfull” (Westerman, 2001); de igual forma: “Data Warehouse: integra toda la información interna y externa disponible del cliente que debe organizarse en función de las necesidades de la empresa para que pueda desarrollar las adecuadas estrategias de marketing” (González & M., 2001) ; otra de las definiciones consideradas: “Es un almacén de datos, es el principal repositorio de los datos disponibles para desarrollar arquitecturas de inteligencia de negocios y sistemas de apoyo a las decisiones. Existen tres categorías principales de datos que alimentan un DW: datos internos, externos y datos” (Garcia Reyes, 2012). En otra cita de (Cámara Nuñez, 2010), dice que: “Es una colección de información creada para soportar las aplicaciones de toma de decisiones”; y por último “The concept of data warehousing is really quite simple. Data from older system dedicated entirely to analyzing that data. Normally, the data warehouse will store a substantial amount of historical data. Users of this system are able to continuously ask or query it to retrieve data for analysis.” (Westerman, 2001). Uno de los términos importantes es el de Base de Datos Departamentales (BDD) y se dice que: “Denominada como Data Management en el idioma inglés, es una base de datos especializada en el almacenamiento de la información de un área específica del negocio. Se caracteriza por disponer la estructura óptima de datos para analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento. Una Base de Datos puede ser alimentada desde un Data Warehouse, o integrar por sí mismo un compendio de distintas fuentes de información” (Santana, 2011); dentro de este término se definen también a las BDD de Procesamiento Analítico en Línea(OLAP) que según algunos autores se dice que: “Se basan en los populares cubos de procesamiento analítico en línea, que se construyen agregando, según los requisitos de cada área o departamento, las dimensiones y los indicadores necesarios de cada cubo relacional. El modo de creación, explotación y mantenimiento de los cubos de procesamiento analítico en línea es muy heterogéneo, en función de la herramienta final que se utilice” (García, Espinoza, Castañeda, Ostos, & Salazar, 2016); A su vez es definido como “Procesamiento analítico en línea es el proceso de mantener, analizar y realizar informes sobre datos, añadiendo que los datos en cuestión son percibidos y manejados como si estuvieran almacenados en un arreglo multidimensional.” (Date, 2001);y de igual forma : “(On-line analytical processing): It refers to the way in which business users can slice and dice their way through data using sophisticated tools that allow for the navigation of dimensions such as time or hierarchies”. Contemplamos también otra definición como: BDD de Transacciones en Línea(OLTP), que dice: “Pueden basarse en un simple extracto del almacén de datos, no obstante, lo común es introducir mejoras en su rendimiento (las agregaciones y los filtrados suelen ser las operaciones más usuales) aprovechando las características particulares de cada área de la empresa. Las estructuras más comunes en este sentido son las tablas report, que vienen a ser tablas reducidas (que agregan las dimensiones oportunas), y las vistas materializadas, que se construyen con la misma estructura que las anteriores, pero con el objetivo de explotar la reescritura de consultas”. (García, Espinoza, Castañeda, Ostos, & Salazar, 2016). Consideramos la definición de Multidimensionalidad: ”La información proviene de diversas fuentes tales como: hojas de cálculo, bases de datos, ya que la herramienta debe poder reunir información completa aunque se encuentre separada para resumirla y tenga un alcance de análisis profundo, con bases sólidas y datos actualizados”. (Zarate Gallardo, 2013) También se tomó en cuenta la siguiente: “El modelo de datos entidad-relación (E-R) está basado en una percepción del mundo real que consta de una colección de objetos básicos llamados Entidades, y de relaciones entre estos objetos. Una entidad es una «cosa» u objeto en el mundo real que es distinguible de otros. Por ejemplo, cada persona es una entidad, y las cuentas bancarias pueden ser consideradas entidades. Las entidades se describen en una base de datos mediante un conjunto de atributos” (Silberschatz, y otros, 2002). Se define como Datos a: “La representación, codificación estructurada de entidades primarias individuales, así como de las transacciones que implican a dos o más entidades primarias” (Vercellis, 2009); también se conoce que: “La palabra Datos proviene del latín “Dtum” cuyo significado es “lo que se da”. “Los datos son la representación simbólica, bien sea mediante números o letras de una recopilación de información la cual puede ser cualitativa o cuantitativa, que facilitan la deducción de una investigación o un hecho”. (Cobo Y, 2007). Al mismo tiempo manejamos el término Información y se lo define desde dos puntos de vista así: “La información es el resultado de las actividades de extracción y procesamiento llevadas a cabo en los datos, y parece significativo para los que la reciben en un dominio específico” (Vercellis, 2009); y “Cada vez que necesitamos o deseamos conocer algo acerca de acontecimientos, hechos, sucesos, personas, empresas, instituciones ciudades, países, etcétera (ya sea porque necesitamos reducir nuestra incertidumbre para tomar decisiones o simplemente porque queremos incrementar nuestro conocimiento acerca de algo), buscamos aquello que denominamos «información». Y esto, es algo que hacemos, en mayor o menor medida, todos los días”. (Thompson, 2008) Dentro del análisis y diseño de base de datos un proceso importante es la Normalización de la cual se dice que : “Es el proceso de refinamiento de una base de datos, lo que incluye la creación de tablas y que establece relaciones entre ellas según reglas diseñadas para proteger los datos y hacer la base de información más flexible al eliminar dos factores; redundancia y dependencia incoherente “ (Moreno S. , 2012);A su vez también es definido como “Es un proceso para evaluar y corregir estructuras de tablas a fin de minimizar redundancia de datos, con lo cual se reduce la probabilidad de anomalías de datos.” (Coronel Carlos, 2011); así como: “Las formas normales se corresponde a una teoría de normalización iniciada por el propio Codd y continuada por otros autores (entre los que destacan Boyce y Fagin). Codd definió en 1970 la primera forma normal, desde ese momento aparecieron la segunda, tercera, la Boyce-Codd, la cuarta y la quinta forma normal. “Una tabla puede encontrarse en primera forma normal y no en segunda forma normal, pero no al contrario. Es decir los números altos de formas normales son más restrictivos (la quinta forma normal cumple todas las anteriores)” (Sánchez, 2004) . Al hablar de Data Warehouse, se hablan de términos como Tabla de Hechos, que se la conoce como: “Técnicamente, es la tabla central de un modelo en estrella. Denominamos “hechos” a los indicadores del negocio. Por ejemplo, son hechos: las ventas, los pedidos, los envíos, las reclamaciones, las compras, etc. Es decir, son todas aquellas medidas numéricas que incluiremos en nuestro sistema de IN” (Facil, 2009); de igual forma en esta parte hablamos de la Tabla de Dimensiones de la que se dice: ”En el modelo de almacén de datos multidimensional, se representan cada una de las posibles clasificaciones que se pueden aplicar a filas o columnas. “Estas son tablas de doble entrada, a los datos almacenados de esta manera se les suele llamar cubos. Las tablas de dimensiones definen cómo están los datos organizados lógicamente y proveen el medio para analizar el contexto del negocio, representan los ejes del cubo, y los aspectos de interés, mediante los cuales el usuario está en capacidad de filtrar y manipular la información almacenada en la tabla de hechos”. (Ecured, 2012) En la propuesta metodológica que hacemos una de las acepciones importantes es el Árbol de Decisión, del que veremos algunas como: “Is a tree in which each branch node represents a choice between a number of alternatives, and each leaf node represents a decisión” (Peng, Chen, & Zhou, 2012); a su vez se define como Algoritmo de Aprendizaje en Arboles de Decisión: “Is a method for approximating discrete-valued target functions, in which the learned function is represented by a decision tree. Decision tree learning is one of the most widely used and practical methods for inductive inference” (Tom, 1997). También es manejado el concepto de ID3 Básico como: “The basic idea of ID3 algorithm is to construct the decision tree by employing a top-down, greedy search through the given sets to test each attribute at every tree node”. (Peng, Chen, & Zhou, 2012). Desde otro análisis, un árbol de decisión es un conjunto de condiciones organizadas en una estructura jerárquica, de tal manera que permite determinar la decisión final que se debe tomar siguiendo las condiciones que se cumplen desde la raíz del árbol hasta alguna de sus hojas. Varios puntos de vista indican que un árbol de decisión es un conjunto de condiciones organizadas en una estructura jerárquica, de tal manera que permite determinar la decisión final que se debe tomar siguiendo las condiciones que se cumplen desde la raíz del árbol hasta alguna de sus hojas. “Los árboles de decisión se utilizan desde los años cuarenta y son especialmente apropiados para expresar procedimientos médicos, legales, comerciales, estratégicos, matemáticos, lógicos, entre otros, estos se caracterizan por la sencillez de su representación y de su forma de actuar, además de la fácil interpretación, dado que pueden ser expresados en forma de reglas de decisión” (Martínez & R., 2009). Y por último según (Grossman,1998), “un árbol es un gráfico dirigido que contiene un nodo raíz con un grado en 0 y un número de hojas o nodos terminales que tienen un grado de salida 0”. Específicamente, los árboles no contienen ni círculos ni bucles. En última instancia queremos mencionar el concepto de la extracción de datos no estructurados conocido por su traducción en el idioma inglés como web scraping, que en resumen significa extraer datos no estructurados y luego pasarlos a una base estructurada. Se enfoca más en la transformación de información desde la web como el formato HTML (Hypertext Markup Language) en datos estructurados que pueden ser almacenados y analizados en una base de datos central. Esta tecnología conduce una cantidad sustancial de los negocios, y la viabilidad de muchas empresas se basa en él. Sin embargo, la controversia puede surgir cuando las empresas comerciales utilizan web scraping para recoger grandes cantidades de datos de sitios web para su propio beneficio. “Alguno de los usos del web scraping son la comparación de precios en tiendas, la monitorización de datos relacionados con el clima de cierta región, la detección de cambios en sitios webs y la integración de datos en sitios webs”. (Gracia & Galán, 2014) METODOLOGÍA M3S. La metodología de implementación para procesos de IN, cuenta con las técnicas necesarias para el seguimiento de proyectos, así como con una estructura organizacional de los mismos, con lo que se conseguirá una buena rigurosidad en las etapas, de igual forma tiene un control adecuado en todos los procesos y actividades que se vayan ejecutando. Para conseguir nuestro objetivo utilizaremos el tipo de aprendizaje supervisado proponiendo algunas premisas que deben cumplirse: • Fijamos atributos relevantes para resolver la hipótesis de dos formas: la primera aquellos datos estructurados que debieron ser validados como los que tienen información de calidad con un alto grado de pureza y que aportarán definitivamente en el estudio; la segunda el tipo de información no estructurada en donde realizamos un análisis de sentimientos. • Luego con esto tendríamos un subconjunto de datos para los cuales buscamos resultados objetivos, basándonos en experiencias reales, concretas; y • Por último, queremos una o varias reglas bien definidas y estructuradas que puedan predecir estos resultados. FASES DE M3S. A. Justificación A.1. Evaluación caso de negocio A.2. Acta de Constitución del Proyecto. B. Planificación B.1. Evaluación Infraestructura (Técnica/No Técnica) B.2. Definición del Alcance B.3. Cronograma C. Análisis y Requisitos de Negocio. C.1. Definición de requisitos de Proyecto C.2. Prototipo de Aplicación D. Diseño D.1. Diseño ETC D.1.1. Diseño Metodología de Decisión E. Construcción E.1. Desarrollo ETC E.1.1. Obtención de Metadata F. Implementación F.1. Puesta en marcha. F.2. Evaluación de la Solución F.3. Cierre del Proyecto Exponemos la primera etapa (A) de Justificación, en la cual se buscan los argumentos reales que generen la necesidad del negocio para implementar un proyecto de ingeniería dentro del cual tenemos dos sub etapas: La Evaluación del caso de negocio en donde principalmente se debe justificar la inversión mostrando el balance entre el costo, tiempo de ejecución y los beneficios conseguidos; y la segunda el Acta de Constitución. La siguiente etapa (B) es la de Planificación, que define la estrategia y planes tácticos a seguir para desarrollar y llevar a cabo el proyecto con éxito, en la que de igual forma se dan tres sub etapas que son: La Evaluación de Infraestructura, que puede verse como una parte técnica, en el sentido que se debe elegir exhaustivamente una plataforma para la aplicación, que garantice la mejor respuesta para la recuperación y acceso a los datos (Hardware, middleware y SGBD) y por otro lado la No técnica, la cual se basa en políticas institucionales, personal que se asigna al proyecto y logística de oficina. Como segunda sub etapa tenemos la Definición del Alcance, en donde se establece de forma concreta qué se persigue con el proyecto, incluyendo criterios específicos, medibles, realistas y enmarcados en un tiempo establecido, llegando a definirse claramente el objetivo del análisis de IN; y como tercera sub etapa tenemos la fijación del Cronograma, en donde se define cada actividad, designando los responsables incluyendo fechas de hitos importantes a cumplirse y a controlarse. Continuando con la etapa (C) es el Análisis y Requisitos de Negocio, en la cual se realiza un análisis detallado del problema y oportunidades del negocio, para conseguir una comprensión sólida de los requisitos de la organización que sean necesarios para llegar a una posible solución o producto, consta de dos partes que son: La Definición de Requisitos de Proyecto, que nos llevan a entender claramente la naturaleza del negocio que responden a las preguntas: ¿Qué?, ¿Con quién? y ¿Para qué?; y como segunda parte proponer un prototipo de lo que llegaría a presentarse en los resultados de tableros de medición. En la cuarta etapa (D) que es el Diseño, concibe una alternativa que resuelva el problema para la toma de decisiones, dentro de la cual tenemos el Diseño ETC en donde los datos de origen para las aplicaciones de IN provienen de varias plataformas heterogéneas, que son gestionadas por una variedad de sistemas operacionales y aplicaciones. Partiendo de la premisa de que los sistemas deben aprender y adaptarse a su entorno, el propósito de los procesos ETC en esta investigación es unir los datos de estas plataformas y transformarlos a un formato que contenga todas las clasificaciones de información necesarias, de tal forma que a partir de estos se tenga capacidad de decidir sobre todo el universo de información actual y la futura que llegue para un determinado objetivo. Por ser una parte esencial de la investigación esta parte tendrá un tratamiento especial luego de la explicación de las dos últimas etapas de M3S. En M3S la etapa (E) en M3S, es la Construcción, en la cual se aplica la metodología de decisión en un software que realice todo lo diseñado en la etapa anterior (D), dentro de la que se ingresará en un proceso de software las bases necesarias, las reglas definidas a fin de que la tabla de datos pueda ser analizada y poder inferir el árbol de decisión ideal. Es importante para navegar más eficientemente a través del entorno de IN, que la gente de negocio tenga acceso al repositorio de datos o tabla de entrenamiento. La última etapa (F) es la de Implementación, conocida también como venta del producto acabado, y entonces medir su efectividad para determinar si la solución encontrada, excede o no el resultado esperado; para cumplir con esto se definieron tres sub etapas que son: La Puesta en marcha, pues una vez que la aplicación está construida y probada está lista para ser implementada en el entorno de producción. Esto se puede hacer de forma tradicional, o incremental y según el mejor criterio de los expertos de BI; la siguiente sub etapa es la Evaluación de la Solución, en donde decimos que la construcción de un sistema IN nunca acaba, los objetivos y necesidades cambian, por esta razón el proyecto seguirá evolucionando. Muy difícil será que la primera solución sea la mejor, normalmente hacen falta varias iteraciones para encontrar la más adecuada. Y como tercera sub etapa tenemos al Cierre del Proyecto, en donde se debe archivar toda la documentación generada en el proyecto para que se encuentre disponible a cualquiera de los niveles empresariales, siendo una buena práctica convocar a una reunión de cierre, formalizando la entrega de todos los aplicativos y aceptación del cliente, se elaborará una lista de pendientes por resolver con responsables y fechas de entrega; y si se considera con los costos respectivos aprobados tanto por los consultores cuanto por la organización. Como se indicó anteriormente ahora vamos a determinar exactamente en la etapa de Diseño de M3S, la parte metodológica de la misma y la ponemos a consideración en cada una de sus fases. EXPLICACIÓN FASE DE DISEÑO. (ETAPAS DE LA METODOLOGÍA DE DECISIÓN) La búsqueda de la llamada pureza de datos es importante por los grandes volúmenes de información que se manejan en la actualidad y los costos que representan los proyectos de Tecnología de Información y que se quiere minimizar en los orientados a IN, y una de las formas es tener la certeza de que esa información que va a ser explotada tenga un porcentaje de confiabilidad muy cercano al 100 %. De nada nos serviría tener una gran tabla de entrenamiento en una data con tuplas que cuando tratamos de consultar algo de esa información resulta ser que la misma no es tan confiable como pensamos. ETAPAS METODOLOGÍA DE DECISIÓN 1. Análisis de Calidad de Datos. Analizar datos para un proceso de decisiones, mediante uso de diccionarios de datos, estadísticas, redes sociales y conocimiento de expertos; escogiendo los atributos más relevantes para el estudio, con las características de pureza explicadas anteriormente, sean del tipo 1 (estructurado) o tipo 2 (no estructurado). 2. Hipótesis de Datos. El objetivo que tendrá esta parte metodológica es justamente encontrar una descripción del problema planteado, buscando mediante suposiciones generales a partir de hechos concretos y a raíz de estos clasificar la información para generalizar los casos nuevos. 3. Generación de la tabla para Entrenamiento. Esta tabla es el producto final de los datos limpios y lo más refinados posible según su categoría; así también de la formalización de la o las reglas de negocio previamente establecidas con las cuales se han logrado clasificar la información. A raíz de esta tabla podemos generar el proceso matemático y estadístico para la creación del mejor árbol de decisión de acuerdo con el algoritmo ideal propuesto y a la objetividad que se haya dado en el análisis con la información encontrada. 4. Inferencia del Árbol de decisión. Para generar el árbol de decisión se utilizará inferencia inductiva que es aprendizaje supervisado. Este árbol es una forma de la aplicación del algoritmo ID3 con las mejoras específicas sobre la composición de nodos de dos tipos, el cual se basa en las reglas del negocio formalmente elegido; y del que se prevé tener la mayor ganancia de información, el mismo que se encuentra detallado en la etapa de construcción. Se procederá de forma recursiva de arriba hacia abajo; en cada nodo el atributo “más importante” que discrimina los ejemplos que han llegado hasta este nodo y por último clasificando los casos que siguen para el siguiente nivel. 5. Pruebas de datos sobre el árbol de decisión. Una vez que contamos con el árbol ideal de decisión, el cual con los cálculos de entropía nos genera la mayor ganancia de información; elaboramos un test para verificar que siempre se obtendrán los mejores resultados con nuevos datos que ingresen a evaluarse en el árbol. Se debe tomar en cuenta que, para algunos casos al probar nuevos datos, estos podrían hacer que cambie la clasificación y reglas de la tabla de entrenamiento, lo cual produciría una alteración en el árbol de decisión generado. CONCLUSIONES. En los casos que fueron analizados se almacenaba enorme cantidad de datos, los cuales pudimos encontrarlos en diferentes tipos de bases de datos y plataformas en muchos de los cuales se tiene un alto grado de heterogeneidad, pero la clave radicó principalmente en que se ganó ventaja competitiva tanto en la velocidad de obtención como en la misma calidad y nivel de pureza de esos datos agrupándolos según la categoría aquí descrita. Por lo tanto, en los casos de estudio ejecutados, la gestión eficiente de la inteligencia de negocios permitió ampliar la visión estratégica, reducir el riesgo de costo y disminuir la incertidumbre en la toma de decisiones empresariales; con lo que debemos acotar lo siguiente: • M3S, luego de haber probado su aplicación se comprueba que es una metodología que apunta a las nuevas posibilidades de BI, con fuerza en las pequeñas y medianas empresas públicas o privadas y de cualquier sector productivo o comercial, de tal forma que soportados en la innovación tecnológica se implantó para mejorar las decisiones en las empresas estudiadas. • La propuesta M3S y su metodología, se validó contra los objetivos planteados en esta tesis, se ha confrontado contra otras opciones metodológicas; se validó por parte de expertos y fue testeada en dos empresas de diferente tipo con muy buenos resultados en esta investigación. • M3S se la ha socializado para empresas con un mínimo nivel de madurez en el manejo de la información. • M3S se construyó en base a la experiencia pragmática de profesionales con experticia de muchos años en proyectos de este tipo, por lo que justamente pudo ser probado en diferentes empresas y con el apoyo necesario. • Fue ya categorizada como una metodología integradora, que cuenta con buenas prácticas en cada una de sus etapas, en base a la gama de proyectos ejecutados dentro de distintas áreas. • Luego de los casos de estudio consideramos que se implantó mejor en pequeñas y medianas empresas por la mayor flexibilidad en su estructura plana organizacional, lo que llevó a un mejor apoyo tanto técnico como administrativo. • M3S, se ejecutó con una clara descripción de los procesos y actividades a seguir en la metodología, haciéndola mucho menos burocrática incluso en su propia documentación, más aún en sus etapas que se definen como más ágiles. • Se presentó como una metodología con mayor flexibilidad en la medida que la experiencia de los profesionales que estén al frente puedan ejecutarla de manera óptima en cada una de sus etapas. • M3S, basándose en la fortaleza teórica tanto de metodologías específicas como genéricas existentes y con la disponibilidad de herramientas tecnológicos de alto poder en velocidad de ejecución, se volvió una alternativa práctica y fácil que llevó a cabo proyectos de BI. • Fue considerada como innovadora, en el sentido que quiere aportar nuevas optimizaciones en partes críticas de los proyectos de BI, como son los tiempos y formas de extracción de información. Todo esto permite que con un alto grado de confiabilidad M3S acreditó su pertinencia y su factibilidad, se constituye formalmente como una propuesta a ser considerada en las áreas de informática de las empresas en el país, y finalmente, por lo analizado, descrito en los capítulos anteriores y como conclusión podemos decir que: La Metodología M3S para proyectos de IN, es una nueva alternativa que se pone como una opción dentro de la pequeña y mediana empresa, con objetivos claramente definidos y que se enmarca en un ciclo de vida muy fácil y específico. BIBLIOGRAFÍA Aaker, D. A. (2015). Investigación de mercados (2da. ed.). Mexico: McGraw-Hill Interamericana. Obtenido de http://www.sidalc.net/cgi-bin/wxis.exe/?IsisScript=UCC.xis&method=post&formato=2&cantidad=1&expresion=mfn=030250 AENOR. (2013). Dirección y Gestión de Proyectos - Norma UNE-ISO 21500:2013. Obtenido de iso21500: http://www.idi.es Agenjo, F. E. (2014). Beneficio de la Norma ISO 21500:2013. Obtenido de http://bpmsat.com/beneficios-de-la-norma-iso-215002013 Agueda Barrero, A. (2014). Prince2 Un buen inicio para Project Manager. Recuperado el 03 de 03 de 2017 Ahumada T, E., & Perusca V, J. M. (2016). Inteligencia de negocios: estrategia para el desarrollo de competitividad en empresas de base tecnológica. Contaduría y Administración, 61(1), 127-158. ALEXA. (2017). Top Sites in Ecuador. Recuperado el 17 de 06 de 2017, de ALEXA: http://www.alexa.com/topsites/countries/EC Ballard, C. e. (2006). Improving Business Performance Insight... with Business Intelligence and Business Process Management. International Business Machines (IBM). Barcenas, G. (Enero de 2012). ¿Que es el PMI y que es el PMBOK? Recuperado el 08 de 04 de 2017, de https://formulaproyectosurbanospmipe.wordpress.com/2012/01/18/que-es-el-pmi-y-que-es-el-pmbok/ Bernal, J. J. (23 de agosto de 2013). www.pdcahome.com. Recuperado el 16 de enero de 2017, de http://www.pdcahome.com/5202/ciclo-pdca/ Bonke, S., & Winch, G. (2002). Project Stakeholder Mapping: Analyzing the Interests of Project Stakeholders. Frontiers of Project Management Research, 2002, p. 385-405. Brenes, C. (06 de 2013). Resumen de Norma ISO21500 Directrices para la Dirección y Gestión de Proyectos. Obtenido de http://www.ucipfg.com Caldeira, C. (2012). Data Warehousing: Conceitos e Modelos. Brasil. Obtenido de http://hdl.handle.net/10174/6364 Calderon C, M., Iriarte G, A., & Trejos T, E. (2014). Marco de Referncia Implementación ISO21500. (U. d. Buenaventura, Ed.) Biblioteca Digital. Obtenido de http://hdl.handle.net/10819/2319 Calzada, L., & Abreu, J. (09 de 2009). El Impacto de las herramientas de Inteligencia de Negocios. DAENA (International Journal of Good Conscience), 52. Obtenido de http://www.spentamexico.org/v4-n2/4(2)/02016-52.pdf Cámara Nuñez, C. (2010). Análisis de los Sistemas Bussines Intelligence y su aplicación práctica en los Proyectos de Software. Madrid, España: Universidad Carlos III de Madrid. Capgemini. (2014). Traditional BI vs . Business Data Lake – A comparison The need for new thinking around data storage and analysis. Obtenido de https://www.mx.capgemini.com/resource-file-access/resource/pdf /pivotal_data_lake_vs_traditional_bi_20140805_0.pdf Cobo Y, A. (2007). Diseño y Programación de Bases de Datos. Madrid, España: Vision Libros. Coquillat, M. (18 de Junio de 2014). Origen de la norma ISO 21500. Obtenido de http://iso-21500.es Coronel Carlos, R. P. (2011). Concepto de bases de datos. En Bases de datos diseño, . Mexico: Cencage Lerning. Cruz Caicedo, L. (2012). Comparativa ISO 21500 y PMBOK Versión 5. i Congreso Internacional Gerencia de Proyectos. Bogotá, Colombia. Obtenido de http://americalatina.pmi.org/media/files/latam/colombia/2012_co_cruz.aspx Date, C. (2001). Introducción a los Sistemas de Bases de Datos, Apoyo para la toma de decisiones. Obtenido de Revistas Uis: http://revistas.uis.edu.co/index.php/revistauisingenierias/article/view/1771/2152. DIAZ TOVAR, Y. (2014). Norma GTC-ISO 21500 en la gestion de la calidad la toma de decisiones en la gestion de proyectos. Bogotá. Obtenido de http://unimilitar-dspace.metabiblioteca.org/bitstream/10654/13016/1/Ensayo%20Norma%20ISO%2021500.pdf Díaz, J. C. (2010). Introduction Business Intelligence (1era ed., Vol. Primera Edición). (E. C. SA, Ed.) Barcelona, España: UOC. Recuperado el 16 de 07 de 2016, de www.editorialuoc.com Díaz, J. C. (2012). Introducción al Inteligencia de Negocios (Vol. 1era.). (E. C. SA, Ed.) Barcelona, España: UOC. Dictuc S, A., E.P., C., & Torres, M. (2010). Proyecto Infox divulgación y comercialización de una herramienta para proveer autoservicio de datos, computo e información a personas no especialistas. Santiago, Chile: Innova Chile. Dueñas-Reyes, M. (2009). Minería de datos espaciales en búsqueda de la verdadera información. Ingeniería y universidad,. Bogotá, Colombia: Universidad Distrital Francisco José de Caldaz. doi:0123-2126 Duran, E., & Costaguta, R. (2007). Minería de Datos para Descubrir estilos de Aprendizaje. (O. D. OEI, Ed.) Revista Iberoamericana De Educacion ISSN 1681-5653, 42(2), 10. Ecured. (2012). Tabla de Dimensión. Recuperado el 09 de 10 de 2017, de http://ecured.cu/Tabla_de_dimension%C3%B3n-bases-de-datos Espinosa, R. (2010). Kimball vs Inmon. Ampliación de Conceptos del Modelado Dimensional. Evelson, B. (2010). The Forrester Wave™: Enterprise. Business Intelligence. 20. Obtenido de ftp://ftp.support.lotus.com/software/sk/pdf/ForresterWave_for_Enterprise_Business_Intelligence_Q4_2010_Oct10.pdf Facil, B. (2009). Tablas de Hecho. Recuperado el 25 de 08 de 2016, de Inteligencia de Negocios Info: http://www.businessintelligence.info/serie-dwh/tablas-de-hecho-fact-tables.html Fernandez A, V. (2006). Desarrollo de Sistemas de Información. Una metodología basado en el Modelado (1era. ed.). (U. Politécnica, Ed.) Barcelona, España. Obtenido de https://pdfs.semanticscholar.org/946d/1e19f09e8dac8744f7875c876fe14a73e9b0.pdf Fernández, M. A. (31 de Enero de 2013). La Gestión y Dirección de Proyectos. Obtenido de Red.es: https://www.aec.es Freijedo, C., & Grassi, J. (2012). Estudio sobre metodologías para la gestión de proyectos de software. Propuesta y Aplicaciones. Argentina: Universidad de San Andrés. Fuentes, L., & Ricardo, V. (2010). Incorporación de Elementos de Inteligencia de Negocios en el Proceso de Admisión Y Matrícula de una Universidad Chilena. Ingeniare. Revista chilena de ingeniería, 18(3), 383-394. Obtenido de http://dx.doi.org/10.4067/s01718-33052010000300012 Galhardas, H., Florescu, D., Shasha, D., & Simon, E. (2000, May). AJAX: an extensible data cleaning tool. In ACM Sigmod Record (Vol. 29, No. 2, p. 590). ACM. Gallego Calonge, F. (2012). La Medición de la Televisión Social en España. Conceptos y Evolución. Presente y Futuro. III Congreso Internacional de Comunicación 3.0, 13. Obtenido de http://campus.usal.es www.comunication3punto.com García M, R., Lelli, R., Merlino, H., Cornachia, L., Rodríguez, D., Pytel, P., & Arboleya, H. (2011). Ingeniería de proyectos de explotación de información para PyMEs. Red Universidades de Carreras de Informática. Obtenido de http://sedici.unlp.edu.ar/handle/10915/20017 Garcia Reyes, R. (2012). Minería de Datos para la Toma de Decisiones e Inteligencia de Negocios. México D.F., México: Universidad Nacional Autónoma de México. García, C., Espinoza, L., Castañeda, M., Ostos, R., & Salazar, M. (2016). Gestión del Conocimiento. Garcia, D. (2007). Algoritmo de discretizacion de series de tiempo basado en entropía y su aplicación en datos colposcopicos (Doctoral dissertation, tesis para obtener el grado de Maestro en Inteligencia Artificial. Veracruz, México: Universidad Veracruzana. Obtenido de http://cdigital.uv.mx/bitstream/123456789/32352/1/garcialopezdaniel.pdf García, R. (12 de Febrero de 2018). Repositorio Central Cepal. Obtenido de http://repositorio.cepal.org/bitstream/handle/11362/33747/S8500576_es.pdf?sequence=1 Gartner. (2017). Gestion de Proyectos. Recuperado el 15 de 02 de 2017, de http://www.gartner.com/it-glossary/project-management González, R. M., & M., &. d. (2001). Marketing en el Siglo XXI. (5TA ed., Vol. 5TO). (C. d. Financieros., Ed.) España: CEF. Obtenido de www.marketing-xxi.com: http://cef.eslibros Gracia, V., & Galán, A. (2014). WSM: Metodología De Web Scraping Para Android y Ejemplificación Mediante la Aplicación Upmdroid. Madrid, España. Grande, I., & Elena, A. (2005). Análisis de Encuestas. Madrid, España: ESIC. Granero, G. (2013). NOTAPRENSA Tabla AEN 6023 1. Recuperado el 18 de 11 de 2016, de https://www.aenor.es Grossman, W. (1998). Fundametals of Bussiness Intelligence. Springer. Guarin, O. (2016). Gerencia de Proyectos PMBOK (Parte 1). Recuperado el 19 de 04 de 2017 Han, J. P., & Kamber, M. (2009). Data Minnig: Concepts and Techniques (3era. ed., Vol. 3era Edición). (B. L. Data, Ed.) EEUU: Elsevier Inc. Obtenido de htttp://mkp.com Horwitt, E. (2011). Self-service BI catches on. Computerworld. Obtenido de https://scholar.google.es/scholar?hl=es&q=Self-service+BI+catches+on&btnG=&lr= Inmon, W. (2012). Building the Data Warehouse. New York, EEUU: John Wiley & Sons, Inc. New York, NY, USA ©2002. Obtenido de http://dl.acm.org/citation.cfm?id=560407 Inmon, W. H. (2001). Data WareHousing. (berkeley, Ed.) Sao Paulo, Brasil. Jara, J. (2012). Big Data & Web Intelligence. Asunción, Paraguay: Universidad Catolica Nuestra Señora de la Asuncion. Obtenido de http://jeuazarru.com Jimenez Nieto, E. (2013). La Inteligencia de Negocios. Recuperado el 16 de 02 de 2017, de http://www.gestiopolis.com/la-inteligencia-de-negocios/ Joyanes Aguilar, L. (2013). Big Data: Análisis de grandes volúmenes de datos en organizaciones. México: AlfaOmega Grupo Editor, S.A de C.V. KAMEL. Rouibah y SAMIA, O.-a. (2002). A concept and prototype for linking bisiness intelligence to business strategy. Journal of Strategic Information System Vol.11, 133-152. Obtenido de http://www.sciencedirect.com/science/article/pii/S0963868702000057 Kettinger, W. J., Teng, J. T., & Subashish, a. G. (1997). Business Process Change: A Study of Methodologies, Techniques, and Tools. Management Information Systems Research Center, University of Minnesota, 21(1), 57-80. doi:10.2307/249742 Kilmer, J., & Salinas, P. (s.f.). Arboles de Decisión. Krogh, G., & von. (2002). The Communal Resource and Information System. Journal of Strategic Information System 11, 85-107. Obtenido de http://www.sciencedirect.com/science/article/pii/S0963868702000069 Laudon, K., & Jane, L. (2008). Sistemas de Información Gerencial. Administración de la Empresa Digital (10ma. ed.). (P. Hall, Ed.) México. Lazzati, S. (2013). La Toma de Decisiones. Principios, procesos y Aplicaciones. (1era. ed.). Buenos Aires, Argentina: Granica S.A. Lopez. (2014). Otra Metodología para la gestión de Proyectos. Recuperado el 2016, de http://eoi.es/blogs/mcalidadon/2014/12/20/prince2-otra-forma-para-la-gestion-de-proyectos/ Marboleda. (2017). Obtenido de http://www.hablemosdemarcas.com/estadisticas-de-redes-sociales-en-ecuador-2017/ Martin, J. (1989). Organización de las Bases de Datos. Obtenido de wpalma: http://zeus.inf.ucv.cl/~jrubio/docs/2009-01/INF%20340/Capitulo%20I.pdf. Martinez, A. (2001). Bases metodológicas para evaluar la viabilidad y el impacto de proyectos de telemedicina. Madrid, España: Universidad Politécnica de Madrid. Martinez, F. (10 de Noviembre de 2014). ISO 21.500 El Lenguaje De La Dirección De Proyectos. Obtenido de http://www.coaatgr.es Martínez, R. E., Ramírez, N. C., Mesa, H. G., Suárez, I. R., Trejo, M. D., León, P. P., & & Morales, S. L. (2009). Arboles de decisión como Herramienta en el Diagnóstico Médico. Veracruz, México. Obtenido de http://www.medigraphic.com/pdfs/veracruzana/muv-2009/muv092c.pdf Martínez, S., & R., G. (2009). Integración de los algoritmos de minería de datos 1R, PRISM e ID3 a PostgreSQL. Obtenido de Scielo: http://www.scielo.br/scielo.php?pid=S1807-17752013000200389&script=sci_arttext&tlng=pt#B12 Medina Chicaiza, R. P. (2004). INTERFAZ, INTELIGENCIA DE NEGOCIOS y PYMES. Obtenido de http://repositorio.pucesa.edu.ec/handle/123456789/1368 Mitchell, T. (1997). Machine Learning (Mc Graw Hill ed.). Illinois, EEUU: University of Illinois. Morales, S., Morales, M., & Rizo, R. (2016). Implementación de Metodología IN, con optimización en ETL usando tecnología In Memory. I Congreso Internacional de Software Aplicado a la Agricultura, Turismo e industria SAATI. Milagro. Obtenido de http://cidecuador1.wixsite.com/sistemas-milagro/memorias Morales, S., Morales, M., & Rizo, R. (2017). Metodología para los procesos de inteligencia de negocios con mejoras en extracción y transformación de fuentes de datos. II Congreso Internacional. Ciencia, Sociedad e Investigación Universitaria, desarrollado en la Pontificia Universidad Católica del Ecuador. AMBATO. Obtenido de http://repositorio.pucesa.edu.ec/bitstream/123456789/2354/1/Metodolog%c3%ada.pdf Morales, S., Morales, M., & Rizo, R. (2018). Sistemas de Información e Inteligencia Artificial. Quito. Obtenido de http://uce-ing-informatica.blogspot.com/2018/02/i-jornadas-tematicas-en-sistemas-de.html Moreno, A. (1994). Aprendizaje Automático. Barcelona, España: Edicions UPC. doi:ISBN: 9788483019962 Moreno, S. (2012). Primera Forma Normal. Recuperado el 07 de 12 de 2016, de http://prezi.com/nanwvndiwhjy/forma-normal/. Multiplicalia. (Febrero de 2017). Multiplicalia. Obtenido de https://www.multiplicalia.com/redes-sociales-mas-usadas-2017/ Negash, S. (2004). Business Intelligence. Communications of the Association for Information Systems, 13, 177-195. Obtenido de http://aisel.aisnet.org/cgi/viewcontent.cgi?article=3234&context=cais Orozco, J., & Soriano, F. (2016). Study of Intelligence in Business network used more. PMI. Parr, O. R., & Sons. (2009). Business Intelligence Success Factors. PDCA, C. (2013). El círculo de Deming de mejora continua. Peng, W., Chen, J., & Zhou. (2012). An Implementation of ID3. TREE LEARNING ALGORITHM. Sidney, Australia: University of New South Wales, School of Computer Science & Engineering. Obtenido de http://cis.k.hosei.ac.jp/~rhuang/Miccl/AI-2/L10-src/DecisionTree2.pdf Peña, J. A. (22 de Noviembre de 2012). PMBOK. Obtenido de Universidad Autónoma de la ciudad de México: http://pmbokuacm.weebly.com/13/post/2012/11/explicacin-acerca-del-pmbok.html Pérez Cesar, S. D. (2008). Conceptos, técnicas y sistemas. En Minería de datos técnicas y herramientas. Madrid. Pino, R., Gómez, A., & de Abajo, N. (2001). Aprendizaje automático. En Introducción a la inteligencia artificial(8). Oviedo: Servicios de Publicaciones Universidad de Oviedo. PMI. (2017). Que es PMI. Recuperado el 19 de 04 de 2017, de https://americalatina.pmi.org/latam/aboutus/whatispmi.aspx Pyle, D. (2003). Business Modeling and Data Mining. Morgan Kaufmann Publishers. Quinlan, J. (1986). Induction of decision trees. Machine learning. Kluwer Academic Publishers. Obtenido de https://doi.org/10.1007/BF00116251 Ranjan, J. (2009). Business Intelligence: Concepts, components, Techniques and benefits. Journal of Theorical and Applied Information Technology, 70. Obtenido de http://www.jatit.org Reinschmidt, J., & Allison, F. (2000). Business Intelligence Certification Guide. California, EEUU: IBM International Technical Support Organisation. doi:SG24-5747-00 Rivadera, G. (2010). La Metodología de Kimball para el Diseño de Almacenes de Datos. Rodallegas Ramos Erika, T. G. (2010). Minería de Datos: predicción de la deserción escolar mediante el algoritmo de árboles de decisión y los k vecinos más cercanos. Puebla, México: Universidad Tecnológica de Izúcar de Matamoros. Rodriguez Mogollón, S. (2009). Gestión de Polizas de Seguros. Un caso práctico de Business Intelligence. Madrid, España: Politecnica Superior. Ingeniería Informática. Obtenido de https://core.ac.uk/download/pdf/29401348.pdf Rokach, L., & Maimon, O. (2008). Data mining with decision trees: theory and applications. Singapore: World Scientific Publishing Co. Pte. Ltd. Rosado Gomez, A. A. (01 de 04 de 2010). Inteligencia de Negocios. (U. T. Pereira, Ed.) Scientict Technica AÑO.VVI. No. 44, 44, 321-326. Obtenido de http://www.redalyc.org/html/849/84917316060/ Salas, R. (2004). Redes Neuronales Artificiales. Valparaiso, Argentina: Departamento de Computación. Salinas La Rosa, A. (2010). Inteligencia de Negocio. Auditoría y Control. Prototipo de Herramienta de Calidad (Vol. 1). (D. D. INFORMATICA, Ed.) Leganes, España: UNIVERSIDAD CARLOS III DE MADRID. Obtenido de https://core.ac.uk/download/pdf/29402111.pdf Sánchez, J. (2004). Principios sobre bases de datos relacionales. California, Eeuu: Creative Commons. Recuperado el 2017, de http://cursa.ihmc.us/rid=1H73QYLH3-6LFRCX-JT6/bdrelacional.pdf Santana, B. (2011). Primeros pasos hacia la Inteligencia de Negocios. Sempere, J. (2014). Aprendizaje de árboles de decisión. Valencia, España. Recuperado el 18 de 12 de 2016 Silberschatz, A., Korth, H. F., Sudarshan, S., Pérez, F. S., Santiago, A. I., & &. S. (2002). Fundamentos de Bases de Datos (4ta. ed., Vol. 4ta.). Madrid, España: Concepción fernandez Madrid. Stackowiak, R., Greenwald, R., & Rayman, J. (2007). Oracle Data Warehousing and Business Intelligence Surajit, C., Umeshwar, D., & Narasaya, &. (2011). BI technologies are essential to running today´s business and this technology is going through sea changes. Communications of the ACM. Thompson, I. (10 de 2008). Definición de Información. Recuperado el 2017, de https://scholar.google.es/scholar?q=THOMPSON++definicion+de+informacion&btnG=&hl=es&as_sdt=0%2C5: Tom, M. (1997). An Overview of Machine Learning. (S. link, Ed.) EEUU: Routger University. Recuperado el 2015, de https://link.springer.com/book/10.1007/978-3-662-12405-5 Torres Hernández, Z. (2014). Administracion de Proyectos (1ra Edición ed.). Mexico. D.F., Mexico: Patria. Tseng, F. S., & H, C. A. (2006). The concept of document warehousing for multi-dimensional modeling of textual-based business intelligence. Decision Support System, 727-744. Ullman, J. D., Widom, J., & Miguel, E. A. (1999). Introducción a los Sistemas de Base de Datos. (P. Hall, Ed.) doi:No. 001-6-U55Y Urdaneta,Elymir (2001). El Data Mining. Valdez Aguliar, P. A. (2016). Guia de Gestión de Proyectos. Ciudad de México, México: UPIICSA. Obtenido de http://tesis.ipn.mx/bitstream/handle/123456789/20367/GUIA%20DE%20GESTION%20DE%20PROYECTOS.pdf Vanrell, J. Á., Bertone, R. A., & Ramón, G. M. (2010). Modelo de Proceso de Operación para Proyectos de Explotación de Información. In XVI Congreso Argentino de Ciencias de la Computación. Universidad De Lanus, Grupo De Investigacion En Sistemas De Informacion. Departamento De Desarrollo Productivo Y Tecnologico., Lanus. Obtenido de http://sedici.unlp.edu.ar/handle/10915/19328 Verástegui, J. M. (22 de Junio de 2014). ISO 21500 Directrices para la Dirección y Gestión de Proyectos. Recuperado el 02 de 02 de 2017, de IV Congreso Internacional de Direccion de Proyectos: http://www.iso-21500.es Vercellis, C. (2009). Business Intelligence: data Mining and Otimizationfor Decision Making. Milano, Italia: Jhon Wiley & Sons Ltd. Obtenido de http://wiley.com Vila Grau, J. (2015). El Método PRINCE" en menos de 1000 palabras. Obtenido de https://es.slideshare.net/benq2011/mp-el-mtodo-prince2-en-menos-de-mil-palabras-46041095 Vilchez, M. &. (2011). Desarrollo de un modelo de inteligencia de negocios usando Data Mining para optimizar la toma de decisiones en los procesos de ventas en la empresa San Roque SA Universidad Señor de Sipán Facultad de ingeniería. Escuela Profesional Ingeniería de sistemas. (E. d. Sistemas, Ed.) Chiclayo, Perú: Universidad Señor de Sipán. Obtenido de http://repositorio.uss.edu.pe/handle/us/387 Villalon M, D. M. (2006). Recomendaciones para la Implementación de BI, basado en Data Warehouse. Técnico de Monterrey. Mexico DF, MEXICO. Obtenido de http://hdl,handle.net Westerman, P. (2001). Data warehousing: using the Wal-Mart model. Morgan Kaufmann. EEUU: Academic Press. Obtenido de http://www.academicpress.com Wixom, B. H., & Watson, H. J. (2014). The Current state of Business Intelligence Of Academia. (Q. U. Technology, Ed.) Comunicattion of the Association for Information Systems. Zarate Gallardo, E. d. (2013). Inteligencia de Negocios. (https://www.gestiopolis.com/inteligencia-de-negocios/, Editor) Recuperado el 20 de 03 de 2017.