Técnicas de aprendizaje automático aplicadas al procesamiento de información demográfica

Ruiz Chávez, Zoila de Lourdes

Técnicas de aprendizaje automático aplicadas al procesamiento de información demográfica

Ruiz Chávez, Zoila de Lourdes

Dirigida por:

José García Rodríguez Director

Universidad de defensa: Universitat d'Alacant / Universidad de Alicante

Fecha de defensa: 11 de junio de 2019

Tribunal:

José María Cecilia Canales Presidente/a
David Tomás Díaz Secretario
Horacio E. Pérez Sánchez Vocal

Departamento:

TECNOLOGIA INFORMATICA Y COMPUTACION

Tipo: Tesis

Teseo: 594414 DIALNET RUA editor

Resumen

1. INTRODUCCIÓN En la actualidad existen estudios en diferentes campos orientados a extraer información relevante sobre tendencias, desafíos y oportunidades a partir de los datos, todos estos estudios tienen algo en común, trabajan con grandes volúmenes de datos o Big Data. El uso de grandes volúmenes de datos es cada vez más evidente, pero estos conjuntos de datos, en su mayoría, son complejos y provienen de diversas fuentes siendo estos estructurados o no estructurados, algunos autores mencionan la combinación de características de estos dos tipos como datos semi-estructurados. Por ello, es necesario buscar mecanismos que permitan clasificar estos datos y, de cierta manera, organizarlos para facilitar a los usuarios la extracción de información relevante. Existen diferentes mecanismos para el procesamiento y análisis de datos, entre ellas podemos mencionar las técnicas estadísticas, estocásticas y las basadas en Aprendizaje Automático o Machine Learning (ML por sus siglas en inglés). Estas últimas pertenecen a una rama de la Inteligencia Artificial que se basa en técnicas que permiten a las computadoras aprender y modificar su comportamiento en función de su experiencia o conocimiento adquirido de manera autónoma [81]. El Aprendizaje Automático agrupa una amplia gama de técnicas enfocadas a resolver diversos problemas, como son: selección de características, clasificación, agrupación o imputación de datos entre otras. El principal problema encontrado en los diferentes estudios orientados al procesamiento de los grandes volúmenes de datos reside en la selección de técnicas adecuadas para la selección y clasificación de variables. La técnica escogida depende del tipo de información analizada, esto permite obtener información de mayor calidad, reducir el coste computacional y mejorar tiempos de proceso. Entre los criterios más empleados se encuentran: la dimensionalidad de los datos, las características relevantes [33] y la veracidad de la información obtenida. Con estas consideraciones podemos seleccionar las técnicas más adecuadas de Aprendizaje Automático que nos permitan optimizar los resultados obtenidos. 2. MOTIVACIÓN La principal motivación para la realización de este proyecto aparece por la inquietud en encontrar nuevas relaciones entre datos provenientes de censos o encuestas y la manera de analizarlos para ayudar en la resolución y toma de decisiones relativas a diversos problemas sociales y de salud pública. En el Ecuador, dentro de la constitución 1 se establecen una serie de propuestas, requerimientos y líneas de actuación, para el fortalecimiento de la investigación en campos que son prioridad para el estado. El Art. 80 garantiza la investigación científica y tecnológica en Universidades, Escuelas Politécnicas y centros de investigación científica. A través de los diferentes objetivos establecidos en el Plan del Buen Vivir (actualmente Toda una Vida), se establecen dichos campos de investigación, que permiten encontrar financiamiento para realizar diferentes proyectos de investigación que contribuyan al cumplimiento de cada objetivo o bien aporten información que permita formular políticas públicas. Dentro de los objetivos se plantea la financiación de las propuestas de Investigación, Desarrollo e Innovación, I+D+i, que es el marco en que se desarrolla este proyecto. Por otro lado, consideremos que en los países se realizan periódicamente los censos de población y vivienda, para poder generar políticas en base a los indicadores que se obtienen y calcular proyecciones que se van ajustando en el tiempo gracias a las encuestas que se realizan en períodos de tiempo más cortos. Estas proyecciones permiten a los Gobiernos locales y nacionales conocer de forma anticipada las necesidades sociales básicas relativas a la educación, salud, vivienda, empleo, movilidad y seguridad, permitiendo así encaminar sus decisiones de asignación de recursos e implementar políticas para mejorar la calidad de vida de toda una sociedad. En cada país, existen instituciones encargadas de generar informes que contiene estimaciones, proyecciones e indicadores derivados de fuentes de información como son, los censos y encuestas que se realizan en períodos de tiempo establecidos. Mediante el análisis y procesamiento de estos datos, se calculan proyecciones e indicadores y estos se los puede contrastar con información de estadísticas vitales. Siendo los recursos técnicos más empleados, aquellos que se basan en estimaciones estadísticas. Actualmente se está apostando por nuevas metodologías para el análisis de este tipo de datos, de manera que la obtención de patrones que describan subconjuntos representativos de los datos recopilados se convierte en el principal objetivo y enfoque de nuestro trabajo. De esta manera, obtener estas agrupaciones relevantes en base a la información proveniente de censos o encuestas, permite de cierta manera dar un significado al comportamiento de cada grupo obtenido y poder extraer información no trivial y convertirla en información potencialmente útil para describir algún fenómeno. 3. DESARROLLO TEÓRICO En este trabajo, se presenta una metodología orientada a procesar datos provenientes de censos o encuestas. La metodología propuesta se basa en las características de los grandes volúmenes de datos y la relevancia que tiene la información que se obtiene de censos o encuestas. El método propuesto aborda el problema de imputación de datos perdidos o ausentes que son muy frecuentes en censos o encuestas. Previo al proceso de imputación, la información necesita ser procesada para extraer un subconjunto de información completa necesaria para entrenar modelos de aprendizaje automático con la finalidad de predecir los valores ausentes. Para conseguir este dataset se utilizaron varias técnicas tradicionales tales como Pairwise Deletion y Listwise Deletion con la finalidad de eliminar observaciones que presentan valores perdidos. Como siguiente paso en la metodología, se plantea la generación de grupos de información a través de técnicas de aprendizaje automático no supervisado y a través de redes neuronales artificiales. Estos grupos de información que comparten características comunes sirven como datos o fuente de entrada en el proceso de imputación de datos perdidos o ausentes. Los resultados obtenidos en la fase experimental muestran que la generación de grupos (de forma manual o automática) permiten mejorar la clasificación de la variable de prueba, sin embargo, también se debe considerar la etapa previa a la generación de grupos. Finalmente, como caso de estudio para validar la propuesta se plantea la imputación de datos para calcular la tasa de mortalidad infantil con brechas educativas para lo cual se seleccionó un dataset de pruebas de una región geográfica específica. En el desarrollo de la investigación se realizó las siguientes etapas: DESCRIPCIÓN DE DATOS A PROCESAR En este estudio se tomó la información correspondiente al censo de población y vivienda del año 2010 de Ecuador, ésta información posee atributos de tipo numéricos y categóricos, tiene una alta dimensionalidad con millones de registros y se encuentra agrupada de la siguiente manera: • Vivienda: Información asociada a la vivienda (37 atributos) • Hogar: Información asociada al hogar (41 atributos) • Persona: Información asociada a personas (101 atributos) Además de la información anterior encontramos datos concretos relacionados con la división político administrativa del país (información geográfica DPA). • i01 Provincia • i02 Cantón • i03 Parroquia • i04 Zona • i05 Sector Cada valor corresponde al código local de la región geográfica. PRE-PROCESAMIENTO: Los datos a ser analizados provienen del censo de población y vivienda de Ecuador del 2010, presentan problemas como ausencia de datos, alta dimensionalidad y un gran volumen de datos, por ello es necesario tratar los datos previo a cualquier análisis. Se pueden definir cuatro fases dentro del pre-procesamiento de los datos[42]: Integración.- Para el estudio sobre mortalidad infantil, se integraron los datos provenientes de los grupos de población y vivienda (Vivienda, Hogar, Persona, DPA). De estos datos se ha seleccionado el conjunto correspondiente a las observaciones que cumplen la condición que la variable p01 tenga un valor igual a 2 (sexo=mujer). Sobre este conjunto aplicamos un nuevo filtro a la variable p03 que corresponde a edad, en este estudio se deben seleccionar sólo los registros de mujeres que están en edad fértil (15-50 años). El dataset generado luego de aplicar los dos filtros corresponde a un total de 104,501 observaciones. Este paso aporta una solución parcial al problema NMAR eliminando todos los datos ausentes producto de aplicar preguntas a un sector de personas a las cuales no corresponde contestar cierto grupo de preguntas, como por ejemplo: número de hijos nacidos vivos, número hijos varones nacidos vivos a personas de sexo = hombre}, en este caso no se debe imputar valores para estas variables porque serían incorrectos y produciría información no válida. Con este conjunto procedemos a ejecutar la siguiente etapa. Limpieza.- Para que los datos sean consistentes, se ha detectado si existen valores perdidos, inconsistentes o ausentes para poderlos corregir, imputar o en su caso, eliminar. Tomemos el ejemplo de la variable p23 (Cuál es el nivel de instrucción más alto al que asiste o asistió). Esta variable no contiene valores perdidos, sin embargo, al realizar el cálculo de la frecuencia existen valores igual a 99 (1,776 casos). Estos casos corresponden a personas que no responden, por lo cual se consideran como valores perdidos. De igual manera se analizan cada una de las variables. Una vez detectados estos casos cuyos valores no son válidos para cada variable, se los reemplaza con NA (no aplica). Luego de la asignación de valores perdidos, se eliminaron mediante Pairwise deletion las variables para las cuales existe un número alto de valores NA, (la proporción de ausencia de datos es tan grande que la variable no debe ser considerada). En este caso corresponde a las variables: p06 (101,126 valores NA) y p25 (80,013 valores NA). La variable p01 (sexo) fue eliminada porque al realizar el filtro con valor 2 para esta variable, todos los registros del dataset corresponden a MUJER y por lo tanto ya no es representativa para el análisis. Con estos cambios aplicamos Listwise deletion para eliminar las filas donde al menos una columna tenga valores NA. En este paso obtenemos un dataset completo que nos permite entrenar el modelo y verificar la exactitud. El resultado del paso anterior corresponde al dataset utilizado para entrenamiento y pruebas de los diferentes métodos. Reducción.- De toda la información disponible en el censo se consideran las "posibles" variables que pueden influir en el cálculo de la “tasa de mortalidad infantil según brechas educativas”. Mediante el uso de Bosques Aleatorios (en inglés Random Forest - RF) se obtienen las variables más representativas para el cálculo de la variable graesc. Como resultado obtenemos un conjunto de datos con un total de 25 variables pero con las consideraciones anteriores el número se reduce a 22. Transformación.- Una vez conseguido un dataset completo y concreto, transformamos todas las variables a variables categóricas y, dependiendo del algoritmo a ser utilizado, realizamos las transformaciones puntuales requeridas para ser procesados de manera adecuada. Para el uso de métodos de agrupación basados en modelos neuronales como Mapas auto organizativos--SOM y Gases neuronales crecientes (en inglés Growing Neural Gas -GNG) [39] todas las variables son transformadas a binarias. Estos métodos son utilizados para la generación de clusters. Cada una de ellas está orientada a tratar los datos de tal manera que, al finalizar el proceso, podamos contar con datos confiables, correctos y concretos que sean de utilidad para el estudio planteado. SELECCIÓN DE VARIABLES Como parte de la reducción de dimensionalidad, se utilizó el método bosques aleatorios (random forest) para seleccionar los atributos más representativos. Este proceso se realizó utilizando la librearía H2O sobre R debido a que no fue posible procesarlo solamente en R por limitaciones de memoria. Random Forest Como primer paso se ejecuta el modelo Random Forest en modo no supervisado y a continuación se utilizan los resultados obtenidos para predecir el valor de la variable graesc en función de las variables restantes. No se consideran las variables geográficas i01, i02, i03, i04, i05 en el proceso de selección de variables. Necesitamos posteriormente estas variables para el análisis final. Debido a la limitación de ejecutar Random Forest con el dataset completo, se optó por ejecutarlo utilizando la librería H2O sobre R. El inconveniente de esta ejecución es que solo soporta la ejecución en modo supervisado (clasificación) a diferencia de R que soporta la ejecución en modo no supervisado. Todas las variables son de tipo categórico, con lo que el modelo corresponde a un modelo de clasificación. Ranking.- Para la generación de ranking de variables, se ejecuta un modelo de Random Forest en modo no supervisado. El proceso de entrenamiento se lleva a cabo con 50 árboles y se parametriza para que se entrene de forma no supervisada. Clasificación.- El mismo modelo se utiliza para realizar una clasificación de la variable graesc en función de las variables restantes. Al igual que en el modelo anterior, el modelo se parametriza con 50 árboles. GENERACIÓN DE CLUSTERS MEDIANTE SOM-CLUSTER JERÁRQUICO Una vez que se obtuvo un dataset completo, podemos empezar a entrenar el modelo para imputar las variables que contienen valores ausentes. El método de imputación propuesto genera una cantidad definida de clusters (agrupaciones) de forma automática. Modelos auto-organizativas (SOM).- Este modelo opera únicamente con variables numéricas, por ello se crea variables dummy por cada variable categórica. • Topología: rectangular • Tamaño de la malla: 5x5 • Número de iteraciones: 100 • Learning rate: 0.05 - 0.01 Se ejecuta el algoritmos SOM y se obtiene una malla con 25 celdas, para generar clusters el proceso consiste en utilizar la asignación de cada observación al vector representativo como un cluster. Cada celda corresponde a un cluster, y cada observación se asigna al vector más cercano dentro de la malla. Con esto, el número de clusters corresponde al tamaño del grid (25 en nuestro caso). Clustering en base al mapeo de datos (codebook).- para reducir el tamaño de clusters a un número que represente de forma adecuada la variabilidad de los datos, Se utilizó la concepción del mapeo de los datos originales hacia un conjunto más pequeño de valores cercanos a los valores originales (codebook). Para conseguir este propósito, fue necesario determinar la media de la variabilidad de las observaciones dentro de cada cluster mediante (WCSS within Cluster Sum of Squares), que muestra la distribución del error según el número de clusters. Es fácil notar que con un número de clusters igual a 7 se tiene un punto de estabilidad en la distribución del error. A partir de este punto la variabilidad de los clusters es más homogénea. Aplicando cluster Jerárquico obtenemos finalmente 7 clusters. Sobre los cuales se procede a imputar los valores ausentes. IMPUTACIÓN DE DATOS Se emplearon métodos de imputación (estadísticos y de aprendizaje automático) sobre los grupos (clusters) generados por SOM- Clusters Jerárquico (mediante el mapeo de datos). Se pudo notar una mejora en la precisión al aplicar los métodos de imputación sobre cada cluster, tanto en las técnicas estadísticas como en los algoritmos de aprendizaje automático. Esto se dedujo al comparar estos resultados con los resultados obtenidos al aplicar los mismos métodos sobre el dataset completo. Finalmente con el dataset imputado se realizó los cálculos de la tasa de mortalidad infantil con brechas educativas. 4. CONCLUSIONES En este trabajo se presenta una metodología orientada al procesamiento de datos provenientes de censos o encuestas a través de algoritmos de aprendizaje automático. La propuesta se basa en el análisis previo de las características de los grandes volúmenes de datos, técnicas estadísticas y algoritmos de aprendizaje automático, ausencia de datos, alta dimensionalidad y tipos de datos. En las pruebas preliminares fue necesario introducir cambios en los modelos habituales de procesamiento de datos debido a que la variable a clasificar es de naturaleza categórica y el umbral que separa cada categoría no es sencillo de determinar a partir del resto de variables. En el primer paso de la metodología se obtiene un conjunto de datos completo que permite probar la eficiencia de los algoritmos, para cumplir con este propósito se utiliza Pairwise Deletion y Listwise Deletion con la finalidad de eliminar todas las observaciones que presentan al menos un valor ausente o fuera de rango. Como siguiente paso en la metodología, se realizaron pruebas con distintos algoritmos. Mediante técnicas de aprendizaje automático no supervisado y redes neuronales artificiales se planteó la creación de grupos (clusters) que comparten características similares. A cada grupo se le aplicaron las distintas técnicas de clasificación: estadísticas y de aprendizaje automático. Con la generación de grupos de forma automática se verificó un aumento en la precisión utilizando técnicas estadísticas y un aumento en la precisión de algunos métodos de aprendizaje automático supervisado. La metodología propuesta para la imputación de datos incorpora una etapa previa: • Generación del dataset de entrenamiento de los métodos de clasificación. • Generación de grupos de información para procesarlos de forma independiente. El procesamiento de grandes volúmenes de datos suele tener altos costes computacionales y tiempos elevados de procesamiento, el generar clusters y realizar la imputación sobre cada cluster de forma independiente contribuye también a reducir el tiempo de procesamiento y bajar el coste computacional. Finalmente, se presentaron los resultados individuales de aplicar la metodología sobre el dataset obtenido en la etapa de procesamiento utilizando la generación de grupos de forma jerárquico (cluster jerárquico) sobre los vectores representativos (codebooks) obtenidos luego de aplicar el método SOM sobre el conjunto de datos.