Data Warehouse para El Análisis Poblacional Del Ecuador.
Data Warehouse para El Análisis Poblacional Del Ecuador.
Data Warehouse para El Análisis Poblacional Del Ecuador.
Data Warehouse
Para el Análisis Poblacional Del Ecuador.
Abstract -- Actualmente la información ha evolucionado hasta convertirse en un elemento necesario para el surgimiento de un
negocio. Sea cual sea el ambiente en el que se desarrolle dicho negocio, necesita tener un conocimiento sobre el mercado en el que se
va a desenvolver. Por este motivo es tan importante tener una idea clara sobre los datos históricos y la información operacional sobre
los Data Sources usados en el mismo. Esto se realiza con el fin que la estructuración de dicha información utilizada, y después de
darle el proceso adecuado, se convierta en un Data Warehouse que a su vez se transforme en una herramienta colaborativa a nivel de
toma de decisiones.
Conociendo el desarrollo básico de un Data Warehouse, confirma que en la actualidad la importancia de una buena organización
de la información dentro de las diferentes actividades de una empresa es de suma importancia. Por lo tanto es indispensable contar con
datos debidamente ordenados y que mantengan relación con la toma de decisiones. Es por ello que a más de tomar los datos
históricos, también es recomendable realizar predicciones, para conocer futuros impactos que se podrían dar en el negocio.
Index Terms:
ata Warehouse. D
DW: D ata Sources. Dimensiones. Hechos. Data-Mining: M
inería de Datos.
I. INTRODUCCIÓN
Debido a un gran volumen de datos y con el fin de estructurar estos datos en una colección orientada al negocio se implementa un
Data Warehouse [1]. Como su término lo indica, un Data Warehouse es una base de datos con una estructura multidimensional que
ayuda a almacenar y procesar grandes cantidades de información [2]. Por otra parte, en el marco ecuatoriano, el Instituto Nacional de
Estadística y Censos (INEC), señala que la población del país se acerca a los 17,5 millones de personas a inicio del año 2020 [3]. Esta
información está almacenada en datos históricos, y son una medición con base al número de personas que viven hasta la actualidad en
el país, más el número de nacimientos registrados menos la cifra de fallecidos, que se contabilizan a diario.
Dicho esto, se plantea la realización de un Data Warehouse sobre un área específica del Ecuador, el análisis poblacional. Con este
desarrollo se plantea no solo conocer el número de habitantes en las distintas provincias, cantones y parroquias, sino también su
calidad de vida, además de una predicción referente al número de habitantes para los siguientes años y agrupaciones en términos
socioeconómicos. Para llegar a este tipo de razonamiento, se emplearán las diferentes fuentes de datos provistas por el INEC. En este
sentido se pueden identificar del Censo de Población y Vivienda 2010, información poblacional referente a vivienda, servicios
básicos, densidad, nivel de instrucción, etnia, capacidades especiales y género, en primera mirada como datos socio económicos. Por
otra parte también se puede obtener conjuntos de datos en relación a las proyecciones poblacionales con lo que es posible determinar
escenarios y prever acciones a un nivel de género y edades.
Si bien es cierto, un Data Warehouse, no es solo la creación y población de una base de datos para crear cubos
multidimensionales, sino también implementar una forma de visualizar esa información. Por lo tanto cabe mencionar que para este
trabajo también se implementará una Dashboard, el cual hace más fácil e intuitiva la visualización de los datos para responder
preguntas de mercado relacionadas con el ámbito en que se desarrolla el negocio. A su vez, teniendo en cuenta que existen tantos
datos y por lo tanto una gran cantidad de decisiones que tomar, se aplica la analítica predictiva que ayudará a evaluar lo que va a
suceder a futuro. Con esta idea, y teniendo en cuenta que el Data Mining busca patrones ocultos en los en los datos que pueden
utilizarse para predecir comportamiento futuros [4], se utiliza este enfoque en este proyecto con la finalidad de transformar los datos
en conocimientos proactivos.
El resto de este documento tiene la siguiente estructura. La sección II, detalla la metodología hefesto y el desarrollo de sus pasos
para la construcción de un Data Warehouse. La sección III, identifica la construcción y publicación de los cubos OLAP y su
visualización en el servidor de Business Intelligence. La sección IV, contempla el análisis de minería de datos realizados a los datos.
La sección V, muestra la publicación de los datos recopilados en un Dashboard. Finalmente, la sección VI presenta las conclusiones
de este proyecto.
Este proceso metodológico se basa en 4 pasos. El primer paso inicia con la recolección de los requisitos de información de los
usuarios y de esta manera se obtienen las preguntas claves del negocio. Además, se deben identificar los indicadores resultantes de las
interrogantes realizadas, con sus respectivas Perspectivas de análisis, a través de las cuales se construirá el modelo conceptual de
datos del Data Warehouse. Como segundo paso, se analizarán los Data Sources, con el fin de determinar cómo se construirán los
Indicadores, señalando el mapeo correspondiente y seleccionando los campos de estudio de cada Perspectiva. Una vez realizado esto,
como tercer paso, se pasará a la construcción del Modelo Lógico del Data Warehouse, en donde se definirá cuál será el tipo de
esquema que se implementará. Seguidamente, se confeccionarán las tablas de Dimensiones y las tablas de Hechos, para luego efectuar
Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020
sus respectivas uniones. Finalmente como paso 4, utilizando técnicas de limpieza y calidad de datos y procesos ETL, se definirán
políticas y estrategias para la Carga Inicial del Data Warehouse y su respectiva Actualización [1].
1. Análisis de requerimientos:
Se identifican los requerimientos de los usuarios a través de preguntas que expliquen los objetivos de su organización. Luego, se
analizarán estas preguntas a fin de identificar cuáles serán los Indicadores y Perspectivas que serán tomadas en cuenta para la
construcción del Data Warehouse. Finalmente se confeccionará un Modelo Conceptual en donde se podrá visualizar el resultado
obtenido en este primer paso [1].
a. Identificar preguntas.
Comienza con el acopio de las necesidades de información. El análisis de los requerimientos de los diferentes usuarios, es el punto
de partida de esta metodología, ya que guía la investigación hacia un desarrollo que refleje claramente lo que se espera del DW, en
relación a sus funciones y cualidades [2]:
Las preguntas planteadas para este caso de estudio, están enfocadas en datos socioeconómicos, calidad de vida con referencia al
lugar de residencia, grupos étnicos y grupos de edad, por lo que surgen las siguientes incógnitas:
i. Se desea conocer la población en una provincia delimitada por el género (femenino y masculino) en un año determinado.
ii. Se desea conocer el tipo de vivienda de la población del país (provincia, cantón).
iii. Se desea conocer qué parte de la población del país (provincia, cantón) tiene acceso a los servicios básicos (como agua
potable).
iv. Se desea conocer los rangos de edad de la población del país (provincia, cantón).
v. Se desea conocer el número de viviendas particulares según provincia, cantón y parroquia de empadronamiento.
vi. Se desea conocer el número de hogares por disponibilidad de teléfono convencional, según provincia, cantón y parroquia de
empadronamiento.
vii. Se desea conocer la densidad poblacional (km2) a nivel parroquial.
viii. Se desea conocer el número de personas por etnia en un determinado año a nivel provincial, cantonal y parroquial.
ix. Se desea conocer el número de personas que mantengan capacidades especiales según provincia, cantón y parroquia de
empadronamiento.
c. Modelo Conceptual.
Se construirá un Modelo Conceptual a partir de los Indicadores y Perspectivas obtenidas en el paso anterior. Como se puede ver en
las Figuras 1, 2 y 3 para los datos analizados, un Modelo Conceptual se vuelve una descripción de alto nivel de la estructura de la base
de datos, en la cual la información es representada a través de Objetos, Relaciones y Atributos.
a. Conformar indicadores.
En este paso se explican cómo se calculan los Indicadores que se determinaron en el paso anterior, en la sección (1.A), de la
siguiente manera:
Detallando el nombre del indicador, su función de sumarización que puede ser ya sea suma, promedio, entre otros, y la aclaración
de lo que va a representar dicho indicador dentro del modelo multidimensional.
Total Viviendas
● Hechos: Total viviendas
● Función de sumarización: Sum
● El indicador representa: La sumatoria de las viviendas en una parroquia en particular.
Total Hogares
● Hechos: Total hogares
● Función de sumarización: Sum
● El indicador representa: La sumatoria de los hogares en una parroquia en particular.
Poblacion
● Hechos: Poblacion
● Función de sumarización: Sum
● El indicador representa: La sumatoria de la población en una parroquia en particular.
Superficie
● Hechos: Superficie
● Función de sumarización: Sum
● El indicador representa: La sumatoria del área por kilómetro cuadrado de una parroquia en particular.
Densidad Poblacional
● Hechos: DensidadPoblacional
● Función de sumarización: Sum
● El indicador representa: La sumatoria de la densidad poblacional de cada parroquia y que se obtiene al dividir la población
sobre la superficie de la parroquia.
b. Establecer correspondencias
En este paso se examinan los Data Sources e identifican sus características propias, y asegurarnos que los Data Sources
disponibles contengan los datos requeridos. Luego, se debe establecer cómo serán obtenidos los elementos que se han definido en el
Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020
Modelo Conceptual, estableciendo de esta manera una correspondencia directa entre los elementos del Modelo Conceptual y los Data
Sources.
Esto se logra debido a que los conjuntos de datos base, permiten obtener ciertas correspondencias las cuales estarán
fundamentadas por la denominación del campo y el archivo (Fuente INEC) en formato .xls y su relación con la perspectiva o
indicador adecuado, tal como se detalla en la Tabla I. Donde se coloca el nombre del archivo fuente, y la descripción, es decir, la
funcionalidad que se le da dentro del modelo multidimensional.
TABLA I: Correspondencias entre los archivos fuente (Data Sources) contra los definidos en el Modelo Conceptual.
N° Nombre de Fuente de Datos (Archivo .XLS) Descripción
6 23_Servicios Basicos_PROV_CANT_PARROQ.xls El campo Procedencia principal del agua recibida de la hoja
PROCEDEN_AGUA se relaciona con l a perspectiva
ProcedenciaAgua.
c. Nivel de granularidad.
Una vez que se ha establecido el Mapeo con los Data Sources, se debe seleccionar los campos que contendrá cada Perspectiva, ya
que a través de estos se analizarán los Indicadores.
Con respecto a la Perspectiva Tiempo, es muy importante definir los periodos mediante los cuales se agregaron los datos. En este
trabajo, el tiempo solo se trabajo con el campo de fecha año, debido a las limitaciones del Data Source, pues solo brindan datos de
forma anual.
A continuación, como se puede ver en la Tabla II, se da detalle de los campos a considerar por cada perspectiva perteneciente al
modelo conceptual. Así como se muestran aquellos campos de cada perspectiva que son omitidos.
Tiempo Año
Vivienda Tipo de la vivienda: Casa, Departamento/Edificio, Cuarto, Provincia: Nombre. Cantón: Nombre.
Mediagua, Rancho, Covacha, Choza. Parroquia: Nombre. Área: Urbana, Rural
ProcedenciaAgua Procedencia principal del agua recibida: De red pública, Provincia: Nombre. Cantón: Nombre.
De pozo, De río, vertiente, acequia o canal, De carro Parroquia: Nombre.
repartidor, Otro (Agua lluvia/albarrada)
ServicioHigienico Tipo de servicio higiénico o escusado: Conectado a red Provincia: Nombre. Cantón: Nombre.
pública de alcantarillado, Conectado a pozo séptico, Parroquia: Nombre.
Conectado a pozo ciego, Con descarga directa al mar, río,
lago o quebrada, Letrina, No tiene
Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020
EliminacionBasura Eliminación de la basura: Por carro recolector, La arrojan Provincia: Nombre. Cantón: Nombre.
en terreno baldío o quebrada, La queman, La entierran, La Parroquia: Nombre.
arrojan al río, acequia o canal, De otra forma.
ServicioElectrico Procedencia de la luz eléctrica: Red de empresa eléctrica Provincia: Nombre. Cantón: Nombre.
de servicio público, Panel Solar, Generador de luz (Planta Parroquia: Nombre.
eléctrica), Otro, No tiene
TenenciaHogar Tenencia o propiedad de la vivienda: Propia y totalmente Provincia: Nombre. Cantón: Nombre.
pagada, Propia y la está pagando, Propia (regalada, donada, Parroquia: Nombre. Área: Urbana, Rural
heredada o por posesión), Prestada o cedida (no pagada), Por
servicios, Arrendada, Anticresis
Edad Grupos de edad: Menor de 1 año, De 1 a 4 años, De 5 a 9 Provincia: Nombre. Cantón: Nombre.
años, De 10 a 14 años, De 15 a 19 años, De 20 a 24 años, De Parroquia: Nombre. Área: Urbana, Rural
25 a 29 años, De 30 a 34 años, De 35 a 39 años, De 40 a 44
años, De 45 a 49 años, De 50 a 54 años, De 55 a 59 años, De
60 a 64 años, De 65 a 69 años, De 70 a 74 años, De 75 a 79
años, De 80 a 84 años, De 85 a 89 años, De 90 a 94 años, De
95 a 99 años, De 100 años y más.
Etnia Grupos étnicos 1: Indígena, Afroecuatoriano/a, Montubio/a, Provincia: Nombre. Cantón: Nombre.
Mestizo/a, Blanco/a, Otro/a Parroquia: Nombre. Área: Urbana, Rural
Discapacidad Discapacidad permanente por más de un año: Si. Provincia: Nombre. Cantón: Nombre.
Discapacidad Intelectual: Si. Discapacidad Parroquia: Nombre. Área: Urbana, Rural.
Físico-Motora: Si. Discapacidad Visual: Si. Discapacidad Discapacidad permanente por más de un
Auditiva: Si. Discapacidad Mental: Si. año:No, No responde. Discapacidad
Intelectual: Se ignora. Discapacidad
Físico-Motora: Se ignora. Discapacidad
Visual: Se ignora Discapacidad Auditiva: Se
ignora. Discapacidad Mental: Se ignora.
a. Tipología:
Se selecciona el tipo de Esquema que mejor se adapta a los requerimientos y necesidades de los usuarios [1]. Por tal motivo, el
Modelo Lógico que seguirá esta implementación es de un esquema de tipo estrella.
b. Tablas de dimensiones:
Se diseñan las tablas de Dimensiones que formarán parte del Data Warehouse como se puede ver en la Figura 7. Cada Perspectiva
definida en el Modelo Conceptual se constituirá en una tabla de Dimensión. Tomando en cuenta que cuando existan jerarquías dentro
de una tabla de Dimensión, esta tabla deberá ser normalizada.
Esta condición surge al momento de formar la tabla de Ubicación, donde se da el caso de las parroquias. Como se puede ver a la
derecha de la Figura 7, surge la necesidad de una jerarquía debido a que las parroquias dependen de los cantones, y a su vez éstos
dependen de las provincias.
c. Tablas de hechos:
Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020
Se definen las tablas de Hechos. Cada hecho conformado deberá seguir dos pasos: Como paso i) deberá asignarse un nombre a la
tabla de Hechos que represente la información que contiene, área de investigación, negocio enfocado, o lo que se crea pertinente.
Luego, como paso ii) se definirá su clave primaria, que se compone de la combinación de las claves primarias de cada tabla de
Dimensión relacionada.
Cabe mencionar que como se puede en la Figura 8 se crearán tantos campos de Hechos como Indicadores se hayan definido en el
modelo conceptual y se les asignará un nombre.
d. Uniones:
Se realizan las uniones correspondientes como se puede ver en las Figuras 9, 10, 11, 12, 13 y 14, entre las tablas de Dimensiones y
las tablas de Hechos formadas en los dos pasos anteriores, en la sección (3.b) y en la sección (3.c).
4. Integración de datos:
Una vez construido el Modelo Lógico, se debe proceder a poblarlo con datos, utilizando técnicas de limpieza y calidad de datos,
procesos ETL, entre otros. Luego se definirán las reglas y políticas de actualización, así como también los procesos que la llevarán a
cabo [1].
a. Carga inicial:
En este paso se realiza la Carga Inicial del DW, poblando el modelo construido en pasos anteriores. Para lo cual se debe llevar
adelante una serie de tareas básicas, tales como asegurar la limpieza y calidad de los datos y diferentes procesos ETL.
Para este trabajo, como se pudo notar con el detalle de los pasos anteriores, se trabaja con varios documentos, por lo cual se detalla
el proceso realizado a algunos de ellos. Como se puede ver la Figura 15a, es el formato de los documentos tal y como se ven después
de descargados, por lo tanto deben atravesar por un proceso de limpieza. En este proceso se eliminan las cabeceras y se rellenan los
espacios en blanco correspondientes a los nombres de provincias, cantones y parroquias tal como se puede ver en la Figura 15b.
Cabe mencionar que este proceso de la Figura 15, se realizó para todos los documentos con los cuales se trabajó.
Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020
(a) Ejemplo de uno de los documentos originales.. (b) Después de borrar la cabecera y de rellenar los campos vacíos de
los nombres de provincias, cantones y parroquias.
Fig 15:Limpieza inicial de los datos.
Ahora en cuanto a los procesos de ETL, se toma en cuenta que primero se deben crear las tablas de dimensiones y poblarlas. Por lo
tanto, como se puede ver en la Figura 16, se consideran los documentos pertinentes que cuenten con los campos adecuados de cada
tabla como se definió en la sección (3.c). Dicho esto, el proceso ETL funciona de la siguiente manera:
Fig 16: Proceso ETL para conformar las dimensiones y cargar los datos.
Se lee el documento adecuado que contiene los campos por los cuales estarán estructuradas las dimensiones, como se ve el la
Figura 17.a. Los campos al aparecer como títulos de columnas, se les debe normalizar para asignar un nombre común a la única
columna que será trabajada y que albergará los diferentes nombres como se ve el la Figura 17.b. A partir de ahí se puede crear la tabla
de dimensión en la Base de Datos, como se ve a la derecha de la Figura 16, pues ya contamos con los atributos necesarios para cada
tabla y sus respectivos datos, al seleccionar el campo normalizado como se ve el la Figura 17.c, y se procede a poblarlos.
(a) Selecciona las columnas (b) Normaliza las columnas a filas y les asigna una (c) Selecciona la columna destino
del archivo. columna destino. que será almacenada en la BD.
Fig 17: Ejemplo de cómo están estructurados los ETL para crear las dimensiones.
Al realizar este proceso para todas las dimensiones, la Base de Datos quedará poblada y con las diferentes tablas como se puede
ver en la Figura 18, que son las tablas de dimensiones y para este caso, se están mostrando los dos primeros campos de cada tabla
dimensión.
(a) Esquema de la Base (g) Tabla dim_hogar (h) Tabla dim_proced_agua (i) Tabla dim_tiempo
de Datos
Después de tener las dimensiones listas, se procede a hacer la construcción de las diferentes tablas de hechos, para esto se inicia
con los procesos ETL como se ve en la figura 19 y 20. Es esta sección, de la misma forma se mostrará dos ejemplo de proceso, que
abarca a las demás construcciones de los hechos restantes.
El proceso inicia leyendo el archivo del Data Source en donde están los datos para cada hecho, luego se procede a organizar los
elementos y a hacer un join con la tabla dim_ubicacion, con el fin de trabajar con los idUbicacion únicos de dicha tabla, tal como se
puede ver en la parte superior izquierda de la Figura 19 (paso 1). Una vez se logra este proceso, según sea necesario para cada hecho,
se debe hacer un join entre el Data Source que almacena los datos de superficie y de densidad poblacional, para cruzarla con los datos
de la tabla de dim_ubicacion, y así conseguir los códigos de cada parroquia con cada valor, como se puede ver en la parte inferior
izquierda de la Figura 19 (paso 2). A continuación se procede a hacer un join entre los códigos obtenido con anterioridad en los pasos
1 y 2, como se puede ver en la parte inferior central de la Figura 19 (paso 3). El siguiente paso (paso 4), como se mencionó con
antelación de deben normalizar las columnas de los datos ya cruzados hasta el paso 3, para poder realizar un join con la tabla de la
dim_ que corresponda para cada hecho, en este ejemplo, con la dim_etnia como se puede ver en la parte superior central de la Figura
19. Antes de examinar el siguiente join (paso 5), como se puede ver en la parte superior derecha de la Figura 19, se debe agregar una
constante, en este caso, para el año, debido a que solo se trabajara en un año con la mayoría de los datos, a excepción de dos hechos
que tienen datos en todos los años, y por consiguiente se procede a hacer el join con la dim_tiempo. Finalmente (paso 6), se procede a
crear la tabla de hecho fact_ c on los ids de cada dimensión correspondiente y con las que se trabajó durante todo el proceso ETL.
Fig 19: Ejemplo de cómo están estructurados los ETL para crear los hechos.
En el caso de la Figura 20, se dan múltiples pasos de join con la tabla dim_ubicacion, debido a que los datos están almacenados en
diferentes pestañas del Data Source, por lo tanto se decidió realizar este proceso de join, pestaña por pestaña. Luego desde los pasos 2
hasta el 6 se realizan con la similitud a lo mencionado anteriormente.
Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020
Fig 20: Ejemplo de cómo están estructurados los ETL para crear los hechos.
Al realizar este proceso para todas los hechos, la Base de Datos quedará poblada y con las diferentes tablas como se puede ver en
la Figura 21, que son las tablas de hechos y para este caso, se están mostrando los dos primeros campos de cada tabla hecho.
b. Actualización:
Cuando se haya ejecutado la carga inicial del Data Warehouse, se deben establecer las políticas y estrategias de actualización
periódica.
Las políticas de actualización, en este caso están determinadas por la realización de un censo poblacional a nivel nacional, el
último realizado fue en el año 2010, por lo tanto las actualizaciones se realizarán cada que exista un nuevo censo. Sin embargo es
necesario mencionar que los datos de las proyecciones poblacionales se presentan anualmente en el sitio web del INEC.
Continuando con la implementación, se creará un Cubo Multidimensional que estará basado en el modelo lógico diseñado en el
caso práctico de la metodología Hefesto y serán publicados en el Servidor para que sea posible visualizar sus datos.
1. Schema Workbench
Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020
Esta herramienta de por sí lleva instalada otro software denominado Mondrian que es el que permitirá realizar los cubos OLAP.
Esta herramienta nos permitirá crear nuestro cubo OLAP proveniente de las tablas fact_; así como las Dimensiones, Jerarquías y
Métricas necesarias, que previamente ya están definidas en el Modelo Dimensional.
Algo muy importante aquí es que para trabajar con Schema Workbench es que se debe conectar a la fuente de Base de Datos
donde se tienen almacenadas las tablas del Modelo Dimensional previamente definido mediante los procesos ETL.
Como se puede ver en las Figuras 23, 24 y 25, la creación de los cubos en el Schema Workbench se da de manera muy fácil e
intuitiva, siempre y cuando se sigan los pasos correctos para su implementación.
(a) Cubo viviendas (b) Cubo eliminación basura (c) Cubo procedencia agua (d) Cubo servicio eléctrico
Fig 23: Cubos en el Schema Workbench (parte 1).
(a) Cubo servicio higiénico (b) Cubo hogares (c) Cubo servicio telefónico
Fig 24: Cubos en el Schema Workbench (parte 2).
(a) Cubo grupos de edad (b) Cubo tipos de (c) Cubo grupos étnicos (d) Cubo sexo
discapacidad
Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020
2. BI Server
El motivo principal por el cual se emplea el uso del Business Intelligence Server, es porque transforma los datos en información, y
esta información en conocimiento [5], de forma que sea útil para investigar los eventos de este análisis poblacional. Otra utilidad que
brinda el uso de esta plataforma, es que a partir de los cubos OLAP implementados y publicados en la sección, su visualización se
hace por este medio. Es decir, como se puede ver en la Figura 26.a, están publicados los cubos y listos para arrastrar campos y realizar
consultas sobre ellos, tal como se puede ver desde la Figura 26.b, hasta la Figura 26.l.
(b) Saiku Analytics del (c) Saiku Analytics del (d) Saiku Analytics del
cubo de discapacidades. cubo de grupos de edad. cubo de grupos étnicos.
(h) Saiku Analytics del (i) Saiku Analytics del (j) Saiku Analytics del (k) Saiku Analytics del (l) Saiku Analytics del
cubo de eliminación de cubo de procedencia de cubo de servicio eléctrico. cubo de servicio cubo de viviendas.
basura. agua. higiénico.
Dentro de los procesos que se pueden realizar en BI Server, a los cubos ya publicados, se les puede hacer las consultas arrastrando
los campos como se puede ver en la Figura 27, que se tiene una consulta realizada dentro del Saiku Analytics sobre el cubo de
discapacidades. Dentro de esta consulta también es posible escoger el diferente tipo de granularidad que se desea buscar, como se
puede ver en las Figuras 28 o 29, que llegan hasta cantón y parroquia respectivamente. Además se puede filtrar por una o varias
discapacidades así como por una o varias ubicaciones que dependen del nivel de granularidad con las que se trabajen.
Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020
Fig 27: Consulta realizada por medio del Saiku Analytics en el BI Server.
A la izquierda se ven los parámetros de entrada y a la derecha está la tabla que muestra los resultados de
todas las discapacidades por las provincias del Ecuador.
Fig 28: Consulta realizada por medio del Saiku Analytics en el BI Server.
A la izquierda se ven los parámetros de entrada que cambian de granularidad en la dimensión ubicación, hasta
cantón y a la derecha está la tabla que muestra los resultados.
Fig 28: Consulta realizada por medio del Saiku Analytics en el BI Server.
A la izquierda se ven los parámetros de entrada que cambian de granularidad en la dimensión ubicación, hasta
parroquia y a la derecha está la tabla que muestra los resultados.
Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020
Además se menciona que es posible realizar filtraciones en los datos de tal forma que los resultados se muestran según sea
necesario para responder las preguntas. Como se puede ver en la Figura 29, la misma consulta de las Figuras pasadas, se está filtrando
por nivel más bajo de granularidad en la dimensión ubicación, específicamente por la parroquia Cuenca, y se están mostrando todos
los valores de las distintas discapacidades. Pero como se puede ver en la Figura 30, en este caso se está filtrando por el nivel más alto
de la granularidad de la dimensión ubicación, específicamente por la provincia Azuay, y por solo un tipo de discapacidad, la
discapacidad permanente. En el caso de la Figura 30.b, se está mostrando por medio de un gráfico de líneas las respuesta a la consulta
filtrada previamente.
Fig 29: Consulta realizada por medio del Saiku Analytics en el BI Server.
Muestra los resultados de los diferentes tipos de discapacidades pero filtrado por la dimensión ubicación sobre la única parroquia Cuenca.
Cabe mencionar, que las consultas realizadas en este apartado, son solo un pequeño ejemplo de lo que se puede lograr cuando se
trabaja dentro del BI Server, pues se pueden realizar muchas más variaciones en las consultas y en la forma de visualizar los datos, ya
sea en tabla o en diferentes formatos de gráficas, como de barras, líneas, circulares, entre otros.
A continuación el análisis de información estará determinado por la utilización de la metodología CRISP-DM que es actualmente
la guía de referencia más utilizada en el desarrollo de proyectos de minería de datos por su completitud de descripción en sus
fases [6]. En este contexto se desarrolla la metodología mencionada anteriormente con las siguientes etapas:
Los datos que se han empleado en el desarrollo de la metodología provienen como información resultante de la sección anterior
Cubos Multidimensionales. En efecto, para una mayor comprensión de manera más específica se describen la semántica y ubicación
de cada estructuras de información que se ha utilizado para el análisis de información en la TABLA III.
fact_sexo Información referente al número de personas bifurcadas por sexo que habitan una provincia
determinada, estos datos cubrieron el objetivo i) de la fase inicial.
fact_edad Información referente al número de personas bifurcadas por grupos de edad que habitan una
provincia determinada, estos datos cubrieron el objetivo i) de la fase inicial.
fact_viviendas Información referente a la cantidad de viviendas bifurcadas por su tipo de edificación que existen en
una provincia determinada, estos datos cubrieron el objetivo ii) de la fase inicial.
fact_higene Información referente a la cantidad de viviendas bifurcadas por su tipo de servicio higiénico que
existen en una provincia determinada, estos datos cubrieron el objetivo ii) de la fase inicial.
fact_aguas Información referente a la cantidad de viviendas bifurcadas por su tipo de procedencia de agua que
existen en una provincia determinada, estos datos cubrieron el objetivo ii) de la fase inicial.
fact_electricidad Información referente a la cantidad de viviendas bifurcadas por su tipo de servicio eléctrico que
existen en una provincia determinada, estos datos cubrieron el objetivo ii) de la fase inicial.
fact_basura Información referente a la cantidad de viviendas bifurcadas por su tipo de eliminación de basura que
existen en una provincia determinada, estos datos cubrieron el objetivo ii) de la fase inicial.
(a) Información referente al número de personas bifurcadas (b) Información referente a la cantidad de viviendas bifurcadas por
por grupos de edad que habitan en este caso la provincia del Azuay. su tipo de edificación que existe en este caso la provincia del Azuay.
Figura 31: Documento CSV referente al proceso de selección y preparación de los datos.
4. Modelado
Continuando con el desarrollo de la presente metodología abarcamos el modelado del documento en el software Weka donde se
procede a utilizar un algoritmo de predicción para estimar el número de personas por sexo y grupo de edad que se proyectan como
habitantes de cada provincia para los siguientes tres años como se obsvera en la Figura 32.
Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020
Figura 32: Configuración básica del algoritmo de predicción (Time series forecasting en Weka) en donde
los parámetros más relevantes son marcar el variable objetivo, señalar el número de unidades
de tiempo a predecir, el time stamp y finalmente su periodicidad.
Además el software dedicado mencionado anteriormente permite la visualización idónea por el uso de su paquete destinado para
series de tiempo. De manera más específica se puede observar la no correlación de la tendencia en la Figura 33.a con respecto de los
datos históricos. Por otra parte la Figura 33.b se observa claramente que mantiene la tendencia de estimación del número de personas
por sexo que se proyectan como habitantes en este caso particular de la provincia del Azuay. En este contexto en la siguiente sección
Evaluación s e analizarán estos resultados.
(a) Gráfica de salida referente a la predicción otorgada por el (b) Gráfica de salida referente a la predicción otorgada por el
algoritmo de Linear Regression para estimar el número de personas algoritmo de Multilayer Perceptron para estimar el número de
por sexo que se proyectan como habitantes en este caso de la personas por sexo que se proyectan como habitantes en este caso
provincia del Azuay. de la provincia del Azuay.
Figura 33: Salida del software Weka en dos algoritmos de predicción utilizando el paquete de Time Series Forecasting.
5. Evaluación
En esta etapa se procede a la evaluación del algoritmo de predicción utilizado la configuración avanzada en Weka a través del
error absoluto medio, error cuadrático medio y error medio cuadrado. En este sentido obtuvimos en donde los resultados reflejados
en la Figura 34 avalan la utilización del algoritmo de Multilayer Perceptron debido a que las métricas anteriormente analizadas son inferiores
en comparación con el uso del algoritmo de Linear Regression.
(a) Métricas parael algoritmo de Multilayer Perceptron para (b) Métricas para el algoritmo de Linear Regression para estimar
estimar el número de personas por sexo que se proyectan como el número de personas por sexo que se proyectan como habitantes
habitantes en este caso de la provincia del Azuay. en este caso de la provincia del Azuay.
Figura 34: Análisis comparativo de dos algoritmos de predicción que contiene el paquete de Time Series Forecasting en Weka
6. Despliegue
Finalmente en esta última sección se procede a visualizar los resultados referentes al caso particular de predicción del número de
personas por sexo que se proyectan como habitantes de cada provincia para los siguientes tres años como se obsvera en la Figura 32.
V. DASHBOARD
Un dashboard es un panel de datos en donde se visualiza la información más importante, es decir, una representación gráfica de las
principales consultas, permitiendo la optimización de la estrategia de la empresa. El dashboard transforma los datos en información y
facilita a los trabajadores la toma de decisiones.
Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020
Para la creación del Dashboard se decide realizar este proceso en el software Grafana, el cual facilita mucho el proceso de dar
respuesta a las preguntas que se plantearon al inicio de este trabajo. A continuación se adjunta algunas Figuras que hacen referencia al
Dashboard implementado, y como se ve desplegado con ciertas preguntas.
Fig ___: Captura de pantalla del Dashboard que muestra algunas de las variables utilizadas en la parte superior. En la parte inferior izquierda se
encuentra un panel que muestra la población ecuatoriana en el año de la consulta de la variable: 2010. Y en la parte inferior derecha se encuentra un
panel que muestra la densidad poblacional de cierta parroquia, respondiendo la pregunta vii) de la sección II.1.a.
Fig ___: Captura de pantalla del Dashboard que muestra la población de la provincia del Azuay con distintinción de Sexo.
Responde la pregunta i) de la sección II.1.a.
Fig ___: Captura de pantalla del Dashboard, enfocado a los grupos de edad por la provincia del Azuay en el año 2010.
Responde la pregunta iv) de la sección II.1.a.
Data Warehouse, Data Warehouse Para el Análisis Poblacional Del Ecuador, agosto 2~2020
Fig ___: Captura de pantalla del Dashboard, enfocado a tenencia del hogar en la parroquia Cuenca, cantón Cuenca,
provincia del Azuay en el año 2010. Responde la pregunta v) de la sección II.1.a.
Fig ___: Captura de pantalla del Dashboard, enfocado a los grupos étnicos de la parroquia Cuenca, cantón Cuenca,
provincia Azuay, en el año 2010. Responde la pregunta viii) de la sección II.1.a.
VI. CONCLUSIONES
El Data Warehouse en definitiva permite desarrollar el proyecto al crear bases de datos operativas que alberguen la información
que es realmente importante, logrando conciliar los resultados de las consultas de una forma más rápida e inductiva. El proceso de
construcción de un Data Warehouse es muy extenso y toma un tiempo considerable para obtener información bien estructurada y
valiosa que pueda ser utilizada de forma precisa acorde con las preguntas identificadas en el proceso de análisis de requerimientos.
Cabe mencionar que la limpieza y transformación de los datos provenientes de la fuente de datos, es un proceso sumamente
importante que influirá profundamente en los resultados que se quieren obtener.
Indiscutiblemente la generación de cubos multidimensionales es facilitada por el uso de herramientas que permiten realizar esta
tarea de una forma más eficiente siempre y cuando el diseño del Data Warehouse ha sido elaborado minuciosamente, ya que de ello
depende que los resultados que buscamos sean consistentes y de hecho faciliten y ayuden realmente al análisis de la información.
Finalmente, los resultados mostrados en este proyecto, reflejan una visión global del conjunto de preguntas seleccionadas que se
pueden responder con la información obtenida, lo que corresponde a las interrogantes establecidas e incluso a nuevas variantes, es que
el usuario final podrá averiguar más manipulando más a fondo el Data Warehouse.
REFERENCIAS
[3] INEC. Instituto Nacional de Estadisticas y Censos. [En línea]. Disponible en:
https://www.ecuadorencifras.gob.ec/censo-de-poblacion-y-vivienda/. [Accedido: 26-jun-2020].
[4] La Minería de Datos de la A a la Z: Cómo Descubrir Conocimientos y Crear Mejores Oportunidades. [En línea]. Disponible en:
https://www.sas.com/es_co/campaigns/analytics/data-mining-from-a-z-104937.html?gclid=EAIaIQobChMIy73q9Nr96gIVOv3jBx
05DAjEEAAYASAAEgJn1vD_BwE. [Accedido: 30-jul-2020].
[5] Montoya, J. Qué es Pentaho BI Server. 13-nov-2019. [En línea]. Disponible en:
https://openwebinars.net/blog/que-es-pentaho-bi-server. [Accedido: 22-jul-2020].
[6] Moine, J. Gordillo, S. Haedo, A. Análisis comparativo de metodologías para la gestión de proyectos de minería de datos. oct-2011.
[Accedido: 30-jul-2020]