Mineriataller 2
Mineriataller 2
Mineriataller 2
1).¿Qué es un Data
WareHouse?
Es una base de datos (almacén de datos) corporativa la cual integra y depura información de
una o varias fuentes para su procesamiento permitiendo su análisis con grandes velocidades
de respuesta.
Una de las ventajas de este tipo de base de datos está en las estructuras en la que se
almacena la información, esto hace que sea homogénea fiable además de tener una
velocidad bastante alta al momento de realizar consultas
El Data Warehouse debe ser adaptable y resistente a cambios Las necesidades de los
usuarios son cambiantes por tal motivo el Data Warehouse debe estar diseñado para manejar
infinidad de cambios, lo cual hace que los datos ya existentes no se pueden invalidar en un
cambio. Los datos y las aplicaciones no deben ser alterados o quebrantados, deben ser
modificados y tener en cuenta
El Data Warehouse debe ser la base que proteja la información Uno de los elementos más
preciados en la empresas de hoy en dia son los datos de que le vendemos a quién y a qué
precio una de las tareas más importantes del Data warehouse es controlar efectivamente el
acceso a la información
4).Los procesos básicos del Data WareHouse (ETL) Extracción: Es el primer paso
para obtener la información en el ambiente del Data WareHouse Transformación: Una vez
que la información ya fue extraída entramos en el proceso de transformación el cual consiste
en limpiar los datos,desechar los datos que no sirven, seleccionar solo los campos
necesarios para el Data WareHouse,que los datos obtenidos coincidan con los valores de
las PK Carga: Al final del proceso los datos están listos para que el usuario haga uso de
estos
Es un gran depósito de datos de toda una WareHouse.Está diseñado para proveer solo a un
empresa departamento
Puede ser un subtipo de un Data
Está diseñado para almacenar datos de El diseño de esquema está diseñado para
decisiones de toda la empresa optimizar el rendimiento de la capa de acceso
Los datos provienen de muchas fuentes Los datos provienen de muy pocas fuentes
El El tamaño de almacenamiento puede variar de
tamaño de almacenamiento es inferior a 100 gb a 1TB
100GB
9).Comparación entre Data Warehouse vs. Big Data
Data Warehouse Big Data
Es principalmente una arquitectura no una tecnología,extrae datos de fuentes de datos y ayuda
a generar reportes analiticos
Es principalmente una tecnología que se basa en el volumen,velocidad,variedad de datos
Si una empresa quiere realizar alguna decisión va al Data WareHouse ya que la decisión
requiere información confiable
Si una empresa quiere compararse con una gran cantidad de Big Data que contiene
información valiosa y ayuda a tomar mejores decisiones
Acepta una o más fuentes de datos homogéneos o heterogéneas
Acepta cualquier tipo de fuentes incluidas transacciones,información de sensores o máquinas
Maneja principalmente datos estructurales(relacionales)
Acepta todo tipo de formatos(relacionales,no estructurados,texto,video,audio,cotizaciones
bursátiles,transacciones financieras)
Proporciona información sobre un tema en específico y no sobre la operación continua de la
empresa,se centra principalmente en el análisis o visualización de datos que ayudan en la toma
de decisiones
Está orientado a diversos temas, puede aceptar y procesar datos de todas las fuentes. Se
centra en proporcionar un análisis exacto de datos específicamente orientados a diversos
temas
Los datos se identifican realmente por un periodo de tiempo particular
Tiene muchos enfoques para identificar datos ya cargados, se identifican por fecha y hora lo
que hace que sea más preciso
El procesamiento de grandes cantidades de datos lleva mucho tiempo
Se define principalmente para cargar grandes cantidades de datos en sistemas distribuidos
mediante el uso del programa de reducción de mapas
10).Cuáles son las soluciones ubicadas en el cuadrante de líderes para Data WareHouse
según Gartner
● Oracle
● Microsoft
● Amazon Web Services
● Sap
● Teradata
● Snowflake
● Google
● IBM
Oracle
Fortalezas
● Oracle ha ido uno de los DBMS líderes en ofertas en el mercado, con capacidades
robustas
● Obtuvo el puntaje más alto en capacidades de producto por los clientes
● Oferta de almacén de datos autónomo, ADW es un servicio en la nube que ofrece
gastos generales,también esfuerzos para analizar problemas de rendimiento corregirlos
● Disponibilidad inmediata de recursos de implementación
Debilidades
● Los precios de sus licencias aunque lidere el mercado no posee soluciones para
empresas de mediana o pequeña envergadura
● Tiene poca experiencia en la nube a comparación con google o amazon
Microsoft
Fortalezas
● Con Azure Data Lake Storage, Azure Data Lake Analytics, Azure Almacenamiento de
datos SQL y Azure Databricks, Microsoft articula una visión sólida para entornos de
procesamiento distribuido inherentes a la LDW
● Creció al doble de la tasa del DBMS general, es visto como uno de los líderes en la
nube y proveedor líder de DMSA
● Los clientes valoran sus productos y hojas de ruta
Debilidades
● Valor de sus licencias
● Contiene problemas de funcionalidad y de madurez en particular en la nube
Teradata
Fortalezas
● Ha sido un proveedor líder durante varios años, se destaca en características como
servicio y soporte,soporte técnico y disponibilidad del sistema
● Tiene una cartera simplificada con sólo 2 opciones nube pública,nube privada
Debilidades
● Su enfoque en el mercado de gama alta ha limitado su crecimiento
Snowflake
Fortalezas
● Los usuarios elogiaron la capacidad del producto en relación calidad-precio y la fácil
implementación
● La arquitectura en la nube de Snowflake se basa en la separación de recursos lo que
permite escalar de manera efectiva
● Puede ejecutar más cargas de trabajo y admite más casos de uso
Debilidades
● Algunos usuarios reportaron falta de características como
vistas,procedimientos,interfaces
● Ha tenido en un periodo "corto" un crecimiento muy grande por lo cual puede que no dé
el soporte de calidad a sus usuarios
● Tiene una débil capacitación para utilizar el servicio
Google
Fortalezas
● Los usuarios reportaron el excelente rendimiento del producto además de la facilidad de
uso, implementación. Con un almacenamiento de 50 TB
● Permite abordar una amplia gama de casos de uso desde el almacén de datos hasta
usos científicos
● Tiene un gran crecimiento gracias a sus características
Debilidades
● Algunas de sus características no han madurado para dar soporte a empresas de
mediano tamaño
IBM
Fortalezas
● Proporciona una amplia gama de soluciones para empresas de cualquier tamaño
● Proporciona análisis de alto rendimiento para los datos
Debilidades
● Si es un cliente que utiliza PureData System for Analytics (Netezza) le tomará algo de
tiempo adaptarse a la nueva oferta Sistema de análisis integrado (IAS)
Microsoft
Fortalezas
● El costo de la licencia fue la segunda razón más importante para que los clientes de
referencia elijan Microsoft Power BI
● Power BI admite datos complejos modelos con analítica avanzada integrada
● Facilidad de uso
● Mejoras en la analítica aumentada y haciendo que las nuevas funciones de Auto ML
Debilidades
● Carece de algunas de las capacidades de ML que se encuentran en Power BI SaaS
● Contiene inconsistencias en el soporte de diferentes fuentes de datos
● No ofrece flexibilidad para elegir una infraestructura en la nube
Tableau
Fortalezas
● Permite a los usuarios ingerir rápidamente datos de una amplia gama de fuentes de
datos, combínalas y visualice resultados utilizando las mejores prácticas en visual
percepción
● Establece el estándar de la industria para la habilitación de usuarios con Grupos de Meetup,
roadshows, tutoriales en línea y disponibilidad de habilidades en el mercado Debilidades
● La calidad del soporte de productos de Tableau disminuyó en 2018
● Actualizaciones más difíciles
● La licencia solo está disponible por suscripción
Qlik
Fortalezas
● Los usuarios pueden encontrar información útil más rápido gracias a la generación
automática de gráficos,así como sugerencias
● Permite construir robustas aplicaciones visuales interactivas
● Tiene la capacidad de soportar múltiples fuentes de datos
● Tiene una gran comunidad que contribuye con feedback
● Maneja Big Data con su generación de aplicaciones a pedido
● Mejorara su preparacion de datos y capacidades analiticas integradas
Debilidades
● Requiere software externo para hacer funcionar de manera óptima componentes
como QlikView y Qlik
● Los usuarios que migraron de Qlik a Qlik Sense reportaron que este ultimo esta por
debajo de Qlik por su servicio y soporte
ThoughtSpot
Fortalezas
● Tiene una IA la cual responde preguntas hechas por los usuarios
● Permite que se implemente para un número ilimitado de usuarios
Debilidades
● Requiere que todos los datos se carguen en su motor MPP
● Los datos deben prepararse y limpiarse con herramientas de terceros
● Los paneles son básicos sin mapeo enriquecido
● Al ser una empresa pequeña si se requiere atención al cliente se debe tratar
directamente con ellos lo cual hace que la respuesta no sea rapida
● Carece de contenido preconstruido para productos específicos dominios verticales y
funcionales
13).Conclusiones
El data WareHouse es una gran herramienta para que una empresa pueda agilizar en la parte
de marketing identifica los clientes y cuales son los productos que más se adecuan a sus
necesidades, además antes de su implementación se tienen que depurar los datos borrando
los inconsistentes o los faltantes haciendo que la base de datos contenga información veraz.En
cuanto al Data Marts sirve para un sector determinado de la empresa haciendo que sea más
rápido sin embargo esta hace que la información sólo pueda ser consultada por los empleados
de ese sector. En cuanto a los proveedores de servicios se debe tener muy en cuenta cuales
son las necesidades que tiene una empresa ya que hay muchos todos con aspectos favorables
y en contra, uno de los más recurrentes es que el precio de sus licencias es muy alto haciendo
difícil para una empresa de mediana o pequeña envergadura no pueda pagarla
14).Bibliografía
https://groups.google.com/forum/#!topic/itecnodgo_ninteligentes_ad_12/Bi76Pq31nz4
https://blog.mdcloud.es/dwh-ejemplos-arquitectura-data-warehouse/
http://inteligenciadenegocio.mx/blog/objetivos-de-un-data-warehouse
http://dwhucv.blogspot.com/p/arquitectura-de-un-data-warehouse.html
https://www.sinnexus.com/business_intelligence/datamart.aspx
https://www.esan.edu.pe/apuntes-empresariales/2015/06/diferencia-entre-
data-warehouse-data-mart/ https://www.guru99.com/data-warehouse-vs-data-
mart.html https://www.educba.com/big-data-vs-data-warehouse/
https://www.sinnexus.com/business_intelligence/datawarehouse.aspx
https://neoattack.com/neowiki/data-warehouse/