Mineriataller 2

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 9

Trabajo mineria de datos

1).¿Qué es un Data
WareHouse?

Es una base de datos (almacén de datos) corporativa la cual integra y depura información de
una o varias fuentes para su procesamiento permitiendo su análisis con grandes velocidades
de respuesta.

Una de las ventajas de este tipo de base de datos está en las estructuras en la que se
almacena la información, esto hace que sea homogénea fiable además de tener una
velocidad bastante alta al momento de realizar consultas

2).Los objetivos fundamentales de un Data WareHouse

Debe hacer la información de la organización fácilmente accesible El contenido debe


ser comprensible,intuitivo y obvio para el usuario, por lo cual necesita estar dispuesto de
manera significativa.El usuario debe estar habilitado para extraer porciones del Data
Warehouse y combinar esta información

El Data Warehouse debe presentar la información de la organización


consistentemente La información contenida en el Data Warehouse debe ser veraz, deben
estar optimizados para cuando el usuario los necesite, esta información debe coincidir en su
totalidad con cualquier otro proceso ya que esto demuestra la calidad y consistencia de la
información

El Data Warehouse debe ser adaptable y resistente a cambios Las necesidades de los
usuarios son cambiantes por tal motivo el Data Warehouse debe estar diseñado para manejar
infinidad de cambios, lo cual hace que los datos ya existentes no se pueden invalidar en un
cambio. Los datos y las aplicaciones no deben ser alterados o quebrantados, deben ser
modificados y tener en cuenta

El Data Warehouse debe ser la base que proteja la información Uno de los elementos más
preciados en la empresas de hoy en dia son los datos de que le vendemos a quién y a qué
precio una de las tareas más importantes del Data warehouse es controlar efectivamente el
acceso a la información

3).Los elementos básicos de un Data WareHouse

Area de trafico de datos:Área encargada del almacenamiento,procesamiento que


limpian,transforman,combinan,remueven duplicados guardan archivan y preparan los datos a
usar Servidor de presentación: La maquina fisica donde los datos son organizados y
almacenados para generar reportes por parte de los usuarios Procesos de negocios: Un
coherente grupo de actividades de negocio que dan sentido a los usuarios del Data
Warehouse Data Mart: Subgrupo lógico del Data Warehouse
Almacenamiento operacional de datos: Es el acceso al soporte de decisiones por los
ejecutivos OLAP:Se encarga de presentar reportes a los usuarios ROLAP: Grupo de
interfaces de usuarios y aplicaciones que le dan al Data Warehouse un estilo dimensional
MOLAP:Grupo de interfaces de usuarios y aplicaciones Aplicaciones para usuarios
finales: colección de herramientas que analizan y presentan la información para el soporte
de las necesidades Ad Hoc Query Tool:Herramientas de acceso a datos por parte de
usuarios finales,el usuario con sus propios queries manipula directamente las tablas y sus
relaciones(con los permisos adecuados) Modelado de aplicaciones: Usuario con
capacidades analaticas que trasforma o digiere las salidas del Data Warehouse

4).Los procesos básicos del Data WareHouse (ETL) Extracción: Es el primer paso
para obtener la información en el ambiente del Data WareHouse Transformación: Una vez
que la información ya fue extraída entramos en el proceso de transformación el cual consiste
en limpiar los datos,desechar los datos que no sirven, seleccionar solo los campos
necesarios para el Data WareHouse,que los datos obtenidos coincidan con los valores de
las PK Carga: Al final del proceso los datos están listos para que el usuario haga uso de
estos

5).Impacto en la Data Warehouse en la toma de decisiones La importancia que tienen


hoy en dia las Data Warehouse para cualquier empresa en primer lugar están en la información
confiable y de calidad que provee, en segundo lugar reduce el tiempo de procesar mucha
información haciendo que esta no pierda validez por el paso del tiempo, la información
compartida hace que toda la compañía maneje los mismos términos haciendo que la
comunicación entre departamentos sea más eficaz y disminuyendo los malentendidos. Los
procesos son optimizados, al utilizar el Data Warehouse el tiempo perdido por información
incorrecta o no encontrada disminuye además de ser más claros y entendibles por los usuarios

6).Arquitectura Típica de un Data Warehouse La arquitectura de un Data


WareHouse se compone de niveles o capas, esta varía de acuerdo a el uso que se le de

Base de datos operacional/nivel de base de datos externos:Son los sistemas


operacionales,transaccionales de la organización y fuentes que proveen los datos Nivel de
acceso a la información: Su finalidad se basa en la conversión de datos almacenados en
información fácil y transparente para las herramientas de los usuarios finales Nivel de acceso
a los datos: Comunica el nivel anterior con el nivel operacional de forma universal
Nivel de directorio de datos:También llamado repositorio de metadatos, aquí se guardan
los datos que informan el origen y transformación de los mismos Nivel de gestión de
procesos: Planifica las tareas y el mantenimientos del Data WareHouse Nivel de mensaje
de la aplicación: Determina el trasporte de información a lo largo de la organización Nivel
data WareHouse:es la ubicación central (fisica), donde residen copias de los datos internas
o externos optimizados para su acceso para la consulta Nivel de organización de datos:
Incluye todos los procesos necesarios para seleccionar,editar.resumir,combinar y cargar
datos en el Data WareHouse

7).¿Qué es un Data Marts?

Es una base de datos departamental,que se especializa en almacenar datos de un área de una


empresa específica, se caracteriza por contener una estructura óptima de datos para analizar
en detalle desde todas las perspectivas que afecten las decisiones de dicho departamento. Sus
datos pueden provenir de un Data WareHouse,puede ser una alternativa para empresas
medianas que no pueden costear un sistema tan amplio de data

8).Comparación entre Data Warehouse vs. Data Marts

Data Warehouse Data Marts

Es un gran depósito de datos de toda una WareHouse.Está diseñado para proveer solo a un
empresa departamento
Puede ser un subtipo de un Data

Ayuda a tomar decisiones estratégicas Ayuda a tomar decisiones tácticas

Proporciona un entorno integrado de toda la El proceso de diseño es fácil,está enfocado en un


empresa modelo dimensional
Proporciona datos principalmente a nivel
departamento
El almacenamiento incluye gran parte de la
El proceso de diseño es fácil, puede usarse en un empresa,por lo cual toma mucho tiempo
modelo dimensional,puede alimentar modelos procesarlo
dimensionales Solo puede manejar pequeñas cantidades de
datos

Los datos siempre se detallan Se crean para grupos de usuarios específicos,


por lo tanto los datos limitados cortos y limitados

Está diseñado para almacenar datos de El diseño de esquema está diseñado para
decisiones de toda la empresa optimizar el rendimiento de la capa de acceso

Los datos provienen de muchas fuentes Los datos provienen de muy pocas fuentes
El El tamaño de almacenamiento puede variar de
tamaño de almacenamiento es inferior a 100 gb a 1TB
100GB
9).Comparación entre Data Warehouse vs. Big Data
Data Warehouse Big Data
Es principalmente una arquitectura no una tecnología,extrae datos de fuentes de datos y ayuda
a generar reportes analiticos
Es principalmente una tecnología que se basa en el volumen,velocidad,variedad de datos
Si una empresa quiere realizar alguna decisión va al Data WareHouse ya que la decisión
requiere información confiable
Si una empresa quiere compararse con una gran cantidad de Big Data que contiene
información valiosa y ayuda a tomar mejores decisiones
Acepta una o más fuentes de datos homogéneos o heterogéneas
Acepta cualquier tipo de fuentes incluidas transacciones,información de sensores o máquinas
Maneja principalmente datos estructurales(relacionales)
Acepta todo tipo de formatos(relacionales,no estructurados,texto,video,audio,cotizaciones
bursátiles,transacciones financieras)
Proporciona información sobre un tema en específico y no sobre la operación continua de la
empresa,se centra principalmente en el análisis o visualización de datos que ayudan en la toma
de decisiones
Está orientado a diversos temas, puede aceptar y procesar datos de todas las fuentes. Se
centra en proporcionar un análisis exacto de datos específicamente orientados a diversos
temas
Los datos se identifican realmente por un periodo de tiempo particular
Tiene muchos enfoques para identificar datos ya cargados, se identifican por fecha y hora lo
que hace que sea más preciso
El procesamiento de grandes cantidades de datos lleva mucho tiempo
Se define principalmente para cargar grandes cantidades de datos en sistemas distribuidos
mediante el uso del programa de reducción de mapas
10).Cuáles son las soluciones ubicadas en el cuadrante de líderes para Data WareHouse
según Gartner
● Oracle
● Microsoft
● Amazon Web Services
● Sap
● Teradata
● Snowflake
● Google
● IBM

11).Explique las ventajas (fortalezas) y desventajas (precauciones) de cada una de las


soluciones anteriores

Oracle
Fortalezas
● Oracle ha ido uno de los DBMS líderes en ofertas en el mercado, con capacidades
robustas
● Obtuvo el puntaje más alto en capacidades de producto por los clientes
● Oferta de almacén de datos autónomo, ADW es un servicio en la nube que ofrece
gastos generales,también esfuerzos para analizar problemas de rendimiento corregirlos
● Disponibilidad inmediata de recursos de implementación
Debilidades
● Los precios de sus licencias aunque lidere el mercado no posee soluciones para
empresas de mediana o pequeña envergadura
● Tiene poca experiencia en la nube a comparación con google o amazon

Microsoft
Fortalezas
● Con Azure Data Lake Storage, Azure Data Lake Analytics, Azure Almacenamiento de
datos SQL y Azure Databricks, Microsoft articula una visión sólida para entornos de
procesamiento distribuido inherentes a la LDW
● Creció al doble de la tasa del DBMS general, es visto como uno de los líderes en la
nube y proveedor líder de DMSA
● Los clientes valoran sus productos y hojas de ruta
Debilidades
● Valor de sus licencias
● Contiene problemas de funcionalidad y de madurez en particular en la nube

Amazon Web Services


Fortalezas
● Es reconocido como el proveedor líder de servicios en la nube
● El crecimiento de AWS representó el 40% del crecimiento de todo el mercado
● Ha comenzado un esfuerzo hacia la presencia local, además de diversificar sus
opciones Debilidades
● Tiene problemas de integración con otros servicios ajenos a amazon
● Valor de las licencias
● Varios clientes informaron sobre problemas de rendimiento
Sap
Fortalezas
● Ha establecido alianzas con amazon,google,microsoft,alibaba y huawei dando paso al
multi cloud
● Ha mostrado un fuerte enfoque en ML/AL para tener capacidad de ejecutar
algoritmos Tensor Flow
● Los clientes elogian el rendimiento de SAP y su escalabilidad
Debilidades
● Precio de sus licencias
● Aunque se ha asociado con varias empresas líderes aún carece de verdadera
elasticidad

Teradata
Fortalezas
● Ha sido un proveedor líder durante varios años, se destaca en características como
servicio y soporte,soporte técnico y disponibilidad del sistema
● Tiene una cartera simplificada con sólo 2 opciones nube pública,nube privada
Debilidades
● Su enfoque en el mercado de gama alta ha limitado su crecimiento

Snowflake
Fortalezas
● Los usuarios elogiaron la capacidad del producto en relación calidad-precio y la fácil
implementación
● La arquitectura en la nube de Snowflake se basa en la separación de recursos lo que
permite escalar de manera efectiva
● Puede ejecutar más cargas de trabajo y admite más casos de uso
Debilidades
● Algunos usuarios reportaron falta de características como
vistas,procedimientos,interfaces
● Ha tenido en un periodo "corto" un crecimiento muy grande por lo cual puede que no dé
el soporte de calidad a sus usuarios
● Tiene una débil capacitación para utilizar el servicio

Google
Fortalezas
● Los usuarios reportaron el excelente rendimiento del producto además de la facilidad de
uso, implementación. Con un almacenamiento de 50 TB
● Permite abordar una amplia gama de casos de uso desde el almacén de datos hasta
usos científicos
● Tiene un gran crecimiento gracias a sus características
Debilidades
● Algunas de sus características no han madurado para dar soporte a empresas de
mediano tamaño
IBM
Fortalezas
● Proporciona una amplia gama de soluciones para empresas de cualquier tamaño
● Proporciona análisis de alto rendimiento para los datos

Debilidades
● Si es un cliente que utiliza PureData System for Analytics (Netezza) le tomará algo de
tiempo adaptarse a la nueva oferta Sistema de análisis integrado (IAS)

12).Cuáles son las soluciones ubicadas en el cuadrante de líderes para Soluciones


para B.I. y Analíticos de información
● Microsoft
● Tableau
● Qlik
● ThoughtSpot

13).Explique las ventajas (fortalezas) y desventajas (precauciones) de cada una de las


soluciones anteriores

Microsoft
Fortalezas
● El costo de la licencia fue la segunda razón más importante para que los clientes de
referencia elijan Microsoft Power BI
● Power BI admite datos complejos modelos con analítica avanzada integrada
● Facilidad de uso
● Mejoras en la analítica aumentada y haciendo que las nuevas funciones de Auto ML
Debilidades
● Carece de algunas de las capacidades de ML que se encuentran en Power BI SaaS
● Contiene inconsistencias en el soporte de diferentes fuentes de datos
● No ofrece flexibilidad para elegir una infraestructura en la nube

Tableau
Fortalezas
● Permite a los usuarios ingerir rápidamente datos de una amplia gama de fuentes de
datos, combínalas y visualice resultados utilizando las mejores prácticas en visual
percepción
● Establece el estándar de la industria para la habilitación de usuarios con Grupos de Meetup,
roadshows, tutoriales en línea y disponibilidad de habilidades en el mercado Debilidades
● La calidad del soporte de productos de Tableau disminuyó en 2018
● Actualizaciones más difíciles
● La licencia solo está disponible por suscripción
Qlik
Fortalezas
● Los usuarios pueden encontrar información útil más rápido gracias a la generación
automática de gráficos,así como sugerencias
● Permite construir robustas aplicaciones visuales interactivas
● Tiene la capacidad de soportar múltiples fuentes de datos
● Tiene una gran comunidad que contribuye con feedback
● Maneja Big Data con su generación de aplicaciones a pedido
● Mejorara su preparacion de datos y capacidades analiticas integradas
Debilidades
● Requiere software externo para hacer funcionar de manera óptima componentes
como QlikView y Qlik
● Los usuarios que migraron de Qlik a Qlik Sense reportaron que este ultimo esta por
debajo de Qlik por su servicio y soporte

ThoughtSpot
Fortalezas
● Tiene una IA la cual responde preguntas hechas por los usuarios
● Permite que se implemente para un número ilimitado de usuarios
Debilidades
● Requiere que todos los datos se carguen en su motor MPP
● Los datos deben prepararse y limpiarse con herramientas de terceros
● Los paneles son básicos sin mapeo enriquecido
● Al ser una empresa pequeña si se requiere atención al cliente se debe tratar
directamente con ellos lo cual hace que la respuesta no sea rapida
● Carece de contenido preconstruido para productos específicos dominios verticales y
funcionales

13).Conclusiones

El data WareHouse es una gran herramienta para que una empresa pueda agilizar en la parte
de marketing identifica los clientes y cuales son los productos que más se adecuan a sus
necesidades, además antes de su implementación se tienen que depurar los datos borrando
los inconsistentes o los faltantes haciendo que la base de datos contenga información veraz.En
cuanto al Data Marts sirve para un sector determinado de la empresa haciendo que sea más
rápido sin embargo esta hace que la información sólo pueda ser consultada por los empleados
de ese sector. En cuanto a los proveedores de servicios se debe tener muy en cuenta cuales
son las necesidades que tiene una empresa ya que hay muchos todos con aspectos favorables
y en contra, uno de los más recurrentes es que el precio de sus licencias es muy alto haciendo
difícil para una empresa de mediana o pequeña envergadura no pueda pagarla
14).Bibliografía

https://groups.google.com/forum/#!topic/itecnodgo_ninteligentes_ad_12/Bi76Pq31nz4
https://blog.mdcloud.es/dwh-ejemplos-arquitectura-data-warehouse/
http://inteligenciadenegocio.mx/blog/objetivos-de-un-data-warehouse
http://dwhucv.blogspot.com/p/arquitectura-de-un-data-warehouse.html
https://www.sinnexus.com/business_intelligence/datamart.aspx
https://www.esan.edu.pe/apuntes-empresariales/2015/06/diferencia-entre-
data-warehouse-data-mart/ https://www.guru99.com/data-warehouse-vs-data-
mart.html https://www.educba.com/big-data-vs-data-warehouse/
https://www.sinnexus.com/business_intelligence/datawarehouse.aspx
https://neoattack.com/neowiki/data-warehouse/

También podría gustarte