STD - Capitulo 8 - Data Warehousing, Acceso, Analisis, Mineria
STD - Capitulo 8 - Data Warehousing, Acceso, Analisis, Mineria
STD - Capitulo 8 - Data Warehousing, Acceso, Analisis, Mineria
Taken from :
http://schedule.sxsw.com/2012
/events/event_IAP10546
Who is talking and who is listening?
• On line conversations in Bellagio, Destino favorito en las Vegas
• Hay picos en los temas de conversación
Data mining, Machine Learning
Software
http://www.kdnuggets.com/2012/05
/top-analytics-data-mining-big-data-
software.html
La naturaleza de los datos
Colección de datos
• Datos internos
• Gente
• Productos
• Servicios
• Y Procesos
• Datos externos
• Bases de datos comerciales
• Sensores
• Satélites
• Música, videos, films
• Reportes de gobierno
• Bancos
• Instituciones de investigación
Colección de datos y los problema de calidad
• Requisitos de colección de datos
• Sistemáticos: se recogen siempre los mismos datos, bajo las mismas
condiciones, aplicado a los sujetos de investigación de grupo afin.
• Objetivos: definir objetivos claros, no percepciones.
• Métodos de recolección de datos
• Fisiológicos y Biológicos
• Observación
• Entrevistas y cuestionarios
• Expedientes o datos disponibles
Estoy llenando una encuesta para Mira, ellos preguntaron cuanto
lectores dinero gasto en goma de mascar Esta revista
Para la revista Masticando cada semana. Entonces escribi tendrá pronto
que 500 dólares . En mi edad, unos anuncion
puse 43 anos y cuando me interesantes Me
preguntaron cual era mi sabor encanta
favorito puse garlin/cherry enredar a
la data
Data
• Colección de datos que se obtienen como un
resultado de experiencias, observaciones o
experimentos. Taken from
Taken from:
http://vidafacebook.com/tag/usuarios-en-facebook/
MySQL.
PostgreSQL.
Oracle.
DB2.
Informix.
Interbase.
Firebird.
Sybase.
Microsoft SQL Server.
Jerarquica
Adabas
GT.M
IMS
Focus
Tomado de http://www.dataprix.com/261-bases-datos-jer-rquicas
De red
Tomado de http://creately.com/blog/diagrams/database-modeling-basics/
Tomado de
http://www.dataprix.com/introduccion-
las-bases-datos/modelos-bd
• https://embed-
ssl.ted.com/talks/david_mccandless_the_beauty_of_data_visualizatio
n.html
Data warehouse
• Accesa, integra y organiza la data operacional en una forma
consistente, confiable, a tiempo y a disponibilidad, cuando y donde se
necesite.
• Piscina de datos, repositorio (informacion historica y actual )
• De interes para los administradores de la organizacion
• Data disponible para actividades de proceso analitico ( OLAP, Data
mining, queries, reportes, etc)
Caracteristicas del Data warehousing
Orientada al tema (Ventas, productos, clientes)
Tomado de :
http://anabuigues.com/20
10/04/19/data-mart-y-
data-warehouse/
http://gerardnico.com/wiki/dw/data_mart
Operational data store
http://randygrenier.blogspot.com/2011/02/operational-data-
stores-ods.html
Enterprise Data warehouse
Turban
Data warehousing
https://commons.wikimedia.org/wiki/File:Data_warehouse_ov
erview.JPG
OLAP
• OLTP
• Soportan procesamiento de transacciones corporativos
• Proveer soporte rápido
• Bases de datos relacionales
• Uso en los ERP, o SCM
• Integracion con tecnología basada en web
• Ejemplo de herramienta: INFORMIX online dynamic server.
• Cuando no se puede servir a todos entonces se separa OLAP
• OLAP
• Online analítical processing
• No hay una definición de que actividades corresponden al OLAP
• Herramientas OLAP (herramientas de hacer queries, hojas de calculo, herramientas
de minería de datos, herramientas de visualización de datos,
OLAP
• Vendedores de herramientas OLAP:
• Oracle
• Microstrategy Corporation
• Computer Associates
• Cognos
• SAS
• Vendedores de datawarehouse
• IBM
• Informix
• Oracle
• Sybase
SQL
• Structure Query language
• Lenguaje de acceso de datos y de manipulación en sistemas de
administración de bases de datos relacional
• Ingles
• Se usa para acceder en línea a las bases de datos
• DBMS (Oracle, IBM, DB2)
Data mining
• Es el descubrimiento de conocimiento en bases de datos
• Otros nombres: extracción de conocimiento, arqueología de datos,
exploración de datos, procesamiento de patrones de datos, cultivo de
información.
• Se encuentran patrones en los datos y se puede inferir reglas a partir
de ellos
• Las reglas permiten guiar una decisión y pronosticar el efecto de esa
decisión.
Minería de datos
Que se puede realizar en Data mining
• Clasificación Predecir el futuro
• Clustering
• Asociaciones
Descubrir relaciones
interesantes
Agrupamientos
Clasificación
Reglas de asociación
Reglas de asociación
Reglas de asociación
Clustering
Quienes utilizan DM
• Marketing
• Banking
• Manufacturing and production
• Precios de bonos
• Seguros
• Gobierno y defensa
• Aerolineas
• Salud
• Broadcasting
• Police
Visualizacion de datos y multidimensionalidad
• OLAP no incluye únicamente obtener y analizar, incluye también
presentar e interpretar.
• Una imagen vale mas que mil palabras
• Visualizacion de datos: tecnologias que soportan visualización e
interpretación de datos a lo largo de la cadena de procesamiento de
datos
• Tecnologias como: imágenes digitales, sistemas de información
geográficos, interfaces de usuario, tablas y graficos,
multidimensiones, realidad virtual, presentaciones tridimensionales y
animaciones
Gente muerta por un arma
Homofobicos , tweetes
Cadenas de pizzas mas populares
Vuelos antes del dia de gracias
• http://googletrends.github.io/iframe-scaffolder/#/s/01fJ5Q
Deportes
• http://www.columnfivemedia.com/work-items/interactive-most-
valuable-sports-franchises
Multidimensionalidad
• Tener mas de dos dimensiones.
• Se la puede organizar según el
deseo del administrador
• Se consideran tres factores en la
multidimensionalidad
• Dimensión (productos, segmentos
de mercado, vendedor)
• Mediciones ( dinero, ventas de
volumen, inventario, ganancia)
• Tiempo (semanal, mensual,
quincenal)
Desventajas
• Grandes cantidades de almacenamiento del computador
• Recursos del computador, memoria de procesamiento, excesivos
• Acciones
• Técnicas para reducir las dimensiones,
• Seleccionar las mejores dimensiones
Sistemas de información geográfica
• GIS
• Sistema de información geográfico que captura, almacena, integra,
manipula y presenta información usando mapas digitalizados
• Cada registro u objeto digital tiene un identificador geográfico .
• A la tarea de relacionar bases de datos que almacenan los mapas con
la localización geografica se denominan geocoding
• Se usa en:
• Análisis de área geográfica que sirve una sucursal de banco
• Análisis de trafico por sectores
• Análisis de crímenes por sectores
Sistemas de información geograficos
Realidad virtual
• Interactiva
• Generada por computadora
• Graficos tridimensionales entregados al usuario
• Se usa un display o casco de realidad virtual.
• Se “siente “ o se cree que lo que se hace es verdad.
• Se pueden compartir medios de realidad virtual con
personas.
Realidad Virtual : La Ronde, Montreal-Canada