STD - Capitulo 8 - Data Warehousing, Acceso, Analisis, Mineria

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 65

Data warehousing, Acceso,

Analisis , mineria y visualizacion


Capitulo 8
Indice
• Data warehousing, acceso, analisis y visualizacion
• La naturaleza y Fuente de datos
• Coleccion de datos , problemas y calidad
• EL internet y servicios de bases de datos comerciales
• Sistemas de administracion de bases de datos en DSS
• Organizacion de la base de datos y estructuras
• Data warehousing
• OLAP: Acceso de datos, querys y analisis
• Data Mining
• Visualizacion de datos y multidimensionalidad
• Sistemas de informacion geografica y realidad virtual
• Inteligencia de negocios y el web
• Todo integrado
www.gapminder.org
Hans Rosling y las mejores estadísticas que pueden ver.
Datawarehouse, acceso análisis y
visualizacion

Taken from :
http://schedule.sxsw.com/2012
/events/event_IAP10546
Who is talking and who is listening?
• On line conversations in Bellagio, Destino favorito en las Vegas
• Hay picos en los temas de conversación
Data mining, Machine Learning
Software
http://www.kdnuggets.com/2012/05
/top-analytics-data-mining-big-data-
software.html
La naturaleza de los datos
Colección de datos
• Datos internos
• Gente
• Productos
• Servicios
• Y Procesos
• Datos externos
• Bases de datos comerciales
• Sensores
• Satélites
• Música, videos, films
• Reportes de gobierno
• Bancos
• Instituciones de investigación
Colección de datos y los problema de calidad
• Requisitos de colección de datos
• Sistemáticos: se recogen siempre los mismos datos, bajo las mismas
condiciones, aplicado a los sujetos de investigación de grupo afin.
• Objetivos: definir objetivos claros, no percepciones.
• Métodos de recolección de datos
• Fisiológicos y Biológicos
• Observación
• Entrevistas y cuestionarios
• Expedientes o datos disponibles
Estoy llenando una encuesta para Mira, ellos preguntaron cuanto
lectores dinero gasto en goma de mascar Esta revista
Para la revista Masticando cada semana. Entonces escribi tendrá pronto
que 500 dólares . En mi edad, unos anuncion
puse 43 anos y cuando me interesantes Me
preguntaron cual era mi sabor encanta
favorito puse garlin/cherry enredar a
la data
Data
• Colección de datos que se obtienen como un
resultado de experiencias, observaciones o
experimentos. Taken from

• Números, palabras, imágenes,


http://desequilibros.blogspot.com/2012/04/cifras-o-letras-como-
escribir.html#.V5kKFTV8QW0

• La data se clasifica en categórica y numérica


• La data categórica puede dividirse en nominal u
ordinal
• La data numérica puede dividirse en intervalo o
ratio

Taken from:
http://vidafacebook.com/tag/usuarios-en-facebook/

Taken from http://americanethnologist.org/word-clouds-2013-february/


Taxonomia de la data
Taxonomia: es la ciencia de
la clasificacion
Data: problemas y calidad
• No encuentro la data que necesito
• Muchas versiones, regada por toda la red, en diferentes formatos.
• No puedo obtener la data que necesito
• Necesito de un experto que me la ponga como la requiero
• No entiendo la data que encontré
• Data disponible poco documentada
• No puedo usar la data que encontré
• La data debe de ser transformada de una forma a otra
Mas problemas
• La data no es correcta: fue generada de manera pobre, ingresada de
manera incorrecta, o fue un migración incorrecta
• La data no esta a tiempo, el método no es lo suficientemente rápido
para cubrir la necesidad de la data
• La data no es medida o indexada de manera correcta, la data es
recogida en diferentes formatos o en diferentes sistemas
• La data que necesito no existe, nadie la tiene, nadie la requirió, nada
la recopilo.
EL internet y servicios de bases de datos
comerciales
• Existen diferentes recursos de datos, API: Apllicaction programming interfaces
Universidades, periódicos, data geográfica,
deportes, sobre el mundo, gobierno y
políticas. http://flowingdata.com/2009/10/01/30-
resources-to-find-the-data-you-need/
• Scraping the web.(raspando la web)
http://datajournalismhandbook.org/1.0/en/getting_da
ta_3.html
• Existen fuentes de datos que están
disponibles a través del web en forma de API`s
(yahoo, google).
http://www.programmableweb.com/api-university/what-are-
apis-and-how-do-they-work
Db (databases)
Sistemas de administración de bases de datos
• Sistema de administración de bases de datos: es un programa de
software que permite administrar la base de datos es decir, anadir,
actualizar, borrar, manipular, eliminar, y recuperar información.

• Confusión entre las hojas de calculo y las bases de datos.


Organización de la base de datos y
estructuras
• La relación entre los registros almacenados en una base de datos
puede ser expresado mediante estructuras lógicas.
• Los manejadores son disenados para que manejen estas estructuras
• Estructuras convencionales
• Relacional
• Jerarquica
• De Red
Relacional

MySQL.
PostgreSQL.
Oracle.
DB2.
Informix.
Interbase.
Firebird.
Sybase.
Microsoft SQL Server.
Jerarquica

Adabas
GT.M
IMS
Focus

Tomado de http://www.dataprix.com/261-bases-datos-jer-rquicas
De red

Tomado de http://creately.com/blog/diagrams/database-modeling-basics/
Tomado de
http://www.dataprix.com/introduccion-
las-bases-datos/modelos-bd
• https://embed-
ssl.ted.com/talks/david_mccandless_the_beauty_of_data_visualizatio
n.html
Data warehouse
• Accesa, integra y organiza la data operacional en una forma
consistente, confiable, a tiempo y a disponibilidad, cuando y donde se
necesite.
• Piscina de datos, repositorio (informacion historica y actual )
• De interes para los administradores de la organizacion
• Data disponible para actividades de proceso analitico ( OLAP, Data
mining, queries, reportes, etc)
Caracteristicas del Data warehousing
Orientada al tema (Ventas, productos, clientes)

Integrada (datos de diferentes fuentes en un formato consistente)

Variante en el tiempo (mantiene data historica)

No volátil (Una vez que entro, ya no se puede cambiar o actualizar

Basada en web, Relacional o multidimensional, cliente-servidor, real time,


include metadata
• Data warehousing: (Disciplina provee soporte para la toma de
decison, permite el acceso a la información del negocio, crea
percepciones del negocio)
• Tipos de data warehouse:
• Data marts
• Operational Data Stores (ODS)
• Enterprise data warehouses (EDW)
Data mart

Tomado de :
http://anabuigues.com/20
10/04/19/data-mart-y-
data-warehouse/

http://gerardnico.com/wiki/dw/data_mart
Operational data store

http://randygrenier.blogspot.com/2011/02/operational-data-
stores-ods.html
Enterprise Data warehouse
Turban
Data warehousing

https://commons.wikimedia.org/wiki/File:Data_warehouse_ov
erview.JPG
OLAP
• OLTP
• Soportan procesamiento de transacciones corporativos
• Proveer soporte rápido
• Bases de datos relacionales
• Uso en los ERP, o SCM
• Integracion con tecnología basada en web
• Ejemplo de herramienta: INFORMIX online dynamic server.
• Cuando no se puede servir a todos entonces se separa OLAP
• OLAP
• Online analítical processing
• No hay una definición de que actividades corresponden al OLAP
• Herramientas OLAP (herramientas de hacer queries, hojas de calculo, herramientas
de minería de datos, herramientas de visualización de datos,
OLAP
• Vendedores de herramientas OLAP:
• Oracle
• Microstrategy Corporation
• Computer Associates
• Cognos
• SAS
• Vendedores de datawarehouse
• IBM
• Informix
• Oracle
• Sybase
SQL
• Structure Query language
• Lenguaje de acceso de datos y de manipulación en sistemas de
administración de bases de datos relacional
• Ingles
• Se usa para acceder en línea a las bases de datos
• DBMS (Oracle, IBM, DB2)
Data mining
• Es el descubrimiento de conocimiento en bases de datos
• Otros nombres: extracción de conocimiento, arqueología de datos,
exploración de datos, procesamiento de patrones de datos, cultivo de
información.
• Se encuentran patrones en los datos y se puede inferir reglas a partir
de ellos
• Las reglas permiten guiar una decisión y pronosticar el efecto de esa
decisión.
Minería de datos
Que se puede realizar en Data mining
• Clasificación Predecir el futuro
• Clustering
• Asociaciones

Descubrir relaciones
interesantes

Agrupamientos
Clasificación
Reglas de asociación
Reglas de asociación
Reglas de asociación
Clustering
Quienes utilizan DM
• Marketing
• Banking
• Manufacturing and production
• Precios de bonos
• Seguros
• Gobierno y defensa
• Aerolineas
• Salud
• Broadcasting
• Police
Visualizacion de datos y multidimensionalidad
• OLAP no incluye únicamente obtener y analizar, incluye también
presentar e interpretar.
• Una imagen vale mas que mil palabras
• Visualizacion de datos: tecnologias que soportan visualización e
interpretación de datos a lo largo de la cadena de procesamiento de
datos
• Tecnologias como: imágenes digitales, sistemas de información
geográficos, interfaces de usuario, tablas y graficos,
multidimensiones, realidad virtual, presentaciones tridimensionales y
animaciones
Gente muerta por un arma
Homofobicos , tweetes
Cadenas de pizzas mas populares
Vuelos antes del dia de gracias
• http://googletrends.github.io/iframe-scaffolder/#/s/01fJ5Q
Deportes
• http://www.columnfivemedia.com/work-items/interactive-most-
valuable-sports-franchises
Multidimensionalidad
• Tener mas de dos dimensiones.
• Se la puede organizar según el
deseo del administrador
• Se consideran tres factores en la
multidimensionalidad
• Dimensión (productos, segmentos
de mercado, vendedor)
• Mediciones ( dinero, ventas de
volumen, inventario, ganancia)
• Tiempo (semanal, mensual,
quincenal)
Desventajas
• Grandes cantidades de almacenamiento del computador
• Recursos del computador, memoria de procesamiento, excesivos
• Acciones
• Técnicas para reducir las dimensiones,
• Seleccionar las mejores dimensiones
Sistemas de información geográfica
• GIS
• Sistema de información geográfico que captura, almacena, integra,
manipula y presenta información usando mapas digitalizados
• Cada registro u objeto digital tiene un identificador geográfico .
• A la tarea de relacionar bases de datos que almacenan los mapas con
la localización geografica se denominan geocoding
• Se usa en:
• Análisis de área geográfica que sirve una sucursal de banco
• Análisis de trafico por sectores
• Análisis de crímenes por sectores
Sistemas de información geograficos
Realidad virtual
• Interactiva
• Generada por computadora
• Graficos tridimensionales entregados al usuario
• Se usa un display o casco de realidad virtual.
• Se “siente “ o se cree que lo que se hace es verdad.
• Se pueden compartir medios de realidad virtual con
personas.
Realidad Virtual : La Ronde, Montreal-Canada

También podría gustarte