Introduccion A Data Minning PDF
Introduccion A Data Minning PDF
Introduccion A Data Minning PDF
Qu es la minera de datos?
Extraccin de patrones (conocimiento) en grandes bases de datos.
Qu es la minera de datos?
Extraccin de conocimiento en grandes bases de datos.
Qu es la minera de datos?
Definiciones NonNon-trivial extraction of implicit, previously unknown and potentially useful information from data.
Frawley, PiatetskyFrawley, Piatetsky-Shapiro & Matheus: Matheus: Knowledge Discovery in Databases: An Overview. MIT Press, 1991.
Exploration and analysis, by automatic or semisemi-automatic means, of large quantities of data in order to discover meaningful patterns.
Berry & Linoff: Linoff: Data Mining Techniques. Wiley, 1997
Qu es la minera de datos?
How can I analyze this data?
Knowledge
Aplicaciones
Market basket analysis (compras) Perfiles de usuario en la Web Segmentacin de clientes Deteccin de fraudes / intrusos
KDD
KDD
Integracin de datos
(combinacin de mltiples fuentes de datos)
Reduccin/Seleccin de datos
(identificacin de datos relevantes para el problema)
Transformacin de datos
(preparacin de los datos para su anlisis)
Minera de datos
(tcnicas de extraccin de patrones y medidas de inters)
Presentacin de resultados
(tcnicas de visualizacin y de representacin del conocimiento)
8
KDD
KDD
Carcter multidisciplinar
Gestin de grandes cantidades de datos Evaluacin de resultados Resumen de datos
Bases de datos
Estadstica
Data Mining
IA
Aprendizaje Representacin del conocimiento
Visualizacin
Presentacin de resultados 10
KDD
I keep saying the sexy job in the next ten years will be statisticians. People think Im joking, but who wouldve guessed that computer engineers wouldve been the sexy job of the 1990s? The ability to take datato be able to data understand it, to process it, to extract value from it, to visualize it, to communicate itthats going to be a hugely it important skill in the next decades Because now we really do have essentially free and ubiquitous data. So the complimentary scarce factor is the ability to understand that data and extract value from it. Hal R. Varian
Googles Chief Economist Professor of Information Sciences, Business, and Economics at the University of California at Berkeley
11
KDD
12
13
16
Fuentes de datos
Fuentes de datos
18
Fuentes de datos
Fuentes de datos Bases de datos relacionales Bases de datos multidimensionales (DW) Bases de datos transaccionales Series temporales, secuencias y data streams Datos estructurados (grafos, redes sociales) Datos espaciales y espaciotemporales Textos e hipertextos (p.ej. Web) Bases de datos multimedia (p.ej. Imgenes)
19
Evaluacin de resultados
Evaluacin de resultados
20
Evaluacin de resultados
Un resultado es interesante si es comprensible (por seres humanos) es vlido con cierto grado de certeza es potencialmente til es novedoso o sirve para validar una hiptesis El inters de los resultados se puede evaluar objetivamente (criterios estadsticos) subjetivamente (perspectiva del usuario)
21
Arquitectura tpica
DB
DW
WWW
22
24
Temas de investigacin
Tcnicas eficientes de minera de datos
Escalabilidad Tcnicas incrementales Algoritmos paralelos
Bibliografa
PangPang-Ning Tan, Michael Steinbach & Vipin Kumar: Kumar: Introduction to Data Mining Addison-Wesley, Addison-Wesley, 2006. ISBN 0321321367 Jiawei Han & Micheline Kamber: Kamber: Data Mining: Mining: Concepts and Techniques Morgan Kaufmann, 2006. Kaufmann, ISBN 1558609016
26
Bibliografa (investigacin)
Revistas
ACM Transactions on Knowledge Discovery from Data (TKDD) IEEE Transactions on Knowledge and Data Engineering (TKDE) Data Mining and Knowledge Discovery (DMKD) ACM SIGKDD Explorations Data & Knowledge Engineering (DKE) (DKE) Knowledge and Information Systems (KAIS)
Congresos
KDD (ACM SIGKDD International Conference on KDD) ICDM (IEEE International Conference on Data Mining) Mining) SDM (SIAM Data Mining Conference) Conference) PKDD (Principles and Practices of KDD) SIGMOD (Management of Data) CIKM (Information and Knowledge Management) Management)
27