0% found this document useful (0 votes)

16 views

Introduction To Data Mining

Uploaded by

vaishnavipatel.it22

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

16 views

Introduction To Data Mining

Uploaded by

vaishnavipatel.it22

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 46

Introduction to Data

Mining

1
Reference book
• “Data Mining: Concepts and Techniques” by
Jiawei Han and Micheline Kamber

2
Data Mining Outline
– Introduction
– Related Concepts
– Data Mining Techniques

3
Topics discussed
Goal: Provide an overview of data mining.

• Define data mining

• Data mining vs. databases
• Basic data mining tasks
• Data mining development
• Data mining issues

4
Why Data Mining
• Credit ratings/targeted marketing:
– Given a database of 100,000 names, which persons are the least likely to
default on their credit cards?
– Identify likely responders to sales promotions
• Fraud detection
– Which types of transactions are likely to be fraudulent, given the transactional
history of a particular customer?
• Customer relationship management:
– Which of my customers are likely to be the most loyal?

Data Mining helps extract such

information 5
Introduction
• Data is growing at a phenomenal rate
• Users expect more sophisticated (refined)
information
• How?

UNCOVER HIDDEN INFORMATION

DATA MINING

6
What Is Data Mining?
• Data mining (knowledge discovery from data)
– Extraction of interesting ( implicit, previously unknown and potentially
useful) patterns or knowledge from huge amount of data
• Alternative names
– Knowledge discovery (mining) in databases (KDD), knowledge
extraction, data/pattern analysis, information harvesting, business
intelligence, etc.

• Finding hidden information in a database

• Fit data to a model

7
Data Mining Algorithm
• Objective: Fit Data to a Model
– Descriptive
– Predictive
• Preference – Technique to choose the best
model
• Search – Technique to search the data
– “Query”

8
Database Processing vs. Data Mining
Processing

• Query • Query
– Well defined – Poorly defined
– SQL – No precise query language

 Data  Data
– Operational data – Not operational data

 Output  Output
– Precise – Fuzzy

9
Query Examples
• Database
– Find all credit applicants with last name of Smith.
– Identify customers who have purchased more
than $10,000 in the last month.
– Find all customers who have purchased milk

• Data Mining
– Find all credit applicants who are poor credit
risks. (classification)
– Identify customers with similar buying habits.
(Clustering)
– Find all items which are frequently purchased
with milk. (association rules)
10
Data Mining Models and Tasks

11
Basic Data Mining Tasks
• Classification maps data into predefined groups or classes
– Supervised learning
– Pattern recognition
– Prediction

• Regression is used a model to predict continuous value for a given

input.

• Clustering groups similar data together into clusters.

– Unsupervised learning
– Segmentation
– Partitioning

12
Basic Data Mining Tasks (cont’d)
Link Analysis uncovers relationships among
data.
– Affinity (similarity) Analysis
– Association Rules
– Sequential Analysis determines sequential
patterns.

13
Data Mining vs. KDD
• Knowledge Discovery in Databases (KDD):
process of finding useful information and
patterns in data.
• Data Mining: Use of algorithms to extract the
information and patterns derived by the KDD
process.

14
KDD Process

• Selection: Obtain data from various sources.

• Preprocessing: Cleanse data.
• Transformation: Convert to common format. Transform
to new format.
• Data Mining: Obtain desired results.
• Interpretation/Evaluation: Present results to user in
meaningful manner.
15
Data Mining and Business Intelligence

Increasing potential
to support
business decisions End User
Decision
Making

Data Presentation Business

Analyst
Visualization Techniques
Data Mining Data
Information Discovery Analyst

Data Exploration
Statistical Summary, Querying, and Reporting

Data Preprocessing/Integration, Data Warehouses

DBA
Data Sources
Paper, Files, Web documents, Scientific experiments, Database Systems
16
Data Mining Development: Multiple Disciplines
•Similarity Measures
•Hierarchical Clustering
•Relational Data Model •IR Systems
•SQL •Imprecise Queries
•Association Rule Algorithms •Textual Data
•Data Warehousing
•Scalability Techniques •Web Search Engines

•Bayes Theorem
•Regression Analysis
•EM Algorithm
•K-Means Clustering
•Time Series Analysis
•Algorithm Design Techniques
•Algorithm Analysis •Neural Networks
•Data Structures
•Decision Tree Algorithms

17
Why Not Traditional Data Analysis?
• Tremendous amount of data
– Algorithms must be highly scalable to handle such as tera-bytes of data
• High-dimensionality of data
• High complexity of data
– Data streams and sensor data
– Time-series data, temporal data, sequence data
– Structure data, graphs, social networks and multi-linked data
– Heterogeneous databases and legacy databases
– Spatial, multimedia, text and Web data
– Software programs, scientific simulations
• New and sophisticated applications

18
Data Mining: On What Kinds of Data?
• Database-oriented data sets and applications
– Relational database, data warehouse, transactional database
• Advanced data sets and advanced applications
– Data streams and sensor data
– Time-series data, temporal data, sequence data (incl. bio-sequences)
– Structure data, graphs, social networks and multi-linked data
– Object-relational databases
– Heterogeneous databases and legacy databases
– Spatial data
– Multimedia database
– Text databases
– The World-Wide Web

19
KDD Issues
• Human Interaction
• Overfitting
• Outliers
• Interpretation
• Visualization
• Large Datasets
• High Dimensionality

20
KDD issues (cont’d)
• Multimedia Data
• Missing Data
• Irrelevant Data
• Noisy Data
• Changing Data
• Integration
• Application

21
Database Perspective on Data
Mining

• Scalability
• Real World Data
• Updates
• Ease of Use

22
Goal: Examine some areas which are related to
data mining.
Related Concepts Outline
• Database/OLTP Systems
• Fuzzy Sets and Logic
• Information Retrieval(Web Search Engines)
• Dimensional Modeling
• Data Warehousing
• OLAP/DSS
• Statistics
• Machine Learning
• Pattern Matching

23
DB & OLTP Systems
• Schema
– (ID,Name,Address,Salary,JobNo)
• Data Model
– ER
– Relational
• Transaction
• Query:
SELECT Name
FROM T
WHERE Salary > 100000

DM: Only imprecise queries

24
Fuzzy Sets and Logic
• Fuzzy Set: Set membership function is a real valued function with
output in the range [0,1].
• f(x): Probability x is in F.
• 1-f(x): Probability x is not in F.
• EX:
– T = {x | x is a person and x is tall}
– Let f(x) be the probability that x is tall
– Here f is the membership function

DM: Prediction and classification are fuzzy.

25
Fuzzy Sets

26
27
Information Retrieval
• Information Retrieval (IR): retrieving desired information from textual
data.

• Digital Libraries
• Web Search Engines
• Traditionally keyword based
• Sample query:
Find all documents about “data mining”.

DM: Similarity measures;

Mine text/Web data.

28
Dimensional Modeling
• View data in a hierarchical manner more as business
executives might
• Useful in decision support systems and mining
• Dimension: collection of logically related attributes; axis for
modeling data.
• Facts: data stored
• Ex: Dimensions – products, locations, date
Facts – quantity, unit price

DM: May view data as dimensional.

29
Relational View of Data
ProdID LocID Date Quantity UnitPrice
123 Dallas 022900 5 25
123 Houston 020100 10 20
150 Dallas 031500 1 100
150 Dallas 031500 5 95
150 Fort 021000 5 80
Worth
150 Chicago 012000 20 75
200 Seattle 030100 5 50
300 Rochester 021500 200 5
500 Bradenton 022000 15 20
500 Chicago 012000 10 25
1
30
Dimensional Modeling Queries

• Roll Up: more general dimension

• Drill Down: more specific dimension
• Dimension (Aggregation) Hierarchy
• SQL uses aggregation
• Decision Support Systems (DSS): Computer
systems and tools to assist managers in
making decisions and solving problems.

31
Cube view of Data

32
Aggregation Hierarchies

33
Data Warehouse
• Defined in many different ways, but not rigorously.
– A decision support database that is maintained separately from the
organization’s operational database
– Support information processing by providing a solid platform of consolidated,
historical data for analysis.

• “A data warehouse is a subject-oriented, integrated, time-variant, and

nonvolatile collection of data in support of management’s decision-making
process.”—W. H. Inmon
• Data warehousing:
– The process of constructing and using data warehouses

34
Data Warehouse—Subject-Oriented

• Organized around major subjects, such as customer, product,

sales
• Focusing on the modeling and analysis of data for decision
makers, not on daily operations or transaction processing
• Provide a simple and concise view around particular subject
issues by excluding data that are not useful in the decision
support process

35
Data Warehouse—Integrated
• Constructed by integrating multiple, heterogeneous data
sources
– relational databases, flat files, on-line transaction records

• Data cleaning and data integration techniques are applied.

– Ensure consistency in naming conventions, encoding structures,
attribute measures, etc. among different data sources
– When data is moved to the warehouse, it is converted.

36
Data Warehouse—Time Variant
• The time horizon for the data warehouse is significantly
longer than that of operational systems
– Operational database: current value data
– Data warehouse data: provide information from a historical
perspective (e.g., past 5-10 years)
• Every key structure in the data warehouse
– Contains an element of time, explicitly or implicitly
– But the key of operational data may or may not contain “time
element”

37
Data Warehouse—Nonvolatile
• A physically separate store of data transformed from the
operational environment
• Operational update of data does not occur in the data
warehouse environment
– Does not require transaction processing, recovery, and concurrency
control mechanisms
– Requires only two operations in data accessing:

• initial loading of data and access of data

38
Data Warehouse vs. Operational DBMS

• OLTP (on-line transaction processing)

– Major task of traditional relational DBMS
– Day-to-day operations: purchasing, inventory, banking, manufacturing, payroll, registration,
accounting, etc.
• OLAP (on-line analytical processing)
– Major task of data warehouse system
– Data analysis and decision making
• Distinct features (OLTP vs. OLAP):
– User and system orientation: customer vs. market
– Data contents: current, detailed vs. historical, consolidated
– Database design: ER + application vs. star + subject
– View: current, local vs. evolutionary, integrated
– Access patterns: update vs. read-only but complex queries

39
Operational vs. Informational
Operational Data Data Warehouse

Application OLTP OLAP

Use Precise Queries Ad Hoc

Modification Dynamic Static

Orientation Application Business

Data Operational Values Integrated

Size Gigabits Terabits

Level Detailed Summarized

Access Often Less Often

Response Few Seconds Minutes

40
Statistics

• Simple descriptive models

• Statistical inference: generalizing a model
created from a sample of the data to the
entire dataset.
• Data mining targeted to business user

DM: Many data mining methods come from

statistical techniques.
41
Machine Learning
• Machine Learning: area of AI that examines how to write programs that
can learn.
• Often used in classification and prediction
• Supervised Learning: learns by example.
• Unsupervised Learning: learns without knowledge of correct answers.
• Machine learning often deals with small static datasets.

DM: Uses many machine learning techniques.

42
Pattern Matching (Recognition)
• Pattern Matching: finds occurrences of a
predefined pattern in the data.
• Applications include speech recognition,
information retrieval, time series analysis.

DM: Type of classification.

43
DM vs. Related Topics
Area Query Data Results Output

DB/OLTP Precise Database Precise DB Objects or

Aggregation

IR Precise Documents Vague Documents

OLAP Analysis Multidimensional Precise DB Objects or

Aggregation

DM Vague Preprocessed Vague KDD Objects

44
Data Mining Techniques Outline

Goal: Provide an overview of basic data

mining techniques
• Statistical
– Point Estimation
– Bayes Theorem
– Hypothesis Testing
– Regression and Correlation
• Similarity Measures
• Decision Trees
• Neural Networks
– Activation Functions
• Genetic Algorithms

45
Some success stories:

Data mining applications

Text Mining
Video Mining ----------- Multimedia Mining

Privacy Preserving in Association Rule Mining

Intrusion Detection- Database Intrusion Detection

- Network Intrusion Detection

Apache Cassandra Administrator Associate - Exam Practice Tests
From Everand
Apache Cassandra Administrator Associate - Exam Practice Tests
Cristian Scutaru
No ratings yet
Intelligent Agents and Environment
No ratings yet
Intelligent Agents and Environment
9 pages
Data Science Pocket Dictionary 1691284156
No ratings yet
Data Science Pocket Dictionary 1691284156
28 pages
Module 2 Empowerment Technologies
86% (7)
Module 2 Empowerment Technologies
6 pages
Dynamics 365 Implementation Guide v2
100% (7)
Dynamics 365 Implementation Guide v2
691 pages
Front-End Developer Handbook 2019 PDF
97% (31)
Front-End Developer Handbook 2019 PDF
145 pages
Imaje - s8 Master
No ratings yet
Imaje - s8 Master
4 pages
Morley-IAS Training Technical PDF
No ratings yet
Morley-IAS Training Technical PDF
31 pages
Data Mining Ppt-Unit1
No ratings yet
Data Mining Ppt-Unit1
187 pages
Tum Dersler Veri Madenciligi
No ratings yet
Tum Dersler Veri Madenciligi
123 pages
Module 1
No ratings yet
Module 1
107 pages
Naive Bayes Classifier
No ratings yet
Naive Bayes Classifier
11 pages
Market Basket Analysis and Advanced Data Mining: Professor Amit Basu
No ratings yet
Market Basket Analysis and Advanced Data Mining: Professor Amit Basu
24 pages
ICONDATA Data Science
No ratings yet
ICONDATA Data Science
674 pages
CIS 419/519 Introduction To Machine Learning Assignment 2: Instructions
No ratings yet
CIS 419/519 Introduction To Machine Learning Assignment 2: Instructions
12 pages
Data Mining:: Concepts and Techniques
100% (1)
Data Mining:: Concepts and Techniques
63 pages
Mca 3 Sem Artificial Intelligence Kca301 2023
No ratings yet
Mca 3 Sem Artificial Intelligence Kca301 2023
2 pages
unit-1 (1)
No ratings yet
unit-1 (1)
55 pages
Chapter 2 IA
No ratings yet
Chapter 2 IA
49 pages
Python Programming-Grade 9
No ratings yet
Python Programming-Grade 9
53 pages
McCormick How Stable Diffusion Works Dec 2022
No ratings yet
McCormick How Stable Diffusion Works Dec 2022
13 pages
Machine Learning Super Cheatsheet (Prof. Pedram Jahangiry)
No ratings yet
Machine Learning Super Cheatsheet (Prof. Pedram Jahangiry)
2 pages
An Introduction To WEKA: Contributed by Yizhou Sun 2008
No ratings yet
An Introduction To WEKA: Contributed by Yizhou Sun 2008
85 pages
Machine Learning & Data Mining: Understanding
No ratings yet
Machine Learning & Data Mining: Understanding
7 pages
Seminar Report Machine Learning
No ratings yet
Seminar Report Machine Learning
20 pages
04 Associative Memory
No ratings yet
04 Associative Memory
42 pages
Vinee
100% (1)
Vinee
28 pages
Chapter_1_Introduction_to_computer_vision_and_image_processing_for
No ratings yet
Chapter_1_Introduction_to_computer_vision_and_image_processing_for
81 pages
Module2.3 Hyperparameter Optimization
No ratings yet
Module2.3 Hyperparameter Optimization
29 pages
Blockchain Based Secured Document Storage For Cloud
No ratings yet
Blockchain Based Secured Document Storage For Cloud
10 pages
Slide 7 - Neural Networks
No ratings yet
Slide 7 - Neural Networks
64 pages
Deep Neural Network
No ratings yet
Deep Neural Network
12 pages
UNIT-I_Introduction to Computer Vision
No ratings yet
UNIT-I_Introduction to Computer Vision
45 pages
Linear Regression
100% (1)
Linear Regression
27 pages
Building Powerful Image Classification Models Using Very Little Data
No ratings yet
Building Powerful Image Classification Models Using Very Little Data
20 pages
Lec-4-HEURISTIC SEARCH METHODS-1
No ratings yet
Lec-4-HEURISTIC SEARCH METHODS-1
54 pages
Nptel Swayam DWDM Slides
No ratings yet
Nptel Swayam DWDM Slides
406 pages
Syllabus Data Science and Ai
No ratings yet
Syllabus Data Science and Ai
14 pages
AI - 02 (Intelligent Agents)
No ratings yet
AI - 02 (Intelligent Agents)
36 pages
Data Modelling and Visualization
No ratings yet
Data Modelling and Visualization
31 pages
Module 2
No ratings yet
Module 2
20 pages
Stochastic Search Methods
100% (1)
Stochastic Search Methods
45 pages
Types of Data (Qualitative and Quantitative)
No ratings yet
Types of Data (Qualitative and Quantitative)
89 pages
Decision-Tree Learning .
No ratings yet
Decision-Tree Learning .
29 pages
Archaeological Site Detection: The Importance of Contrast
No ratings yet
Archaeological Site Detection: The Importance of Contrast
6 pages
Fuzzy Logic Fuzzy Logic: Encoder Newsletter of The Seattle Robotics Society
No ratings yet
Fuzzy Logic Fuzzy Logic: Encoder Newsletter of The Seattle Robotics Society
10 pages
Association Rules
No ratings yet
Association Rules
64 pages
Fuzzyfication and Defuzzification
No ratings yet
Fuzzyfication and Defuzzification
6 pages
Partially Covered Face Detection in Presence of Headscarf For Surveillance Applications
No ratings yet
Partially Covered Face Detection in Presence of Headscarf For Surveillance Applications
5 pages
Cluster
100% (1)
Cluster
72 pages
Data Mining: Business Intelligence
No ratings yet
Data Mining: Business Intelligence
68 pages
Face Photo Sketch Recognition Using Deep
No ratings yet
Face Photo Sketch Recognition Using Deep
6 pages
Lec11&12-Adversarial Search
No ratings yet
Lec11&12-Adversarial Search
30 pages
Customer Churn Prediction
No ratings yet
Customer Churn Prediction
70 pages
Poly
100% (1)
Poly
108 pages
Artificial Neural Network
No ratings yet
Artificial Neural Network
38 pages
Get full Solution Manual for Essentials of MIS, 14th Edition, Kenneth C. Laudon Jane P. Laudon free all chapters
100% (5)
Get full Solution Manual for Essentials of MIS, 14th Edition, Kenneth C. Laudon Jane P. Laudon free all chapters
42 pages
"Machine Learning": K.L.E. College of Engineering and Technology Chikodi - 591201, Karnataka
No ratings yet
"Machine Learning": K.L.E. College of Engineering and Technology Chikodi - 591201, Karnataka
22 pages
Pratt Chapter 2
No ratings yet
Pratt Chapter 2
41 pages
Operation Research - II Goal Programming Industrial III Yr: Topic: Branch & Year
No ratings yet
Operation Research - II Goal Programming Industrial III Yr: Topic: Branch & Year
26 pages
Statistical Learning Methods
No ratings yet
Statistical Learning Methods
28 pages
بنك الاسئلة د محمود ابوالفتوح PDF
No ratings yet
بنك الاسئلة د محمود ابوالفتوح PDF
4 pages
Wavelet Toolbox™ User's Guide PDF
No ratings yet
Wavelet Toolbox™ User's Guide PDF
617 pages
Introduction To Data Mining-Week1
No ratings yet
Introduction To Data Mining-Week1
43 pages
CSM6404 DM L1
No ratings yet
CSM6404 DM L1
29 pages
SACS Utilities Manual PDF
No ratings yet
SACS Utilities Manual PDF
19 pages
Job Description Example For: Customer Service Associate
No ratings yet
Job Description Example For: Customer Service Associate
3 pages
Latihan Spss
No ratings yet
Latihan Spss
5 pages
Report On VSAT
No ratings yet
Report On VSAT
19 pages
Chapter 4 Questions with Answers - Project Integration Management
No ratings yet
Chapter 4 Questions with Answers - Project Integration Management
3 pages
Computer Basics BasicComputerSkills
No ratings yet
Computer Basics BasicComputerSkills
27 pages
Computer 2
No ratings yet
Computer 2
4 pages
Professional Resume
100% (1)
Professional Resume
1 page
Computer Networking & Web Programming
No ratings yet
Computer Networking & Web Programming
64 pages
Java 1
No ratings yet
Java 1
112 pages
Arietta850 Ver4 2-dcs
No ratings yet
Arietta850 Ver4 2-dcs
297 pages
Smart Assistive Glassesfor Alzheimers Patients
No ratings yet
Smart Assistive Glassesfor Alzheimers Patients
6 pages
Wireless Lans Part Ii: 802.11A/B/G/N/Ac
No ratings yet
Wireless Lans Part Ii: 802.11A/B/G/N/Ac
12 pages
June 2017 Ms
No ratings yet
June 2017 Ms
27 pages
C Language Escape Sequences: Dan Gookin C All-in-One Desk Reference For Dummies
No ratings yet
C Language Escape Sequences: Dan Gookin C All-in-One Desk Reference For Dummies
1 page
ISTQB Material
No ratings yet
ISTQB Material
82 pages
Ubuntu+Server+CLI+pro+tips+ 18X 06.01.20
100% (1)
Ubuntu+Server+CLI+pro+tips+ 18X 06.01.20
2 pages
KSP
No ratings yet
KSP
2,395 pages
Beginners Python Cheat Sheet PCC Git BW
No ratings yet
Beginners Python Cheat Sheet PCC Git BW
2 pages
Successful e Tendering
No ratings yet
Successful e Tendering
11 pages
B-850 PL PDF
No ratings yet
B-850 PL PDF
69 pages
GM06NW Protocol
No ratings yet
GM06NW Protocol
19 pages
Chapter 6 - Multimedia Element Video
No ratings yet
Chapter 6 - Multimedia Element Video
44 pages
Unit-4 SEngineering
No ratings yet
Unit-4 SEngineering
11 pages
Vodafone-GSM System Survey
No ratings yet
Vodafone-GSM System Survey
156 pages