0% found this document useful (0 votes)

2 views2 pages

cs614 notes

The document discusses the serious issues caused by dirty data, including incorrect government decisions and financial losses in marketing. It categorizes data anomalies into syntactic, semantic, and coverage issues, and outlines various causes for missing data and methods for handling it. Additionally, it describes automatic data cleansing techniques and the Basic Sorted Neighborhood method for identifying and merging duplicate records.

Uploaded by

anizafar4

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

2 views2 pages

cs614 notes

Uploaded by

anizafar4

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 2

 Serious Problems due to dirty data

 Decisions taken at government level using wrong data resulting in undesirable results.
 In direct mail marketing sending letters to wrong addresses loss of money and bad reputation
 3 Classes of Anomalies
 Syntactically Dirty Data
o Lexical Errors
o Irregularities
 Semantically Dirty Data
o Integrity Constraint Violation
o Business rule contradiction
o Duplication
 Coverage Anomalies
o Missing Attributes
o Missing Records
 Lexical errors: For example, assume the data to be stored in table form with each row representing a
tuple and each column an attribute. If we expect the table to have five columns because each tuple has
five attributes but some or all of the rows contain only four columns then the actual structure of the
data does not conform to the specified format.
 Why Missing Rows?
 Equipment malfunction (bar code reader, keyboard etc.)
 Inconsistent with other recorded data and thus deleted.
 Data not entered due to misunderstanding/illegibility.
 Data not considered important at the time of entry (e.g. Y2K).
 OCR (Optical Character Reader)
 Handling missing data
 Dropping records.
 “Manually” filling missing values.
 Using a global constant as filler.
 Using the attribute mean (or median) as filler.
 Using the most probable value as filler.
 Key Based Classification of Problems
 Primary key problems
o Same PK but different data.
o Same entity with different keys.
o PK in one system but not in other.
o Same PK but in different formats.
 Non-Primary key problems
o Different encoding in different sources.
o Multiple ways to represent the same information.
o Sources might contain invalid data.
o Two fields with different data but same name.
o Required fields left blank.
o Data erroneous or incomplete.
o Data contains null values.
 Data that is genuinely missing or unknown,
 An attribute does not apply to an entity,
 Data that is pending, or
 Data that is only partially known.
 Automatic Data Cleansing
 Statistical
 Pattern Based
 Clustering
 Association Rules
 Problems due to data duplication
 False frequency distributions.
 Incorrect aggregates due to double counting.
 duplicate records will appear in the merged database. The issue is to identify and eliminate these
duplicates. The problem is known as the merge/purge problem.
 cleansing into six steps:
 elementizing
 standardizing
 Verifying
 Matching
 house holding
 Documenting
 Basic Sorted Neighborhood (BSN) Method
 Steps 1: Create Keys
o Compute a key for each record in the list by extracting relevant fields or portions of fields
o Effectiveness of this method highly depends on a properly chosen key
 Step 2: Sort Data
o Sort the records in the data list using the key of step 1
 Step 3: Merge
o Move a fixed size window through the sequential list of records limiting the comparisons for
matching records to those records in the window
o If the size of the window is w records, then every new record entering the window is compared
with the previous w-1 records.

Weekly Challenge 4 - 2 - Coursera
100% (1)
Weekly Challenge 4 - 2 - Coursera
1 page
Salesforce Analytics Einstein Discovery Data Sheet
No ratings yet
Salesforce Analytics Einstein Discovery Data Sheet
2 pages
Umoja - Job Aid - Intro To Ad-Hoc Reporting in BI
100% (1)
Umoja - Job Aid - Intro To Ad-Hoc Reporting in BI
58 pages
data preprocessing
No ratings yet
data preprocessing
11 pages
Datapreparation
No ratings yet
Datapreparation
59 pages
Integrating Data From Different Sources
No ratings yet
Integrating Data From Different Sources
11 pages
3 Data Preprocessing
No ratings yet
3 Data Preprocessing
33 pages
DWM - Co2-10
No ratings yet
DWM - Co2-10
27 pages
Chapter 2 3 Data Mining
No ratings yet
Chapter 2 3 Data Mining
4 pages
Chapter 3& 4 (3)
No ratings yet
Chapter 3& 4 (3)
60 pages
Mod2 DM
No ratings yet
Mod2 DM
86 pages
DM Chapter 3
No ratings yet
DM Chapter 3
60 pages
Pre Processing
No ratings yet
Pre Processing
52 pages
Estimasi Anggaran Biaya Google Adwords Iklan Website
No ratings yet
Estimasi Anggaran Biaya Google Adwords Iklan Website
54 pages
DWDM 3
No ratings yet
DWDM 3
12 pages
FDS Chapter 3
No ratings yet
FDS Chapter 3
103 pages
Introduction To Data Cleaning
No ratings yet
Introduction To Data Cleaning
36 pages
COS10022 - Lecture 03 - Data Preparation PDF
No ratings yet
COS10022 - Lecture 03 - Data Preparation PDF
61 pages
Chapter-3 data processing
No ratings yet
Chapter-3 data processing
54 pages
Data Cleansing
No ratings yet
Data Cleansing
5 pages
What is Data Cleaning
No ratings yet
What is Data Cleaning
8 pages
Data Preprocessing Part 1
No ratings yet
Data Preprocessing Part 1
14 pages
Correlation
No ratings yet
Correlation
14 pages
Data Cleaning 2021
No ratings yet
Data Cleaning 2021
61 pages
data-cleaning-using-pandas
No ratings yet
data-cleaning-using-pandas
9 pages
3 DSEngineering
No ratings yet
3 DSEngineering
64 pages
DEC_Unit II Data Pre-processing
No ratings yet
DEC_Unit II Data Pre-processing
96 pages
Lecture 6 Data Preprocessing
No ratings yet
Lecture 6 Data Preprocessing
59 pages
TTDS Lecture 2
No ratings yet
TTDS Lecture 2
40 pages
ML-Lecture-5-data-quality
No ratings yet
ML-Lecture-5-data-quality
19 pages
TTDS Lecture 2
No ratings yet
TTDS Lecture 2
40 pages
M 2.3 Data Preprocessing
No ratings yet
M 2.3 Data Preprocessing
22 pages
VIPDMTheoryChapter3
No ratings yet
VIPDMTheoryChapter3
87 pages
02 Data_preprocessing -4,5,6
No ratings yet
02 Data_preprocessing -4,5,6
54 pages
03preprocessing 1
No ratings yet
03preprocessing 1
39 pages
2 DM Datapreprocessing
No ratings yet
2 DM Datapreprocessing
41 pages
Day-4 Preprocessing
No ratings yet
Day-4 Preprocessing
11 pages
Data Preparation
No ratings yet
Data Preparation
21 pages
3. Data Preprocessing
No ratings yet
3. Data Preprocessing
120 pages
dm unit 3
No ratings yet
dm unit 3
15 pages
Aiml Data Preprocessing
No ratings yet
Aiml Data Preprocessing
99 pages
CS-DM Module-2
No ratings yet
CS-DM Module-2
29 pages
2 Data Preprocessing
No ratings yet
2 Data Preprocessing
57 pages
CS-DM MODULE-2
No ratings yet
CS-DM MODULE-2
30 pages
Chapter - 2 - Cleaning and Transforming Data
No ratings yet
Chapter - 2 - Cleaning and Transforming Data
27 pages
Data Science - Module 1.3
No ratings yet
Data Science - Module 1.3
34 pages
Unit-Ii Data Preprocessing
No ratings yet
Unit-Ii Data Preprocessing
94 pages
Data Pre-Processing: Submitted By, R.Archana, 10ucs05 D.Gayathri, 10ucs11
No ratings yet
Data Pre-Processing: Submitted By, R.Archana, 10ucs05 D.Gayathri, 10ucs11
18 pages
Deep Learning Ram
No ratings yet
Deep Learning Ram
21 pages
Data Preprocessing - 1: Course Leader
No ratings yet
Data Preprocessing - 1: Course Leader
22 pages
Lecture Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
No ratings yet
Lecture Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
40 pages
Ilyas FN TDB2015
No ratings yet
Ilyas FN TDB2015
115 pages
DWM Module 2
No ratings yet
DWM Module 2
9 pages
Data Cleaning and Data Transformation
No ratings yet
Data Cleaning and Data Transformation
13 pages
Data Preprocessing 1_annotated
No ratings yet
Data Preprocessing 1_annotated
23 pages
BIS 541 Ch03 20-21 S
No ratings yet
BIS 541 Ch03 20-21 S
86 pages
Chapter 2
No ratings yet
Chapter 2
22 pages
Data Preparation: KIT306/606: Data Analytics A/Prof. Quan Bai University of Tasmania
No ratings yet
Data Preparation: KIT306/606: Data Analytics A/Prof. Quan Bai University of Tasmania
49 pages
Data Cleaning: Information Integration
No ratings yet
Data Cleaning: Information Integration
42 pages
CS822-DataMining-Week3
No ratings yet
CS822-DataMining-Week3
91 pages
1-Introduction to data cleaning
No ratings yet
1-Introduction to data cleaning
22 pages
2 DM DataPreprocessing
No ratings yet
2 DM DataPreprocessing
43 pages
Schematron: A language for validating XML
From Everand
Schematron: A language for validating XML
Erik Siegel
No ratings yet
Frequently Asked ServiceNow Interview Questions
No ratings yet
Frequently Asked ServiceNow Interview Questions
3 pages
Data Mining For Small Shops Empowering Brick-And-Mortar Stores Through BI Functionalities of A Loyalty Program1
No ratings yet
Data Mining For Small Shops Empowering Brick-And-Mortar Stores Through BI Functionalities of A Loyalty Program1
18 pages
Databases December 2015 Sample Examination Paper: Answer ALL Questions. Clearly Cross Out Surplus Answers
No ratings yet
Databases December 2015 Sample Examination Paper: Answer ALL Questions. Clearly Cross Out Surplus Answers
6 pages
Database Case Study - Long
No ratings yet
Database Case Study - Long
3 pages
16 - Explaining Data Privacy and Protection Concepts
No ratings yet
16 - Explaining Data Privacy and Protection Concepts
19 pages
Netbackup 8.0 Blueprint Enterprise Vault
No ratings yet
Netbackup 8.0 Blueprint Enterprise Vault
39 pages
Fcs
No ratings yet
Fcs
11 pages
Yihao Final Paper CCSC for Submission
No ratings yet
Yihao Final Paper CCSC for Submission
6 pages
Music Emotion Recognition From Lyrics: A Comparative Study
No ratings yet
Music Emotion Recognition From Lyrics: A Comparative Study
4 pages
Aligarh Muslim University: Submitted By: Ghazala Farooqui
No ratings yet
Aligarh Muslim University: Submitted By: Ghazala Farooqui
17 pages
IC IT Risk Assessment Questionnaire 11644
No ratings yet
IC IT Risk Assessment Questionnaire 11644
3 pages
Diplomasi Publik
No ratings yet
Diplomasi Publik
202 pages
Managing Celerra Filesystems
No ratings yet
Managing Celerra Filesystems
66 pages
EDA
No ratings yet
EDA
11 pages
Data Management and Database Design: INFO 6210 Week #2
No ratings yet
Data Management and Database Design: INFO 6210 Week #2
32 pages
Power BI Skill Matrix 1694091548
No ratings yet
Power BI Skill Matrix 1694091548
1 page
6TK2
No ratings yet
6TK2
1 page
Types of Accounting Information Systems
0% (1)
Types of Accounting Information Systems
6 pages
Dbms Expected Questions
No ratings yet
Dbms Expected Questions
7 pages
11
No ratings yet
11
3 pages
DB2 Commands
100% (1)
DB2 Commands
3 pages
Lab7 Sol
No ratings yet
Lab7 Sol
3 pages
Orafaq
No ratings yet
Orafaq
5 pages
Peta Geologi Lembar Mano... P, 1981) (WorldCat
No ratings yet
Peta Geologi Lembar Mano... P, 1981) (WorldCat
3 pages
Data Integration
No ratings yet
Data Integration
7 pages
Workflow For Incident Problem Change Management
No ratings yet
Workflow For Incident Problem Change Management
2 pages
SQL Server Queries
No ratings yet
SQL Server Queries
12 pages

cs614 notes

Uploaded by

cs614 notes

Uploaded by

 Serious Problems due to dirty data

You might also like