Lecture Notes: Data and Text Mining
Lecture Notes: Data and Text Mining
Lecture Notes: Data and Text Mining
Week ke - 4
LO 2: Using data mining models to solve problems by extracting knowledge from data
OUTLINE MATERI :
Mining Frequent Patterns, Associations, and Correlations: Basic Concepts and Methods
Basic Concepts
Frequent Itemset Mining Methods
Apriori Algorithm with Python
1. Basic Concepts
a. What Is Frequent Pattern Analysis?
Frequent Pattern adalah itemset, subsequences, atau substructures yang muncul dalam
kumpulan data dengan frekuensi tidak kurang dari batas yang ditentukan pengguna.
Penemuan pola, asosiasi, dan hubungan korelasi yang sering di antara sejumlah besar
data berguna dalam pemasaran selektif, analisis keputusan, dan manajemen bisnis. Area
aplikasi yang populer adalah market basket analysis, yang mempelajari kebiasaan membeli
pelanggan dengan mencari itemset yang sering dibeli bersama (atau berurutan).
Association rule mining terdiri dari temuan pertama frequent itemsets (set item, seperti A
dan B, memenuhi ambang batas dukungan minimum, atau persentase tupel tugas yang relevan),
dari mana aturan asosiasi yang kuat dalam bentuk A) B dihasilkan. Aturan-aturan ini juga
memenuhi ambang batas keyakinan minimum (yang ditentukan sebelumnya probabilitas
memuaskan B di bawah kondisi bahwa A puas). Asosiasi dapat dianalisis lebih lanjut untuk
mengungkap aturan korelasi, yang menyampaikan korelasi statistik antara itemsets A dan B.
Banyak algoritma yang efisien dan skalabel telah dikembangkan untuk frequent itemset
mining, dari mana aturan asosiasi dan korelasi dapat diturunkan. Algoritma ini dapat
diklasifikasikan ke dalam tiga kategori: (1) Apriori-like algorithms, (2) frequent
pattern growth–based algorithms such as FP-growth, and (3) algorithms that use the
vertical data format.
Apriori algorithm adalah algoritma seminal untuk mining frequent itemset untuk aturan
asosiasi Boolean. Ini mengeksplorasi properti penambangan bijak tingkat Apriori itu semua
subset tidak mengikat dari frequent itemset juga harus sering. Pada k iterasi k (untuk k ≥ 2), ia
membentuk kandidat k-itemset yang sering berdasarkan pada .k - 1 / -itemsets, dan memindai
database sekali untuk menemukan set lengkap k-itemsets, Lk.
Frequent pattern growth adalah metode penambangan frequent itemset tanpa calon
generasi. Ini membangun struktur data yang sangat kompak (sebuah FP-pohon) untuk
mengompres database transaksi asli. Berarti daripada menggunakan strategi generate-and-test
dari metode Apriori, itu berfokus pada pola yang sering (fragmen) pertumbuhan, yang
menghindari generasi kandidat yang mahal, menghasilkan efisiensi yang lebih besar.
Han, J., Kamber, M., & Pei, Y. (2012). Data Mining: Concepts and Techniques. 03.
Morgan Kaufmann Publishers. San Fracisco. ISBN: 978-0123814791.