0% found this document useful (0 votes)

6 views10 pages

Koding Text Mining

The document outlines a comprehensive data preprocessing and sentiment analysis workflow using Python, including data cleaning, normalization, tokenization, stopword removal, stemming, and sentiment labeling using a lexicon-based approach. It also describes various modeling techniques such as Decision Trees (C4.5), Support Vector Machines (SVM), K-Nearest Neighbors (KNN), Random Forest, and Naive Bayes for sentiment classification, along with performance evaluation metrics. The final results are visualized using confusion matrices and accuracy scores for each model.

Uploaded by

ramadhanfakhri553

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

6 views10 pages

Koding Text Mining

Uploaded by

ramadhanfakhri553

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 10

PROSES PREPROCESSING

import pandas as pd

pd.set_option('display.max_columns', None) # Menampilkan semua kolom

pd.set_option('display.max_colwidth', None) # Menampilkan isi seluruh kolom tanpa
pemotongan

data = pd.read_excel("dana_desa.xlsx")
data.head()

# data cleaning

# menghapus kolom yang tidak akan digunakan

data = data.drop(columns=['Datetime','Tweet_Id','Username','label','kata_kunci'])
data

data['Text'].fillna('test', inplace=True)
data.head()

import re # Mengimpor modul re

# membuat fungsi untuk data cleaning
def datacleaning(text):
text = re.sub(r'@[A-Za-z0-9]+', '', text) # menghapus mentions
text = re.sub(r'#[A-Za-z0-9]+', '', text) # menghapus hashtag
text = re.sub(r'RT[\s]', '', text) # menghapus retweet
text = re.sub(r'[?|$|.|@#%^/&*=!_:")(-+,]', '', text) # menghapus simbol
text = re.sub(r"http\S+", '', text) # menghapus link
text = re.sub(r'[0-9]+', '', text) # menghapus angka
text = text.replace('\n', ' ') # mengganti baris baru menjadi spasi
text = text.strip(' ') # hapus spasi dari kiri dan kanan teks
return text

data['Text'] = data['Text'].apply(datacleaning)
data

# case folding

def CaseFolding(text): # mengubah semua kata menjadi bentuk lower case

text = text.lower()
return text

data['Text'] = data['Text'].apply(CaseFolding)
data
# Normalisasi

key_norm = pd.read_csv('key_norm.csv')

def WordNormalization(text):
text = ' '.join([key_norm[key_norm['singkat'] == word]['hasil'].values[0] if
(key_norm['singkat'] == word).any() else word for word in text.split()])
text = str.lower(text)
return text

data['Text'] = data['Text'].apply(WordNormalization)
data

# Tokenizing

import nltk
nltk.download('punkt')

import nltk
from nltk.tokenize import word_tokenize

def Tokenizing(text):
text = word_tokenize(text)
return text

data['Text'] = data['Text'].apply(Tokenizing)
data

# Stopword

import nltk
nltk.download('stopword')

import nltk
from nltk.corpus import stopwords

stop_words = set(stopwords.words('indonesian'))

def Filtering(text):
clean_words = []
for word in text:
if word not in stop_words:
clean_words.append(word)
return " ".join(clean_words)

data['Text'] = data['Text'].apply(Filtering)
Data
# Stemming

pip install Sastrawi

pip install --upgrade pip Setuptools

from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

factory = StemmerFactory()
stemmer = factory.create_stemmer()

# Buat fungsi untuk langkah stemming bahasa Indonesia

def Stemming(text):
text = stemmer.stem(text)
return text

data['Text'] = data['Text'].apply(Stemming)
data

data.to_excel('danadesa_dc.xlsx', index=False)

PROSES PELABELAN (LEXICON BASE)

import pandas as pd

data = pd.read_excel("danadesa_dc.xlsx")
data

data['Text'].fillna('test', inplace=True)
data.head()

import csv

lexicon_positive = dict()
with open('lexicon_positive_ver1.csv', 'r') as csvfile:
reader = csv.reader(csvfile, delimiter=',')
for row in reader:
lexicon_positive[row[0]] = int(row[1])

lexicon_negative = dict()
with open('lexicon_negative_ver1.csv', 'r') as csvfile:
reader = csv.reader(csvfile, delimiter=',')
for row in reader:
lexicon_negative[row[0]] = int(row[1])

def sentiment_analysis_lexicon_indonesia(text):
score = 0
for word_pos in text:
if (word_pos in lexicon_positive):
score = score + lexicon_positive[word_pos]
for word_neg in text:
if (word_neg in lexicon_negative):
score = score + lexicon_negative[word_neg]
Sentimen=''
if (score > 0):
Sentimen = 'positif'
elif (score < 0):
Sentimen = 'negatif'
else:
Sentimen = 'netral'
return score, Sentimen

data['Text'] = data.Text.str.split()
data

results = data['Text'].apply(sentiment_analysis_lexicon_indonesia)
results = list(zip(*results))
data['score'] = results[0]
data['Sentimen'] = results[1]
print(data['Sentimen'].value_counts())

data

def convert_tokens_to_text(tokens):
text = ' '.join(tokens)
return text

data['Text'] = data['Text'].apply(convert_tokens_to_text)

print(data)

# menghapus kolom yang tidak akan digunakan

data = data.drop(columns=['score'])
data

import matplotlib.pyplot as plt

import seaborn as sns

fig, axes = plt.subplots()

sns.histplot(data=data, x='Sentimen', color='skyblue')

plt.show()

data.to_excel('danadesa_lexicon.xlsx', index=False)
Pemodelan Menggunakan Metode C.45

import pandas as pd

pd.set_option('display.max_columns', None) # Menampilkan semua kolom

pd.set_option('display.max_colwidth', None) # Menampilkan isi seluruh kolom
tanpa pemotongan

data = pd.read_excel("danadesa_lexicon.xlsx")
data.head()

# Pisahkan kolom fitur dan target

X = data['Text']
y = data['Sentimen']

from sklearn.feature_extraction.text import TfidfVectorizer

tf_idf = TfidfVectorizer()
tf_idf.fit(X)

X_tf_idf = tf_idf.transform(X).toarray()

data_tf_idf = pd.DataFrame(X_tf_idf, columns=tf_idf.get_feature_names_out())

data_tf_idf

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_tf_idf, y, test_size = 0.3,

random_state = 37)

from sklearn.tree import DecisionTreeClassifier

from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report, confusion_matrix
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

dc_classifier = DecisionTreeClassifier(max_depth=3, criterion="entropy")

dc_classifier.fit(X_train, y_train)
y_pred = dc_classifier.predict(X_test)

cm = confusion_matrix(y_test, y_pred)
label_names = np.unique(y)

plt.figure()
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=label_names,
yticklabels=label_names)
plt.xlabel('Prediksi')
plt.ylabel('Aktual')
plt.title('Confusion Matrix')
plt.show()

print("Accuracy Score untuk C4.5 Model :: ", accuracy_score(y_test, y_pred))

print(classification_report(y_test, y_pred, zero_division=0))

Pemodelan SVM

import pandas as pd

pd.set_option('display.max_columns', None) # Menampilkan semua kolom

pd.set_option('display.max_colwidth', None) # Menampilkan isi seluruh kolom
tanpa pemotongan

data = pd.read_excel("danadesa_lexicon.xlsx")
data.head()

# Pisahkan kolom fitur dan target

X = data['Text']
y = data['Sentimen']

from sklearn.feature_extraction.text import TfidfVectorizer

tf_idf = TfidfVectorizer()
tf_idf.fit(X)

X_tf_idf = tf_idf.transform(X).toarray()

data_tf_idf = pd.DataFrame(X_tf_idf, columns=tf_idf.get_feature_names_out())

data_tf_idf

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_tf_idf, y, test_size = 0.3,

random_state = 37)

from sklearn import svm

from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report, confusion_matrix
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

svm=svm.SVC(class_weight=None,C=1,gamma=0.1,kernel='linear',random_state=10
0, probability=True)
svm.fit(X_train, y_train)
svm_pred = svm.predict(X_test)
cm = confusion_matrix(y_test, svm_pred)
label_names = np.unique(y)

plt.figure()
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=label_names,
yticklabels=label_names)
plt.xlabel('Prediksi')
plt.ylabel('Aktual')
plt.title('Confusion Matrix')
plt.show()

print("Accuracy Score untuk Support Vector Machine Model :: ",

accuracy_score(y_test, svm_pred))
print(classification_report(y_test, svm_pred, zero_division=0))

Pemodelan KNN

import pandas as pd

pd.set_option('display.max_columns', None) # Menampilkan semua kolom

pd.set_option('display.max_colwidth', None) # Menampilkan isi seluruh kolom tanpa
pemotongan

data = pd.read_excel("daring_lexicon.xlsx")
data.head()

# Pisahkan kolom fitur dan target

X = data['Mention']
y = data['Sentimen']

from sklearn.feature_extraction.text import TfidfVectorizer

tf_idf = TfidfVectorizer()
tf_idf.fit(X)

X_tf_idf = tf_idf.transform(X).toarray()

data_tf_idf = pd.DataFrame(X_tf_idf, columns=tf_idf.get_feature_names_out())

data_tf_idf

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_tf_idf, y, test_size = 0.3,

random_state = 37)

from sklearn.neighbors import KNeighborsClassifier

import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report, confusion_matrix
import numpy as np
import seaborn as sns

errors = []
for k in range(1, 20):
knn = KNeighborsClassifier(n_neighbors=k)
knn.fit(X_train, y_train)
errors.append(1 - knn.score(X_test, y_test))

# Plot elbow method

plt.plot(range(1, 20), errors, marker='o')
plt.xlabel('Jumlah tetangga (k)')
plt.ylabel('Error')
plt.title('Elbow Method')
plt.show()

# Menentukan nilai k terbaik berdasarkan elbow method

best_k = errors.index(min(errors)) + 1
print("Nilai k terbaik: ", best_k)

# Melatih model KNN dengan nilai k terbaik

knn = KNeighborsClassifier(n_neighbors=best_k)
knn.fit(X_train, y_train)

# Prediksi sentimen pada data uji

y_pred = knn.predict(X_test)

cm = confusion_matrix(y_test, y_pred)
label_names = np.unique(y)

plt.figure()
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=label_names,
yticklabels=label_names)
plt.xlabel('Prediksi')
plt.ylabel('Aktual')
plt.title('Confusion Matrix')
plt.show()

print(classification_report(y_test, y_pred, zero_division=0))

print("\nKNN :" , accuracy_score(y_test, y_pred))
print('-------------------------------------------')

Pemodelan Random Forest

import pandas as pd

pd.set_option('display.max_columns', None) # Menampilkan semua kolom

pd.set_option('display.max_colwidth', None) # Menampilkan isi seluruh kolom tanpa
pemotongan

data = pd.read_excel("daring_lexicon.xlsx")
data.head()

# Pisahkan kolom fitur dan target

X = data['Mention']
y = data['Sentimen']

from sklearn.feature_extraction.text import TfidfVectorizer

tf_idf = TfidfVectorizer()
tf_idf.fit(X)

X_tf_idf = tf_idf.transform(X).toarray()

data_tf_idf = pd.DataFrame(X_tf_idf, columns=tf_idf.get_feature_names_out())

data_tf_idf

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_tf_idf, y, test_size = 0.3,

random_state = 37)

from sklearn.ensemble import RandomForestClassifier

from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report, confusion_matrix
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

rf_classifier = RandomForestClassifier()
rf_classifier.fit(X_train, y_train)
y_pred = rf_classifier.predict(X_test)

cm = confusion_matrix(y_test, y_pred)
label_names = np.unique(y)

plt.figure()
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=label_names,
yticklabels=label_names)
plt.xlabel('Prediksi')
plt.ylabel('Aktual')
plt.title('Confusion Matrix')
plt.show()

print("Accuracy Score untuk RandomForestClassifier Model :: ",

accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred, zero_division=0))
Pemodelan Naive Bayes

Case Study On Firewall
No ratings yet
Case Study On Firewall
4 pages
Bently Nevada 3500 Presentation Imp
100% (1)
Bently Nevada 3500 Presentation Imp
46 pages
CCNA 2 Months Industrial Training Report
No ratings yet
CCNA 2 Months Industrial Training Report
47 pages
2014 Issp Template
No ratings yet
2014 Issp Template
19 pages
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
C++ Functions and tutorial
From Everand
C++ Functions and tutorial
Nino Paiotta
No ratings yet
Pertemuan 4 - Fature Extraction
No ratings yet
Pertemuan 4 - Fature Extraction
18 pages
Advanced C Concepts and Programming: First Edition
From Everand
Advanced C Concepts and Programming: First Edition
Gayatri
3/5 (1)
No Ph.D. Game Design With Three.js
From Everand
No Ph.D. Game Design With Three.js
Nikiforos Kontopoulos
No ratings yet
Python For Beginners
From Everand
Python For Beginners
Célio Azevedo
No ratings yet
Computer Engineering Laboratory Solution Primer
From Everand
Computer Engineering Laboratory Solution Primer
Karan Bhandari
No ratings yet
C Language Programming Codes
From Everand
C Language Programming Codes
Durgesh
No ratings yet
Tugas Clustering STKI 162112233025
No ratings yet
Tugas Clustering STKI 162112233025
6 pages
Python CA 4
No ratings yet
Python CA 4
9 pages
10 Lessons in Front-end
From Everand
10 Lessons in Front-end
Krasimir Tsonev
2/5 (1)
Source Code Python Jemmy
No ratings yet
Source Code Python Jemmy
7 pages
Cyberbullying Code
No ratings yet
Cyberbullying Code
6 pages
2024tm05066 - Pranshu Malik - Colab
No ratings yet
2024tm05066 - Pranshu Malik - Colab
2 pages
Introduction
No ratings yet
Introduction
2 pages
Python for Data Science: Data Science Mastery by Nikhil Khan, #1
From Everand
Python for Data Science: Data Science Mastery by Nikhil Khan, #1
Nikhil Khan
No ratings yet
Microsoft Visual Basic Interview Questions: Microsoft VB Certification Review
From Everand
Microsoft Visual Basic Interview Questions: Microsoft VB Certification Review
Equity Press
No ratings yet
C Programming
From Everand
C Programming
Netra
No ratings yet
Simplifying Data Science With Python
From Everand
Simplifying Data Science With Python
Billy David millican
No ratings yet
Gd Script
From Everand
Gd Script
Marijo Trkulja
No ratings yet
Riska Hidayah Putri 312210102 TI.22.B1
No ratings yet
Riska Hidayah Putri 312210102 TI.22.B1
14 pages
Kelompok - 9 - Data Mining
No ratings yet
Kelompok - 9 - Data Mining
15 pages
NLP Tushar
No ratings yet
NLP Tushar
21 pages
ML Week10.1
No ratings yet
ML Week10.1
5 pages
Amazing Java: Learn Java Quickly
From Everand
Amazing Java: Learn Java Quickly
Andrei Besedin
No ratings yet
Problem Statement Is To Predict Price Column Based On Data With 24 Columns With Over 200 Data Entries Using Linear Regression
No ratings yet
Problem Statement Is To Predict Price Column Based On Data With 24 Columns With Over 200 Data Entries Using Linear Regression
5 pages
Bert Sentiment
No ratings yet
Bert Sentiment
7 pages
Assgn 05 ML Jatan.ipynb - Colab
No ratings yet
Assgn 05 ML Jatan.ipynb - Colab
3 pages
Bertweet Tokenizer
No ratings yet
Bertweet Tokenizer
2 pages
Python for Absolute Beginners: Learn to Code Fast!
From Everand
Python for Absolute Beginners: Learn to Code Fast!
Ibnul Jaif Farabi
No ratings yet
Laporan Titanic Survival Prediction - 132021012
No ratings yet
Laporan Titanic Survival Prediction - 132021012
6 pages
Import Library Python
No ratings yet
Import Library Python
10 pages
Introduction to PHP, Part 2, Second Edition
From Everand
Introduction to PHP, Part 2, Second Edition
Adam Majczak
No ratings yet
Unit 3 4
No ratings yet
Unit 3 4
6 pages
Code Text
No ratings yet
Code Text
4 pages
Code
No ratings yet
Code
13 pages
Sentimen2.ipynb - Colaboratory
No ratings yet
Sentimen2.ipynb - Colaboratory
12 pages
C# Interview Questions, Answers, and Explanations: C Sharp Certification Review
From Everand
C# Interview Questions, Answers, and Explanations: C Sharp Certification Review
equitypress
4.5/5 (3)
Tubes Ai Student Habits Performance Kel 3.Ipynb - Colab
No ratings yet
Tubes Ai Student Habits Performance Kel 3.Ipynb - Colab
4 pages
150+ C Pattern Programs
From Everand
150+ C Pattern Programs
Hernando Abella
No ratings yet
Multi Classification - Py (For 1 Class TP, TN, FP, FN)
No ratings yet
Multi Classification - Py (For 1 Class TP, TN, FP, FN)
25 pages
Ceban
No ratings yet
Ceban
2 pages
Report On - Social Media Research Topic Modeling
No ratings yet
Report On - Social Media Research Topic Modeling
26 pages
Python Project
No ratings yet
Python Project
2 pages
Angular Generative AI: Building an intelligent CV enhancer with Google Gemini
From Everand
Angular Generative AI: Building an intelligent CV enhancer with Google Gemini
Abdelfattah Ragab
No ratings yet
Linier Regresion ML
No ratings yet
Linier Regresion ML
8 pages
Blazor and API Example: Classroom Quiz Application
From Everand
Blazor and API Example: Classroom Quiz Application
Taurius Litvinavicius
No ratings yet
Praktikum Metode KNN. Yones - 2022511019 - TI A
No ratings yet
Praktikum Metode KNN. Yones - 2022511019 - TI A
14 pages
Rifqiirsyad 10123897
No ratings yet
Rifqiirsyad 10123897
16 pages
Shreya Srivastava-27
No ratings yet
Shreya Srivastava-27
3 pages
Foundations of Python for AI
No ratings yet
Foundations of Python for AI
67 pages
C# Functions and Tutorial - 50 Examples
From Everand
C# Functions and Tutorial - 50 Examples
Nino Paiotta
No ratings yet
Learn C++
From Everand
Learn C++
Durgesh
4.5/5 (9)
Programs in C#
From Everand
Programs in C#
Shubhankar Paul
No ratings yet
Sentiment Analysis
No ratings yet
Sentiment Analysis
4 pages
Code
No ratings yet
Code
18 pages
Big Data Merged
No ratings yet
Big Data Merged
7 pages
Percobaan SVM Medium - Ipynb - Colab
No ratings yet
Percobaan SVM Medium - Ipynb - Colab
23 pages
Super Visionado VSRegras
No ratings yet
Super Visionado VSRegras
6 pages
Curriculum Vitae: State Electrical Engineer
No ratings yet
Curriculum Vitae: State Electrical Engineer
3 pages
ValuLine Antenna Brochure BR-107121
No ratings yet
ValuLine Antenna Brochure BR-107121
8 pages
DS AP650Series PDF
No ratings yet
DS AP650Series PDF
10 pages
Laboratorio1.pkt: Dressin Table
No ratings yet
Laboratorio1.pkt: Dressin Table
4 pages
XP-rience - Toad 9.7 & Oracle Instant Client 11
No ratings yet
XP-rience - Toad 9.7 & Oracle Instant Client 11
3 pages
ETG1600 V1i0i4 G R InstallationGuideline
No ratings yet
ETG1600 V1i0i4 G R InstallationGuideline
67 pages
Comba Switch Configuration MOP 2.0
No ratings yet
Comba Switch Configuration MOP 2.0
28 pages
M518 GPS Intelligent Terminal User Manual
No ratings yet
M518 GPS Intelligent Terminal User Manual
17 pages
MPLS Layer2 VPN Configuration
No ratings yet
MPLS Layer2 VPN Configuration
37 pages
Application and CV Combined
No ratings yet
Application and CV Combined
5 pages
Commands Description Samples: Joshua B. Posawen IT 223
No ratings yet
Commands Description Samples: Joshua B. Posawen IT 223
4 pages
08-SmartAX MA5612 and MA5616
100% (1)
08-SmartAX MA5612 and MA5616
4 pages
Introduction For VM To Crack WEP Encryption
No ratings yet
Introduction For VM To Crack WEP Encryption
17 pages
Ibps Exams: Ibps Computer Knowledge Papers With Answers Computer Knowledge Paper - 1
No ratings yet
Ibps Exams: Ibps Computer Knowledge Papers With Answers Computer Knowledge Paper - 1
21 pages
Ws c3650 24ts e Datasheet
No ratings yet
Ws c3650 24ts e Datasheet
8 pages
Data Sheet Femto ECT D6 e Femto 25A D D6
No ratings yet
Data Sheet Femto ECT D6 e Femto 25A D D6
12 pages
Concurrent and Systems Programming: Daemon & Ws Network Communication Patterns Net, HTTP, Url, Websocket Packages
No ratings yet
Concurrent and Systems Programming: Daemon & Ws Network Communication Patterns Net, HTTP, Url, Websocket Packages
15 pages
SoftwareGuide Blocks S7-1500 2018
No ratings yet
SoftwareGuide Blocks S7-1500 2018
172 pages
TCON300
No ratings yet
TCON300
722 pages
Zoha Afzal 035 PDF
No ratings yet
Zoha Afzal 035 PDF
30 pages
Babasaheb Gawde Institute of Management Studies (Bgims)
No ratings yet
Babasaheb Gawde Institute of Management Studies (Bgims)
2 pages
CPU Magazine 07 2009
100% (1)
CPU Magazine 07 2009
112 pages
LabVIEW Measurements Manual
No ratings yet
LabVIEW Measurements Manual
159 pages
Epson Eb x05 Brochure en
No ratings yet
Epson Eb x05 Brochure en
3 pages
Olt C610 Zte
No ratings yet
Olt C610 Zte
4 pages
Packet Tracer Module 1-10 Answer Key
No ratings yet
Packet Tracer Module 1-10 Answer Key
78 pages

Koding Text Mining

Uploaded by

Koding Text Mining

Uploaded by

PROSES PREPROCESSING

pd.set_option('display.max_columns', None) # Menampilkan semua kolom

# menghapus kolom yang tidak akan digunakan

import re # Mengimpor modul re

def CaseFolding(text): # mengubah semua kata menjadi bentuk lower case

pip install Sastrawi

pip install --upgrade pip Setuptools

from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# Buat fungsi untuk langkah stemming bahasa Indonesia

PROSES PELABELAN (LEXICON BASE)

# menghapus kolom yang tidak akan digunakan

import matplotlib.pyplot as plt

fig, axes = plt.subplots()

sns.histplot(data=data, x='Sentimen', color='skyblue')

pd.set_option('display.max_columns', None) # Menampilkan semua kolom

# Pisahkan kolom fitur dan target

from sklearn.feature_extraction.text import TfidfVectorizer

data_tf_idf = pd.DataFrame(X_tf_idf, columns=tf_idf.get_feature_names_out())

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_tf_idf, y, test_size = 0.3,

from sklearn.tree import DecisionTreeClassifier

dc_classifier = DecisionTreeClassifier(max_depth=3, criterion="entropy")

print("Accuracy Score untuk C4.5 Model :: ", accuracy_score(y_test, y_pred))

pd.set_option('display.max_columns', None) # Menampilkan semua kolom

# Pisahkan kolom fitur dan target

from sklearn.feature_extraction.text import TfidfVectorizer

data_tf_idf = pd.DataFrame(X_tf_idf, columns=tf_idf.get_feature_names_out())

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_tf_idf, y, test_size = 0.3,

from sklearn import svm

print("Accuracy Score untuk Support Vector Machine Model :: ",

pd.set_option('display.max_columns', None) # Menampilkan semua kolom

# Pisahkan kolom fitur dan target

from sklearn.feature_extraction.text import TfidfVectorizer

data_tf_idf = pd.DataFrame(X_tf_idf, columns=tf_idf.get_feature_names_out())

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_tf_idf, y, test_size = 0.3,

from sklearn.neighbors import KNeighborsClassifier

# Plot elbow method

# Menentukan nilai k terbaik berdasarkan elbow method

# Melatih model KNN dengan nilai k terbaik

# Prediksi sentimen pada data uji

print(classification_report(y_test, y_pred, zero_division=0))

Pemodelan Random Forest

pd.set_option('display.max_columns', None) # Menampilkan semua kolom

# Pisahkan kolom fitur dan target

from sklearn.feature_extraction.text import TfidfVectorizer

data_tf_idf = pd.DataFrame(X_tf_idf, columns=tf_idf.get_feature_names_out())

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_tf_idf, y, test_size = 0.3,

from sklearn.ensemble import RandomForestClassifier

print("Accuracy Score untuk RandomForestClassifier Model :: ",

You might also like