Prediksi Pasien PusKesMas
Prediksi Pasien PusKesMas
Prediksi Pasien PusKesMas
80135
Vol. 12, No. 3, Juli 2024
d
Departemen Sains Data, Fakultas Ilmu Komputer, Institut Informatika dan Bisnis Darmajaya
Jl. Z.A. Pagar Alam No.93 Labuhan Ratu Bandar Lampung
4egisafitri@darmajaya.ac.id
Abstrak
Kunjungan pasien yang bersifat fluktuatif membuat pihak manajemen rumah sakit kesulitan dalam melakukan
perencanaan sehingga prediksi kunjungan pasien penting dilakukan oleh pusat kesehatan masyarakat
(PusKesMas). Tujuan penelitian ini untuk melakukan prediksi terhadap pasien yang datang berobat pada
puskesmas dapat pelayanan menjadi lebih baik. Berdasarkan pada kinerja yang baik dalam menyelesaikan
permasalahan yang telah dirumuskan, model yang digunakan adalah Random Forest (RF) dan Extreme Gradient
Boosting (XGBoost). Bahasa pemrograman yang digunakan yaitu python dengan memanfaatkan google colab.
Tahapan memisahkan data tain dan test dengan prosentase 70% untuk data train dan 30% untuk data test
menghasilkan akurasi pada RF sebesar 0.69 sedangkan pada XGBoost sebesar 0.93. Adapun hasil confusion
matrix dari XGBoost yaitu true positive (TP) yakni data yang diprediksi dengan tepat dan benar sebanyak 53,
false negative (FN) bernilai 3, false positive (FP) bernilai 2 dan 1, true negative (TN) bernilai 40, 4, 1, 46.
Sedangkan hasil classification report model XGBoost dari weighted Average nilai precision 0.93, nilai recall 0.93
dan nilai F1-Score juga 0.93. Hasil tersebut menunjukkan bahwa model yang digunakan memiliki kinerja yang
berkualitas baik, sehingga layak digunakan. Penerapan yang di lakukan adalah dengan klasifikasi data XGBoost
untuk menilai kunjungan pasien dalam 5 tahun mendatang, dengan prediksi mencapai akurasi 93%.
Kata kunci: Prediksi, Machine Learning, Data Mining, Random Forest, XGboost, PusKesMas
Data yang digunakan untuk melakukan prediksi dengan Langkah awal yang dilakukan pada preprocessing data
menggunakan dataset kunjungan pasien berobat rawat adalah transformasi dari ke-6 atribut ada 4 yang
jalan pada Puskesmas Hanura yang terletak di desa mengalami perubahan yaitu Usia Pasien, Alamat, Jenis
Hanura propinsi Lampung periode data bulan Oktober- Penyakit dan Jenis Kelamin. Usia Pasien mengacu pada
Desember 2023 sebanyak 500 record, dan sebanyak 6 ketentuan Departemen Kesehatan Republik Indonesia
atribut yaitu Usia Pasien, Tinggi Badan, Berat Badan, tahun 2009 dengan 9 kategori seperti pada table 1 berikut:
Jenis Penyakit, Alamat Pasien dan Jenis Kelamin. TABEL I
KATEGORI USIA
D. Preprocessing Data Rentang Usia Kelompok Transformasi
(tahun) Usia
Proses penggunaan data yang mentah sebelum
0-5 Balita 1
dilakukan analisis, yang mencakup beberapa tahapan 6-11 Kanak-kanak 2
seperti pembersihan dan pengubahan data ini disebut 12-16 Remaja Awal 3
dengan preprocessing[16]. 17-25 Remaja Akhir 4
26-35 Dewasa Awal 5
1) Pembersihan Data (Cleaning) 36-45 Dewasa Akhir 6
Dilakukan cleaning data yang kosong dan 46-55 Lansia Awal 7
menghilangkan data yang missing, serta mengecek 56-65 Lansia Akhir 8
duplikasi data, sehingga statusnya menjadi result yang >66 Manula 9
berarti telah layak dan baik untuk dilakukan pemrosesan
pada tahap selanjutnya. Data Alamat Pasien dilakukan transformasi menjadi
atribut desa untuk memudahkan pemrosesan selanjutnya,
ada 13 desa antara lain pada tabel 2 berikut:
TABEL II
DATA DESA
Desa Transformasi
Hanura 1
Lempasing 2
Gebang 3
Cilimus 4
Hurun 5
Sidodadi 6
Batu Menyan 7
Tanjung Agung 8
Magan 9
Seribu 10
Gambar 2. Hasil Pengecekan Duplikasi Data
Munca 11
Ketapang 12
Berikut salah satu tampilan visualisasi data dari dataset Margodadi 13
yang digunakan pada penelitian ini :
Transformasi dilakukan juga terhadap atribut Jenis
Penyakit yang terdiri dari 45 jenis antara lain seperti
pada table 3 berikut:
TABEL III
JENIS PENYAKIT
Jenis Penyakit Transformasi
HT/Hipertensi 1
J00/Flu Biasa 2
ISPA/Infeksi Saluran Pernapasan 3
Demam 4
DM/Diabetes Melitus 5
Maag 6
….. …..
OA/Osteoarthritis 40
Parotitis/Kelenjar Liur 41
STT/Tumor Jinak 42
Stomatitis 43
Tinea Corporis/Kurap 44
Gambar 3. Visualisasi Usia vs Jenis Penyakit l50/Urtikaria Alergi 45
2) Pengubahan Data (Transformasi)
Berikut data transformasi dari atribut Jenis Kelamin:
TABEL IV
(a)
(b)
Gambar 10. Scrypt Classification Report
(a) RF, (b) XGBoost
IV. KESIMPULAN
Dari proses yang telah dilakukan pada penelitian ini
dihasilkan akurasi tertinggi diantara algoritma RF dan
XGBoost adalah menggunakan XGBoost dengan score
sebesar 0.93 atau 93% dengan confusion matrix yaitu TP
bernilai 53, FN bernilai 3, FP bernilai 2 dan 1, TN bernilai
40, 4, 1, 46, dan nilai tersebut mewakili jumlah prediksi
dibandingkan dengan kelas sebenarnya yang dilakukan
Gambar 9. Confusion Matrix XGBoost
oleh model dari data tersebut. Sedangkan hasil
True Positives (TP): jumlah data yang diprediksi dengan classification report dari weighted average nilai precision
tepat sebagai “positif”. False Positif (FP): jumlah data 0.93, nilai recall 0.93 dan nilai F1-Score juga 0.93. Hasil
yang salah diprediksi sebagai “positif”. True Negatives tersebut menunjukkan bahwa model yang digunakan
(TN): jumlah data yang diprediksi dengan tepat sebagai memiliki kinerja yang berkualitas baik, sehingga layak
“negatif”. False Negatif (FN): jumlah data yang salah digunakan sebagai rujukan untuk mendukung strategi
diprediksi sebagai “negatif”[32]. perencanaan dalam pengembangan kualitas layanan pusat
kesehatan masyarakat (PusKesMas) di masa yang akan
Pada gambar 8 di atas menjelaskan bahwa model RF datang. Penerapan yang di lakukan adalah dengan
menghasilkan TP bernilai 76, FN bernilai 17, FP bernilai klasifikasi data XGBoost untuk menilai kunjungan pasien
30, TN bernilai 27. Sedangkan dari model XGBoost pada dalam 5 tahun mendatang, menghasilkan akurasi prediksi
gambar 9 membentuk 3 kelas dengan matrik hasil TP mencapai 93%. Penelitian ini masih memiliki kekurangan,
bernilai 53, FN bernilai 3, FP bernilai 2 dan 1, TN bernilai sehingga disarankan untuk penelitian selanjutnya
40, 4, 1, 46. menggunakan algoritma yang lain dari machine learning,
penambahan jumlah data dan atribut agar hasilnya makin
baik, serta dilakukan pengembangan sistem berbasis
2) Classification Report aplikasi agar masyarakat juga dapat merasakan
Classification report dipergunakan untuk mengukur manfaatnya.
kualitas prediksi dari teknik klasifikasi setiap algoritma
yang digunakan[33]. Accuracy merupakan nilai yang DAFTAR PUSTAKA
menunjukkan seberapa akurat model dalam memprediksi [1] S. Sabran, A. H. Faradila, and M. Yunus, “Prediksi Jumlah
keseluruhan data, precision mengukur sejauh mana data Pengunjung Pasien Rawat Jalan Instalasi Merpati RSUP DR .
Kariadi Semarang Tahun 2022- 2024,” J. Kesehat. Tambusai,
yang diprediksi salah itu salah, recall untuk mengukur vol. 4, no. 1, pp. 155–160, 2023.
[2] S. N. Azizah, E. Rachmawati, P. Studi, M. Informasi, K. Siswa SMK Teknik Komputer Menggunakan Algoritma
Politeknik, and N. Jember, “Prediksi Kunjungan Pasien Rawat Random Forest Prediction of On-Time Graduation for
Jalan Dengan Metode Analisis Trend Linear di RSUD Haji Computer Engineering Vocational School Students Using the
Provinsi Jawa Timur Tahun 2023-2025,” J. Manaj. Dan Adm. Random Forest Algorithm,” J. Manaj. Inform., vol. 14, no. 1,
Rumah Sakit Indones. ( MARSI ), vol. 8, no. 1, pp. 26–32, 2024. pp. 101–111, 2024.
[3] N. Rahmawati and M. A. Laras, “Prediksi Kunjungan Pasien [21] M. F. R. Aditya, N. Lutvi, and U. Indahyanti, “Prediksi
Rawat Jalan Di RSAU dr. Siswanto LANUD Adi Soemarmo Penyakit Hipertensi Menggunakan metode Decision Tree dan
Karanganyar Tahun 2022-2026,” INFOKES J. Ilm. Rekam Random Forest,” J. Ilm. KOMPUTASI, vol. 23, no. 1, pp. 9–16,
Medis dan Inform. Kesehat., vol. 13, no. 1, pp. 52–63, 2023. 2024.
[4] A. S. Novari and U. K. N. S, “Prediksi Faktor yang [22] H. Nicholas and J. Benedict, “Implementasi Machine Learning
Mempengaruhi Hipertensi dengan Metode Data Mining untuk Untuk Prediksi Harga Rumah Menggunakan Algoritma
meningkatkan Pelayanan Kesehatan di UPT Puskesmas Random Forest,” Comput. J. Comput. Sci. Inf. Syst., vol. 8, no.
Ngoro,” Phys. Sci. Life Sci. Eng., vol. 1, no. 2, pp. 1–16, 2024. 1, pp. 50–61, 2024.
[5] F. H. Muzaki and W. J. Pranoto, “Analisis Regresi Linear [23] A. Choudhury, A. Mondal, and S. Sarkar, “Searches for the
Dalam Data Mining Untuk Pprediksi Sijil Off Di KSOP Kelas BSM scenarios at the LHC using decision tree based machine
I Samarinda,” J. Ilmu Tek., vol. 1, no. 2, pp. 261–266, 2024. learning algorithms: A comparative study and review of
[6] M. Ahmad, M. A. Ali, M. R. Hasan, F. D. Mobo, and S. I. Rai, Random Forest, Adaboost, XGboost and LightGBM
Geospatial Machine Learning and the Power of Python frameworks,” arXiv Prepr., 2024, doi:
Programming: Libraries, Tools, Applications, and Plugins. https://doi.org/10.48550/arXiv.2405.06040.
2024. [24] M. Salsabil, N. L. Azizah, and A. Eviyanti, “Implementasi
[7] D. Febriyanto and M. R. A. Pangestu, “Pengaruh Artificial Data Mining dalam Melakukan Prediksi Penyakit Diabetes
Intelligence (Ai) Dan Social Media Dalam Pelaksanaan Pemilu Menggunakan Metode Random Forest dan Xgboost
2024,” Curtina, vol. 4, no. 2, pp. 37–43, 2023. Pendahuluan,” J. Ilm. KOMPUTASI, vol. 23, no. 1, pp. 51–58,
[8] R. F. Putra et al., Algoritma Pembelajaran Mesin ( Dasar , 2024, doi: http://dx.doi.org/10.32409/jikstik.23.1.3507.
Teknik , dan Aplikasi ), no. April. Sonpedia Publishing [25] P. K. Sari and R. R. Suryono, “Komparasi Algoritma Support
Indonesia, 2024. Vector Machine Dan Random Forest Untuk Analisis Sentimen
[9] N. Hendrastuty, “Penerapan Data Mining Menggunakan Metaverse,” J. Mnemon., vol. 7, no. 1, pp. 31–39, 2024.
Algoritma K-Means Clustering Dalam Evaluasi Hasil [26] R. N. Alifah et al., “Perbandingan Metode Tree Based
Pembelajaran Siswa,” J. Ilm. Inform. dan Ilmu Komput., vol. 3, Classification untuk Masalah Klasifikasi Data Body Mass
pp. 46–56, 2024. Index,” Indones. J. Math. Nat. Sci., vol. 47, no. 1, pp. 49–65,
[10] A. A. Saputra, B. N. Sari, and C. Rozikin, “Penerapan 2024.
Algoritma Extreme Gradient Boosting (Xgboost) Untuk [27] W. Nugraha and M. Syarif, “Teknik Weighting untuk
Analisis Risiko Kredit,” J. Ilm. Wahana Pendidik., vol. 10, no. Mengatasi Ketidakseimbangan Kelas Pada Prediksi Churn
7, 2024, doi: https://doi.org/10.5281/zenodo.10960080. Menggunakan XGBoost, LightGBM, dan CatBoost,”
[11] J. Asbullah and Samsudin, “Prediksi Harga Cryptocurrency Techno.COM, vol. 22, no. 1, pp. 97–108, 2023.
Binance Berdasarkan Informasi Blokchain dengan [28] W. Nugraha, “Prediksi penyakit jantung cardiovascular
Menggunakan Algoritma Random Forest,” Media Inform. menggunakan model algoritma klasifikasi,” J. SIGMATA, vol.
Budidarma, vol. 8, no. 1, pp. 260–271, 2024, doi: 9, no. 2, pp. 78–84, 2021.
10.30865/mib.v8i1.7100. [29] B. Jange, “Prediksi Harga Saham Bank BCA Menggunakan
[12] T. R. Nangon and A. D. Alexander, “Prediksi Tahap Awal XGBoost,” Arbitr. J. Econ. Account., vol. 3, no. 2, pp. 231–
Penyakit Jantung Menggunakan Algoritma Random Forest 237, 2022, doi: 10.47065/arbitrase.v3i2.495.
(Studi Kasus RSIJ),” Dawatuna J. Commun. Islam. Broadcast., [30] G. A. Putratama, S. M. Fahreza, and Y. R. Ramandhani,
vol. 4, no. 4, pp. 1561–1567, 2024. “Evaluasi Komparatif Metode Machine Learning Untuk
[13] H. Wijaya, D. P. Hostiadi, and E. Triandini, “Meningkatkan Memprediksi Perubahan Harga Saham,” ANTIVIRUS J. Ilm.
Prediksi Penjualan Retail Xyz Dengan Teknik Optimasi Tek. Inform., vol. 17, no. 2, pp. 278–285, 2024.
RandomSearchPada Model Xgboost,” in Prosiding Seminar [31] Annisa Aulia Lestari, L. C. Agatha, and A. Desiani, “Analisis
Hasil Penelitian Informatika dan Komputer (SPINTER), 2024, Perbandingan Klasifikasi Penyakit Jantung Menggunakan
pp. 829–833. Algoritma Naïve Bayes dan Algoritma Logistic Regression,” J.
[14] R. A. H. Winarso, “Prediksi Mahasiswa Drop Out Institut Rekayasa Elektro Sriwij., vol. 5, no. 2, pp. 82–90, 2024, doi:
Teknologi Sepuluh Nopember Menggunakan XGBoost dan https://doi.org/10.36706/jres.v5i2.104.
SHAP Values Berbasis Dashboard Interaktif,” 2024. [Online]. [32] Z. Shao, M. N. Ahmad, and A. Javed, “Comparison of
Available: https://repository.its.ac.id/105897/ Random Forest and XGBoost Classifiers Using Integrated
[15] R. S. Sinambela, M. Ula, and A. F. Ulva, “Prediksi Harga Optical and SAR Features for Mapping Urban Impervious
Emas Menggunakan Algoritma Regresi Linear Berganda Dan Surface,” Remote Sens., vol. 16, no. 4, 2024.
Support Vector Machine ( SVM ) Prediction Gold Price [33] I. Jayanto and B. Benisius, “Analisis Perbandingan Algoritma
Prediction Using Multiple Linear Regression Algorithm and Decision Tree untuk Prediksi Karyawan dengan Potensi
Support Vector Machine ( SVM ),” Justin(Jurnal Sist. dan Atrisidi PT. XYZ,” FAHMA –Jurnal Inform. Komputer, Bisnis
Teknol. Inf., vol. 12, no. 2, pp. 253–258, 2024, doi: dan Manaj., vol. 22, no. 1, pp. 49–59, 2024.
10.26418/justin.v12i2.73386. [34] R. Rofik, R. Aulia, K. Musaadah, S. S. F. Ardyani, and A. A.
[16] R. Harahap, M. Irpan, M. A. Dinata, R. Rahmaddeni, and L. Hakim, “The Optimization of Credit Scoring Model Using
Efrizoni, “Penerapan Algoritma K-NN Dan SVM Dalam Stacking Ensemble Learning and Oversampling Techniques,”
Klasifikasi Data Gempa Bumi Terhadap Potensi Tsunami Di JOISER (Journal Inf. Syst. Explor. Res., vol. 2, no. 1, pp. 11–
Indonesia,” J. Ilm. Betrik, vol. 15, no. 1, pp. 38–44, 2024. 20, 2014.
[17] B. A. Manurung, A. Gea, A. P. Silalahi, and N. Samosir,
“Penerapan Algoritma Regresi Linear Untuk Memprediksi
Jumlah Wisatawan,” Methosisfo J. Ilm. Sist. Inf., vol. 4, no. 1,
pp. 1–9, 2024.
[18] M. T. Astuti, “Analisis Big Data Menggunakan Teknik
Machine Learning Untuk Prediksi Pola Perilaku Pengguna,”
Duniadata.org, vol. 1, no. 4, pp. 1–15, 2024.
[19] A. S. Nurhikam, R. Syaputra, S. Rohman, S. R. Priyambodo,
and N. Agustina, “Deteksi Berita Palsu Pada Pemilu 2024
Dengan Menggunakan Algoritma Random Forest,”
DoubleClick J. Comput. Inf. Technol., vol. 7, no. 1, pp. 41–50,
2023.
[20] A. Fatunnisa and H. Marcos, “Prediksi Kelulusan Tepat Waktu