Analisis Perbandingan Algoritma Decision Tree, K-NN, Naive Bayes, dan XGBoost Memprediksi Penyakit Diabetes Menggunakan Data Behavioral Risk Factor Surveillance System
DOI:
https://doi.org/10.56869/klik.v7i1.777Keywords:
Diabetes, Klasifikasi, Machine Learning, Imbalanced Data, Naive Bayes, XGBoostAbstract
Penyakit diabetes melitus merupakan masalah kesehatan global yang memerlukan deteksi dini secara akurat. Penelitian ini bertujuan untuk membandingkan kinerja empat algoritma Machine Learning, Decision Tree, K-Nearest Neighbor (K-NN), Naive Bayes, dan XGBoost dalam memprediksi risiko diabetes berdasarkan indikator gaya hidup. Data yang digunakan bersumber dari dataset sekunder Behavioral Risk Factor Surveillance System (BRFSS) tahun 2015 yang memiliki karakteristik kelas tidak seimbang (imbalanced data). Evaluasi model dilakukan menggunakan pembagian data uji sebesar 20%, dengan metrik pengujian yang mencakup Akurasi, Precision, Recall, F1-Score, serta analisis Confusion Matrix. Hasil penelitian menunjukkan bahwa algoritma XGBoost mencapai tingkat akurasi keseluruhan tertinggi sebesar 86,71%. Namun, akibat ketidakseimbangan dataset, model tersebut cenderung gagal mendeteksi kelas minoritas sehingga menghasilkan nilai Recall yang sangat rendah (17,80%). Sebaliknya, algoritma Naive Bayes dengan tingkat akurasi 77,20% justru berhasil mencatatkan kinerja diagnostik terbaik, dibuktikan dengan nilai Recall tertinggi (56,55%) dan F1-Score (40,62%). Kesimpulan dari penelitian ini menegaskan bahwa untuk tujuan skrining medis, di mana kesalahan False Negative sangat berisiko fatal, Naive Bayes merupakan model klasifikasi yang paling fungsional dan dapat diandalkan dibandingkan model yang sekadar mengandalkan akurasi tinggi.
References
[1] M. K. Hasan, M. A. Alam, D. Das, E. Hossain, dan M. Hasan, "Diabetes Prediction Using Ensembling of Different Machine Learning Classifiers," IEEE Access, vol. 8, pp. 76516-76531, 2020.
[2] A. Rahman dan S. Utama, "Comparative Analysis of K-Nearest Neighbor and Decision Tree Algorithms for Diabetes Mellitus Prediction," Journal of Computer Science and Information Technology, vol. 9, no. 2, pp. 112-118, 2022.
[3] T. Chen dan C. Guestrin, "XGBoost: A Scalable Tree Boosting System," dalam Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016, pp. 785-794.
[4] P. Singh, S. Singh, dan G. S. Pandi-Jain, "Effective Machine Learning Approaches for Early Detection of Diabetes Risk Factors," International Journal of Medical Informatics, vol. 143, p. 104273, 2023.
[5] R. Wibowo, "Handling Imbalanced Datasets in Healthcare: A Review of Machine Learning Algorithms and Resampling Techniques," Indonesian Journal of Artificial Intelligence, vol. 4, no. 1, pp. 45-55, 2024.
[6] U. M. Fayyad, G. Piatetsky-Shapiro, dan P. Smyth, "From Data Mining to Knowledge Discovery in Databases," AI Magazine, vol. 17, no. 3, pp. 37-54, 1996.
[7] Centers for Disease Control and Prevention (CDC), "Behavioral Risk Factor Surveillance System Survey Data," Atlanta, Georgia: U.S. Department of Health and Human Services, 2015.
[8] F. S. S. Nagalay, "Analisis Komparatif Kinerja Algoritma Naive Bayes dengan dan tanpa Seleksi Fitur Chi-Square untuk Deteksi Spam Email," Coding: Journal of Computing and Software Engineering, vol. 12, no. 3, pp. 110-121, Des. 2025.








