Evaluasi Komparatif Metode Feature Selection pada XGBoost Regression untuk Prediksi Panjang Siklus Menstruasi

Authors

  • Shofiatuz Zulfia Universitas Nahdlatul Ulama Sunan Giri
  • Mula Agung Barata Universitas Nahdlatul Ulama Sunan Giri
  • Ifnu Wisma Dwi Prastya Universitas Nahdlatul Ulama Sunan Giri

DOI:

https://doi.org/10.30865/json.v7i3.9526

Keywords:

Feature selection, Forward selection, Kesehatan reproduksi, Prediksi siklus menstruasi, XGBoost regression

Abstract

Panjang siklus menstruasi menjadi indikator utama dalam kesehatan reproduksi perempuan, namun perbedaan karakteristik individu dan ketidakteraturan siklus menyulitkan proses prediksi secara manual. Kondisi tersebut mendorong perlunya pendekatan berbasis data yang mampu menghasilkan prediksi panjang siklus menstruasi secara akurat dan konsisten. Penelitian ini bertujuan untuk melakukan evaluasi komparatif berbagai metode feature selection pada algoritma XGBoost Regression dalam memprediksi panjang siklus menstruasi. Dataset penelitian diperoleh dari Kaggle dan terdiri atas 162 data yang mencakup atribut fisiologis dan demografis perempuan. Tahapan penelitian meliputi preprocessing data, normalisasi menggunakan StandardScaler, pembagian data latih dan data uji dengan rasio 80:20, serta validasi 10-fold cross-validation untuk menguji stabilitas model. Empat skenario pemodelan dievaluasi, yaitu tanpa feature selection sebagai baseline, forward selection, backward elimination, dan optimized selection berbasis ensemble feature selection dari lima metode seleksi fitur. Hasil evaluasi menunjukkan bahwa metode forward selection memberikan performa terbaik dengan nilai R² sebesar 0,9005, RMSE 1,45 hari, MAE 0,57 hari, dan MAPE 1,73% (kesalahan relatif rata-rata < 2% terhadap panjang siklus 25-30 hari), serta meningkatkan nilai R² sebesar 0,1696 poin (dari 0,7309 menjadi 0,9005), setara dengan peningkatan relatif 23,2% terhadap nilai baseline. Temuan ini menunjukkan bahwa pemilihan metode feature selection yang tepat berpengaruh terhadap peningkatan performa prediktif dan stabilitas model XGBoost Regression dalam prediksi panjang siklus menstruasi.

References

J. Le Yu et al., “Tracking of menstrual cycles and prediction of the fertile window via measurements of basal body temperature and heart rate as well as machine-learning algorithms,” Reprod. Biol. Endocrinol., vol. 20, no. 1, pp. 1–12, 2022, doi: 10.1186/s12958-022-00993-4.

W. H. Organization, Sexual and Reproductive Health and Rights. WHO Press, 2021.

F. Ismawati and dr Adhy Purnawan MKes, “Hubungan Aktivitas Fisik Dan Tingkat Stres Dengan Siklus Menstruasi Pada Siswi Smk Informatika Ciputat Tahun 2022,” Fram. Heal. J., vol. 1, no. 2, pp. 173–180, 2022.

G. Kilungeja, K. Graham, X. Liu, and M. Nasseri, “Machine learning-based menstrual phase identi fi cation using wearable device data Check for updates,” npj Women’s Heal., pp. 1–10, 2025, doi: 10.1038/s44294-025-00078-8.

S. Aggarwal, Machine Learning for Healthcare Applications. Springer, 2022.

R. C. B. Rego, “Predictive Modeling of Menstrual Cycle Length: A Time Series Forecasting Approach,” pp. 1–12, 2023, [Online]. Available: http://arxiv.org/abs/2308.07927

D. Reskianto and M. A. Barata, “Forecasting Metode Single Exponential Smoothing Dalam Meramalkan Penjualan Barang,” pp. 435–444, 2023.

M. Khairunisa, D. Made, S. Amanda, I. G. Ngurah, and L. Wijayakusuma, “Perbandingan Metode Machine Learning untuk Analisis dan Prediksi Siklus Menstruasi,” vol. 08, pp. 111–115, 2024.

Tanmay Thakur, Saurabh Kadam, Nikita Patil, and Chinmayee Achrekar, “Machine Learning in Period, Fertility and Ovulation Tracking Application,” Int. J. Adv. Res. Sci. Commun. Technol., vol. 3, no. 4, pp. 200–203, 2023, doi: 10.48175/ijarsct-9286.

O. J. C. et al., “Improving Menstrual Cycle Prediction Accuracy using Advanced Machine Learning Model Methods,” J. IoT Mach. Learn., vol. 1, no. 2, pp. 1–7, 2023, doi: 10.48001/joitml.2023.121-7.

M. B. Prayogi, F. Apriani, U. N. Huda, and I. Pendidikan, “PREDIKSI ANGKA HARAPAN HIDUP MENGGUNAKAN RANDOM,” vol. 2, no. 1, pp. 112–121, 2025.

M. Khairunisa, D. Made, S. Amanda, I. G. Ngurah, and L. Wijayakusuma, “Comparison of Machine Learning Methods for Menstrual Cycle Analysis and Prediction,” vol. 9, no. 2, pp. 348–353, 2025.

M. F. Asnawi, H. H. Bisono, and M. A. Megantara, “Aplikasi Prediksi Banjir Menggunakan Algoritma XGBoost Berbasis Website,” vol. 7, no. 2, pp. 379–389, 2024.

M. R. Andryan, M. Fajri, T. Informatika, U. S. Karawang, T. Timur, and J. Barat, “Komparasi kinerja algoritma xgboost dan algoritma support vector machine (svm) untuk diagnosa penyakit kanker payudara,” vol. 6, no. 1, pp. 1–5, 2022.

A. A. Nababan, M. Jannah, M. Aulina, and D. Andrian, “PREDIKSI KUALITAS UDARA MENGGUNAKAN XGBOOST DENGAN SYNTHETIC MINORITY OVERSAMPLING TECHNIQUE ( SMOTE ) BERDASARKAN INDEKS STANDAR PENCEMARAN UDARA ( ISPU ),” vol. 7, no. 1, pp. 214–219, 2023.

A. Rahmat, D. W. Utomo, U. D. Nuswantoro, and U. D. Nuswantoro, “DIABETES DETECTION USING STACKING TECHNIQUE : A COMBINATION OF XGBOOST , GRADIENT BOOSTING , AND META MODEL,” vol. 10, no. 2, pp. 912–921, 2025.

G. Abdurrahman, H. Oktavianto, and M. Sintawati, “Optimasi Algoritma XGBoost Classifier Menggunakan Hyperparameter Gridesearch dan Random Search Pada Klasifikasi Penyakit Diabetes,” vol. 7, no. 3, pp. 193–198, 2022.

F. Kamalov, S. Elnaffar, A. Cherukuri, and A. Jonnalagadda, “Forward Feature Selection: Empirical Analysis,” J. Intell. Syst. Internet Things, vol. 11, no. 01, pp. 44–54, 2024.

F. Dardiri, “Comparison Of Naïve Bayes and Decision Trees in Determining the Best Manager of Nurul Jadid Islamic Boarding School Based on Forward Selection,” vol. 8, no. 2, pp. 689–698, 2024.

J. Melvin and A. Soraya, “Analisis Perbandingan Algoritma XGBoost dan Algoritma Random Forest Ensemble Learning pada Klasifikasi Keputusan Kredit,” vol. 2, no. 2, 2023.

K. Chotchantarakun, “Optimizing Sequential Forward Selection on Classification Using Genetic Algorithm Related work Feature selection process,” vol. 47, pp. 81–90, 2023.

D. Datasets, F. I. Silfana, and M. A. Barata, “Using K-NN Algorithm for Evaluating Feature Selection on High,” vol. 17, no. 2, 2024.

S. D. Amalia, M. A. Barata, and P. E. Yuwita, “Optimization of Random Forest Algorithm with Backward Elimination Method in Classification of Academic Stress Levels,” vol. 9, no. 3, 2025.

U. D. Nuswntoro, “C4 . 5 Forward Selection Based Algorithm for Class Level Classification of Nurul Jadid Islamic Boarding School Students,” vol. 8, no. 2, pp. 699–712, 2024.

S. Santhi and S. S. Nidhyananthan, “OPTIMIZED FEATURE SELECTION FOR PCOS DISEASE,” no. 9, pp. 1430–1439, 2023, doi: 10.7546/CRABS.2023.09.14.

R. A. Saputra et al., “Detecting Alzheimer’s Disease by the Decision Tree Methods Based on Particle Swarm Optimization,” J. Phys. Conf. Ser., vol. 1641, no. 1, pp. 61–67, 2020, doi: 10.1088/1742-6596/1641/1/012025.

M. Rai, “Menstrual Health and PCOD Risk Detection Dataset,” 2025.

S. G. Fashoto, E. Mbunge, and G. Ogunleye, “IMPLEMENTATION OF MACHINE LEARNING FOR PREDICTING MAIZE CROP YIELDS USING MULTIPLE,” vol. 6, no. 1, pp. 679–697, 2021.

I. R. Dina, M. A. Barata, and P. E. Yuwita, “Penerapan Data Mining pada Algoritma Multiple Linear Regression dalam Peramalan Harga Emas,” vol. 11, no. 1, pp. 1–7, 2025.

C. Series, “Adding feature selection on Naïve Bayes to increase accuracy on classification heart attack disease”, doi: 10.1088/1742-6596/1511/1/012001.

Downloads

Published

2026-03-31

How to Cite

Shofiatuz Zulfia, Mula Agung Barata, & Ifnu Wisma Dwi Prastya. (2026). Evaluasi Komparatif Metode Feature Selection pada XGBoost Regression untuk Prediksi Panjang Siklus Menstruasi . Jurnal Sistem Komputer Dan Informatika (JSON), 7(3), 976–988. https://doi.org/10.30865/json.v7i3.9526

Issue

Section

Articles