Penerapan Machine Learning Pada Sistem Informasi Klasifikasi Informasi Penggalian Potensi Pajak
Abstract
The Directorate General of Taxes (DGT) faces challenges in managing and utilizing external data on the internet, such as news from online news portals to explore the potential of Taxpayers' taxes. This study produces an information system that automatically classifies news titles, based on their relevance to tax potential using machine learning algorithms. The algorithm chosen for this study is the CRISP-DM technique, which includes understanding business processes, collecting and exploring news data, text processing, and developing classification models using the BERT and distilBERT models. The results of the model evaluation matrix test show that the distilBERT model obtained an accuracy of 0.8763, precision 0.8776, Recall 0.8763, and F1-Score 0.8768. While the results for the confusion matrix obtained the highest accuracy, recall, precision, and F1-Score values with a value of 0.78. It is concluded that this model is the best, with balanced performance and higher metrics especially for the "Potential" class. The information system built is web-based by implementing the waterfall method, and using Python software.
Keywords: Information System; Machine learning Algorithms; News Classification; Tax Potential Analysis; Directorate General of Taxes.
Abstrak
Direktorat Jenderal Pajak (DJP) menghadapi tantangan dalam pengelolaan, dan pemanfaatan data eksternal yang ada di internet, seperti berita dari portal berita daring untuk penggalian potensi pajak Wajib Pajak. Penelitian ini menghasilkan sistem informasi yang secara otomatis mengklasifikasikan judul berita, berdasarkan relevansinya dengan potensi pajak menggunakan algoritma machine learning. Algoritma yang dipilih untuk penelitian ini adalah teknik CRISP-DM, yang meliputi pemahaman proses bisnis, pengumpulan dan eksplorasi data berita, pemrosesan teks, dan pengembangan model klasifikasi menggunakan model BERT dan distilBERT. Hasil pengujian matriks evaluasi model menunjukan model distilBERT didapat hasil accuracy 0,8763, precision 0,8776, Recall 0,8763, dan F1-Score 0,8768. Sedangkan hasil untuk confusion matrix didapat nilai accuracy, recall, precision, dan F1-Score tertinggi dengan nilai 0.78. Disimpulkan bahwa model ini adalah yang terbaik, dengan performa yang seimbang dan metrik yang lebih tinggi terutama untuk kelas "Potensi". Sistem informasi yang dibangun berbasis web dengan menerapkan metode waterfall, dan menggunakan software Python.
Keywords
References
M. Djufri, “Penerapan Teknik Web Scraping Untuk Penggalian Potensi Pajak (Studi Kasus pada Online Market Place Tokopedia, Shopee dan Bukalapak),” vol. 13, no. 2, pp. 65–75, 2020.
A. Suryadi, W. A. Syb’an, N. Alfa’inna, and E. H. Hermaliani, “Implementasi Web Scraping dan Sentiment Analysis Terhadap Berita Menggunakan Machine Learning,” Swabumi, vol. 11, no. 1, pp. 28–34, 2023, doi: 10.31294/swabumi.v11i1.15145.
S. M. P. Tyas, R. Sarno, and B. S. Rintyarna, “Analisis Perbandingan Metode Klasifikasi Sentimen Berita Saham: Pendekatan Machine Learning, Deep Learning, Transfer Learning, dan Graf,” J. Penelit. IPTEKS, vol. 9, no. 1, pp. 58–64, 2024, doi: 10.32528/penelitianipteks.v9i1.1479.
Alfando and R. Hayami, “Klasifikasi Teks Berita Berbahasa Indonesia Menggunakan Machine Learning Dan Deep Learning: Studi Literatur,” JATI (Jurnal Mhs. Tek. Inform., vol. 7, no. 1, pp. 681–686, 2023.
N. Husin, “Komparasi Algoritma Random Forest, Naïve Bayes, dan Bert Untuk Multi-Class Classification Pada Artikel Cable News Network (CNN),” J. Esensi Infokom J. Esensi Sist. Inf. dan Sist. Komput., vol. 7, no. 1, pp. 75–84, 2023, doi: 10.55886/infokom.v7i1.608.
E. Haerani, F. Syafria, F. Lestari, Novriyanto, and I. Marzuki, “Classification Academic Data Using Machine Learning for Decision Making Process,” J. Appl. Eng. Technol. Sci., vol. 4, no. 2, pp. 955–968, 2023, doi: 10.37385/jaets.v4i2.1983.
S. Sunardi, A. Fadlil, and D. Prayogi, “Face Recognition Using Machine Learning Algorithm Based on Raspberry Pi 4b,” Int. J. Artif. Intell. Res., vol. ISSN, no. 1, pp. 2579–7298, 2022, doi: 10.29099/ijair.v7i1.321.
Generosa Lukhayu Pritalia, “Analisis Komparatif Algoritme Machine Learning dan Penanganan Imbalanced Data pada Klasifikasi Kualitas Air Layak Minum,” KONSTELASI Konvergensi Teknol. dan Sist. Inf., vol. 2, no. 1, pp. 43–55, 2022, doi: 10.24002/konstelasi.v2i1.5630.
F. Baharuddin and A. Tjahyanto, “Peningkatan Performa Klasifikasi Machine Learning Melalui Perbandingan Metode Machine Learning dan Peningkatan Dataset,” J. Sisfokom (Sistem Inf. dan Komputer), vol. 11, no. 1, pp. 25–31, 2022, doi: 10.32736/sisfokom.v11i1.1337.
S. Salma, F. Dewanta, and M. Abdillah, “Klasifikasi Beban Listrik Dengan Machine Learning Menggunakan Metode K-Nearest Neighbor,” Resist. (Elektronika Kendali Telekomun. Tenaga List. Komputer), vol. 5, no. 2, p. 163, 2022, doi: 10.24853/resistor.5.2.163-172.
M. Yanto, Febri Hadi, and S. Arlis, “Optimization of Machine Learning Classification Analysis of Malnutrition Cases in Children,” J. RESTI (Rekayasa Sist. dan Teknol. Informasi), vol. 7, no. 6, pp. 1378–1386, 2023, doi: 10.29207/resti.v7i6.5278.
Ramadhani, Ramadhanu, and Taufik Hidayat, “Metode Machine Learning untuk Klasifikasi Data Gizi Balita dengan Algoritma Naïve Bayes, KNN dan Decision Tree,” J. SIMETRIS, vol. 15, no. 1, pp. 57–68, 2024.
P. R. Sihombing and I. F. Yuliati, “Penerapan Metode Machine Learning dalam Klasifikasi Risiko Kejadian Berat Badan Lahir Rendah di Indonesia,” MATRIK J. Manajemen, Tek. Inform. dan Rekayasa Komput., vol. 20, no. 2, pp. 417–426, 2021, doi: 10.30812/matrik.v20i2.1174.
H. Iswanto, E. Seniwati, Y. Astuti, and D. Maulina, “Comparison of Algorithms on Machine Learning For Spam Email Classification,” IJISTECH (International J. Inf. Syst. Technol., vol. 5, no. 4, p. 446, 2021, doi: 10.30645/ijistech.v5i4.164.
I. D. S. Tarigan, Roni Habibi, and Rd. Nuraini Siti Fatonah, “Evaluasi Algoritma Klasifikasi Machine Learning Kategori Nilai Akhir Tunjangan Kinerja Pegawai,” J. Sist. Cerdas, vol. 6, no. 3, pp. 251–261, 2023, doi: 10.37396/jsc.v6i3.246.
I. M. Karo Karo and H. Hendriyana, “Klasifikasi Penderita Diabetes menggunakan Algoritma Machine Learning dan Z-Score,” J. Teknol. Terpadu, vol. 8, no. 2, pp. 94–99, 2022, doi: 10.54914/jtt.v8i2.564.
E. N. Cahyo, E. Susanti, and R. Y. Ariyana, “Model Machine Learning Untuk Klasifikasi Kesegaran Daging Menggunakan Arsitektur Transfer Learning Xception,” J. Sist. dan Teknol. Inf., vol. 11, no. 2, p. 371, 2023, doi: 10.26418/justin.v11i2.57517.
L. Savitri and R. Nursalim, “Klasifikasi Kualitas Air Minum menggunakan Penerapan Algoritma Machine Learning dengan Pendekatan Supervised Learning,” Diophantine J. Math. Its Appl., vol. 2, no. 01, pp. 30–36, 2023, doi: 10.33369/diophantine.v2i01.28260.
Stacyana Jesika, Suci Ramadhani, and Yohanna Permata Putri, “Implementasi Model Machine Learning dalam Mengklasifikasi Kualitas Air,” J. Ilm. Dan Karya Mhs., vol. 1, no. 6, pp. 382–396, 2023, doi: 10.54066/jikma.v1i6.1162.
R. Haque, A. Quek, C. Y. Ting, H. N. Goh, and M. R. Hasan, “Classification Techniques Using Machine Learning for Graduate Student Employability Predictions,” Int. J. Adv. Sci. Eng. Inf. Technol., vol. 14, no. 1, pp. 45–56, 2024, doi: 10.18517/ijaseit.14.1.19549.
A. R. Pratama, R. R. Aryanto, and A. T. M. Pratama, “Model Klasifikasi Calon Mahasiswa Baru Untuk Sistem Rekomendasi Program Studi Sarjana Berbasis Machine Learning,” J. Teknol. Inf. dan Ilmu Komput., vol. 9, no. 4, pp. 725–734, 2022, doi: 10.25126/jtiik.2022934311.
L. Nilawati and M. Martin, “Penerapan Metode RAD Pada Perancangan Sistem Informasi Permohonan Data Aduan Smartmaps Berbasis Web,” JURIKOM (Jurnal Ris. Komputer), vol. 10, no. 2, p. 648, 2023, doi: 10.30865/jurikom.v10i2.6041.
Y. A. Singgalen, “Penerapan CRISP-DM dalam Klasifikasi Sentimen dan Analisis Perilaku Pembelian Layanan Akomodasi Hotel Berbasis Algoritma Decision Tree (DT),” J. Sist. Komput. dan Inform., vol. 5, no. 2, p. 237, 2023, doi: 10.30865/json.v5i2.7081.
M. A. Hasanah, S. Soim, and A. S. Handayani, “Implementasi CRISP-DM Model Menggunakan Metode Decision Tree dengan Algoritma CART untuk Prediksi Curah Hujan Berpotensi Banjir,” J. Appl. Informatics Comput., vol. 5, no. 2, pp. 103–108, 2021, doi: 10.30871/jaic.v5i2.3200.
N. Ajijah and A. Kurniawan, “Klasifikasi Teks Mining Terhadap Analisa Isu Kegiatan Tenaga Lapangan Menggunakan Algoritma K-Nearest Neighbor (KNN),” J-SAKTI (Jurnal Sains Komput. Inform., vol. 7, no. 1, pp. 254–262, 2023.
Y. A. Singgalen, “Penerapan Metode CRISP-DM dalam Klasifikasi Data Ulasan Pengunjung Destinasi Danau Toba Menggunakan Algoritma Naïve Bayes Classifier (NBC) dan Decision Tree (DT),” J. Media Inform. Budidarma, vol. 7, no. 3, p. 1551, 2023, doi: 10.30865/mib.v7i3.6461.
F. Fajri, B. Tutuko, and S. Sukemi, “Membandingkan Nilai Akurasi BERT dan DistilBERT pada Dataset Twitter,” JUSIFO (Jurnal Sist. Informasi), vol. 8, no. 2, pp. 71–80, 2022, doi: 10.19109/jusifo.v8i2.13885.
A. C. Saputra, A. S. Saragih, and D. Ronaldo, “Perbandingan Nilai Akurasi DistilBERT Dan BERT Pada Dataset Analisis Sentimen Lembaga Kursus,” J. Teknol. Inf., vol. 18, no. 2, pp. 160–171, 2024.
F. Basbeth and D. H. Fudholi, “Klasifikasi Emosi Pada Data Text Bahasa Indonesia Menggunakan Algoritma BERT, RoBERTa, dan Distil-BERT,” J. Media Inform. Budidarma, vol. 8, no. 2, p. 1160, 2024, doi: 10.30865/mib.v8i2.7472.
How To Cite This :
Refbacks
- There are currently no refbacks.