Pemodelan Topik Menggunakan n-Gram dan Non-negative Matrix Factorization
Main Article Content
Abstract
Pemodelan topik merupakan teknik pembelajaran mesin yang digunakan untuk melihat topik dalam sekumpulan dokumen teks. Pada penelitian ini pemodelan topik yang digunakan adalah Non-Negative Matrix Factorization (NMF) dengan n-gram. Preprocessing seperti penghilangan tanda baca, angka dan stopword diimplementasikan pada penelitian ini. Proses ini dilakukan dengan terlebih dahulu mengubah kata yang terdapat dalam artikel menjadi kata berhuruf kecil. Penelitian ini juga mengeksplorasi keefektifan penerapan unigram, bigram, dan trigram pada pemodelan topik. Pada penelitian ini juga menggunakan coherence value untuk menentukan jumlah topik terbaik yang dapat dibentuk. Data yang digunakan pada penelitian ini berjumlah 53.920 artikel berita yang bersumber dari portal berita RMOL.id dan BeritaSatu.com untuk periode Juli sampai Desember 2022. Visualisasi t-SNE digunakan untuk melihat distribusi pembentukan topik. Berdasarkan hasil penelitian yang dilakukan diperoleh bahwa jumlah topik yang dapat dibentuk dari RMOL.id untuk unigram adalah 15 topik dengan nilai coherence value 0.812748, bigram adalah 10 topik dengan nilai coherence value 0.835738 dan trigram adalah 7 topik dengan nilai coherence value 0.830572. Sedangkan pada BeritaSatu.com diperoleh 10 topik untuk unigram dengan nilai coherence value 0.799718, bigram 15 topik dengan nilai coherence value 0.788762 dan trigram 15 topik dengan nilai coherence value 0.801935.
Article Details
This work is licensed under a Creative Commons Attribution 4.0 International License.
References
[2] R. Aryanto, M. A. Rosid, and S. Busono, “Penerapan Deep Learning untuk Pengenalan Tulisan Tangan Bahasa Akasara Lota,” J. Inf. dan Teknol., vol. 5, no. 1, pp. 258–264, 2023, doi: 10.37034/jidt.v5i1.313.
[3] E. S. Negara, D. Triadi, and R. Andryani, “Topic Modelling Twitter Data with Latent Dirichlet Allocation Method,” ICECOS 2019 - 3rd Int. Conf. Electr. Eng. Comput. Sci. Proceeding, pp. 386–390, 2019, doi: 10.1109/ICECOS47637.2019.8984523.
[4] E. Laoh, I. Surjandari, and L. R. Febirautami, “Indonesians’ Song Lyrics Topic Modelling Using Latent Dirichlet Allocation,” Proc. - 2018 5th Int. Conf. Inf. Sci. Control Eng. ICISCE 2018, pp. 270–274, 2019, doi: 10.1109/ICISCE.2018.00064.
[5] M. Savira and D. Abdullah, “Prototipe Aplikasi Pengukuran Efesiensi Produksi Air Mineral Dengan Metode DEA di Wilayah Aceh Utara Dan Kota Lhokseumawe,” Ind. Eng. J., vol. 8, no. 2, Oct. 2019.
[6] I. M. Ahmad Niam, B. Irawan, C. Setianingsih, and B. P. Putra, “Hate Speech Detection Using Latent Semantic Analysis (LSA) Method Based on Image,” Proc. - 2018 Int. Conf. Control. Electron. Renew. Energy Commun. ICCEREC 2018, pp. 166–171, 2018, doi: 10.1109/ICCEREC.2018.8712111.
[7] K. Merchant and Y. Pande, “NLP Based Latent Semantic Analysis for Legal Text Summarization,” 2018 Int. Conf. Adv. Comput. Commun. Informatics, ICACCI 2018, pp. 1803–1807, 2018, doi: 10.1109/ICACCI.2018.8554831.
[8] S. Oktarian, S. Defit, and Sumijan, “Clustering Students’ Interest Determination in School Selection Using the K-Means Clustering Algorithm Method,” J. Inf. dan Teknol., vol. 2, pp. 68–75, 2020, doi: 10.37034/jidt.v2i3.65.
[9] Zoya, S. Latif, F. Shafait, and R. Latif, “Analyzing LDA and NMF Topic Models for Urdu Tweets via Automatic Labeling,” IEEE Access, vol. 9, pp. 127531–127547, 2021, doi: 10.1109/ACCESS.2021.3112620.
[10] Z. Soares Lopes, F. Kurniawan, and J. Tistogondo, “Case Study of Public-Private Partnership on Infrastruc-ture Projects of Tibar Bay Port in Timor-Leste,” Int. J. Eng. Sci. Inf. Technol., vol. 1, no. 3, 2021, doi: 10.52088/ijesty.v1i3.79.
[11] W. Febriani, G. W. Nurcahyo, and S. Sumijan, “Diagnosa Penyakit Rubella Menggunakan Metode Fuzzy Tsukamoto,” J. Sistim Inf. dan Teknol., 2019, doi: 10.35134/jsisfotek.v1i3.4.
[12] A. Schofield, M. Magnusson, and D. Mimno, “Pulling out the stops: Rethinking stopword removal for topic models,” 15th Conf. Eur. Chapter Assoc. Comput. Linguist. EACL 2017 - Proc. Conf., vol. 2, pp. 432–436, 2017, doi: 10.18653/v1/e17-2069.
[13] A. W. Pradana and M. Hayaty, “The Effect of Stemming and Removal of Stopwords on the Accuracy of Sentiment Analysis on Indonesian-language Texts,” Kinet. Game Technol. Inf. Syst. Comput. Network, Comput. Electron. Control, vol. 4, no. 3, pp. 375–380, 2019, doi: 10.22219/kinetik.v4i4.912.
[14] M. E. Purbaya, D. P. Rakhmadani, Maliana Puspa Arum, and Luthfi Zian Nasifah, “Implementation of n-gram Methodology to Analyze Sentiment Reviews for Indonesian Chips Purchases in Shopee E-Marketplace,” J. RESTI (Rekayasa Sist. dan Teknol. Informasi), vol. 7, no. 3, pp. 609–617, 2023, doi: 10.29207/resti.v7i3.4726.
[15] M. Hidayat, R. Hidayat, and D. Otik Kurniawati, “Comparison of the Use of Bigrams and Stopword Removal for Classification Using Naive Bayes (Case Study on Sentiment Analysis of By.U Internet Users),” Proc. - 2021 Int. Conf. Softw. Eng. Comput. Syst. 4th Int. Conf. Comput. Sci. Inf. Manag. ICSECS-ICOCSIM 2021, pp. 447–452, 2021, doi: 10.1109/ICSECS52883.2021.00088.
[16] R. P. Fauzie Afidh and Z. A. Hasibuan, “Indonesia’s News Topic Discussion about Covid-19 Outbreak using Latent Dirichlet Allocation,” 2020 5th Int. Conf. Informatics Comput. ICIC 2020, pp. 1–6, 2020, doi: 10.1109/ICIC50835.2020.9288596.
[17] S. Syed and M. Spruit, “Full-Text or abstract? Examining topic coherence scores using latent dirichlet allocation,” Proc. - 2017 Int. Conf. Data Sci. Adv. Anal. DSAA 2017, vol. 2018-Janua, pp. 165–174, 2017, doi: 10.1109/DSAA.2017.61.
[18] M. Röder, A. Both, and A. Hinneburg, “Exploring the space of topic coherence measures,” WSDM 2015 - Proc. 8th ACM Int. Conf. Web Search Data Min., pp. 399–408, 2015, doi: 10.1145/2684822.2685324.
[19] A. Purpura, “Non-negative matrix factorization for topic modeling,” CEUR Workshop Proc., vol. 2167, no. August, p. 102, 2018.
[20] A. Alfajri, D. Richasdy, and M. A. Bijaksana, “Topic Modelling Using Non-Negative Matrix Factorization (NMF) for Telkom University Entry Selection from Instagram Comments,” J. Comput. Syst. Informatics, vol. 3, no. 4, pp. 485–492, 2022, doi: 10.47065/josyc.v3i4.2212.