Pemodelan Topik Menggunakan n-Gram dan Non-negative Matrix Factorization
Pemodelan topik merupakan teknik pembelajaran mesin yang digunakan untuk melihat topik dalam sekumpulan dokumen teks. Pada penelitian ini pemodelan topik yang digunakan adalah Non-Negative Matrix Factorization (NMF) dengan n-gram. Preprocessing seperti penghilangan tanda baca, angka dan stopword diimplementasikan pada penelitian ini. Proses ini dilakukan dengan terlebih dahulu mengubah kata yang terdapat dalam artikel menjadi kata berhuruf kecil. Penelitian ini juga mengeksplorasi keefektifan penerapan unigram, bigram, dan trigram pada pemodelan topik. Pada penelitian ini juga menggunakan coherence value untuk menentukan jumlah topik terbaik yang dapat dibentuk. Data yang digunakan pada penelitian ini berjumlah 53.920 artikel berita yang bersumber dari portal berita dan untuk periode Juli sampai Desember 2022. Visualisasi t-SNE digunakan untuk melihat distribusi pembentukan topik. Berdasarkan hasil penelitian yang dilakukan diperoleh bahwa jumlah topik yang dapat dibentuk dari untuk unigram adalah 15 topik dengan nilai coherence value 0.812748, bigram adalah 10 topik dengan nilai coherence value 0.835738 dan trigram adalah 7 topik dengan nilai coherence value 0.830572. Sedangkan pada diperoleh 10 topik untuk unigram dengan nilai coherence value 0.799718, bigram 15 topik dengan nilai coherence value 0.788762 dan trigram 15 topik dengan nilai coherence value 0.801935.
This work is licensed under a Creative Commons Attribution 4.0 International License.
