Klasifikasi Relevansi Teks Terhadap Bencana Alam Berdasarkan Data Twitter Menggunakan Semi-Supervised Hist Gradient Boosting
Date
2023-08-10Metadata
Show full item recordAbstract
Indonesia sebagai negara kepulauan dengan keragaman geografis yang terletak di pertemuan empat lempeng tektonik dihadapkan pada berbagai bencana alam antara lain letusan gunung berapi, gempa bumi, tsunami, banjir dan tanah longsor. Pemerintah dan organisasi kemanusiaan menghadapi sejumlah tantangan dalam memberikan bantuan yang tepat dan efektif, seperti lambatnya pengambilan keputusan dan ketidakmampuan memproses informasi eksternal, sehingga bantuan tidak tepat waktu dan mengabaikan kebutuhan korban bencana.
Twitter memberikan akses cepat dan luas ke berbagai informasi dari berbagai sumber, termasuk yang terkena dampak langsung bencana. Twitter dapat digunakan untuk membantu memproses dan menyaring informasi dari luar. Teknik crawling digunakan untuk membantu mengumpulkan tweet. Akan tetapi, ketika pengumpulan data tweet berdasarkan kata kunci yang dibuat, terdapat tweet yang tidak relevan terkait penelitian juga termasuk ke dalam pengumpulan data karena sesuai dengan kata kunci sehingga dibutuhkan tahapan pembersihan data yang optimal untuk menyaring data tersebut.
Oleh karena itu, penelitian ini akan mengembangkan model klasifikasi menggunakan Hist Gradient Boosting untuk menyaring data tweet tersebut terkait konteks yang relevan tentang bencana yang bisa digunakan untuk tahapan pembersihan data lanjutan. Sebelum mengembangkan model klasifikasi, penelitian akan melakukan perbandingan terhadap algoritma Word Embedding melalui downstream task analisis sentimen. Algoritma Word Embedding yang digunakan antara lain, Word2Vec, Doc2Vec, FastText, dan Glove untuk mencari Word Embedding mana yang optimal data data yang diberikan.
Hasil dari perbandingan Word Embedding, algoritma Word2Vec memperoleh hasil F1 score tertinggi pada analisis sentimen dengan nilai sebesar 82%, kemudian Word2Vec akan digunakan untuk membangun model klasifikasi relevansi. Hist Gradient Boosting yang di optimisasi menggunakan AdaBoost Classifier, Calibrated Classifier, dan Self-Training Classifier mendapatkan nilai F1 score tertinggi dengan nilai sebesar 93.07%.
Kata kunci: Relevansi, Word Embedding, Hist Gradient Boosting, Twitter, Semi-Supervised