dc.description.abstract | Indonesia sebagai negara kepulauan dengan keragaman geografis yang terletak di pertemuan empat
lempeng tektonik dihadapkan pada berbagai bencana alam antara lain letusan gunung berapi, gempa
bumi, tsunami, banjir dan tanah longsor. Pemerintah dan organisasi kemanusiaan menghadapi
sejumlah tantangan dalam memberikan bantuan yang tepat dan efektif, seperti lambatnya
pengambilan keputusan dan ketidakmampuan memproses informasi eksternal, sehingga bantuan
tidak tepat waktu dan mengabaikan kebutuhan korban bencana.
Twitter memberikan akses cepat dan luas ke berbagai informasi dari berbagai sumber, termasuk
yang terkena dampak langsung bencana. Twitter dapat digunakan untuk membantu memproses dan
menyaring informasi dari luar. Teknik crawling digunakan untuk membantu mengumpulkan tweet.
Akan tetapi, ketika pengumpulan data tweet berdasarkan kata kunci yang dibuat, terdapat tweet
yang tidak relevan terkait penelitian juga termasuk ke dalam pengumpulan data karena sesuai
dengan kata kunci sehingga dibutuhkan tahapan pembersihan data yang optimal untuk menyaring
data tersebut.
Oleh karena itu, penelitian ini akan mengembangkan model klasifikasi menggunakan Hist Gradient
Boosting untuk menyaring data tweet tersebut terkait konteks yang relevan tentang bencana yang
bisa digunakan untuk tahapan pembersihan data lanjutan. Sebelum mengembangkan model
klasifikasi, penelitian akan melakukan perbandingan terhadap algoritma Word Embedding melalui
downstream task analisis sentimen. Algoritma Word Embedding yang digunakan antara lain,
Word2Vec, Doc2Vec, FastText, dan Glove untuk mencari Word Embedding mana yang optimal data
data yang diberikan.
Hasil dari perbandingan Word Embedding, algoritma Word2Vec memperoleh hasil F1 score tertinggi
pada analisis sentimen dengan nilai sebesar 82%, kemudian Word2Vec akan digunakan untuk
membangun model klasifikasi relevansi. Hist Gradient Boosting yang di optimisasi menggunakan
AdaBoost Classifier, Calibrated Classifier, dan Self-Training Classifier mendapatkan nilai F1 score
tertinggi dengan nilai sebesar 93.07%. | en_US |