Klasifikasi Relevansi Teks Terhadap Bencana Alam Berdasarkan Data Twitter Menggunakan Semi-Supervised Hist Gradient Boosting

dc.date.accessioned	2023-08-10T08:09:24Z
dc.date.available	2023-08-10T08:09:24Z
dc.date.issued	2023-08-10
dc.identifier.uri	https://library.universitaspertamina.ac.id//xmlui/handle/123456789/9434
dc.description.abstract	Indonesia sebagai negara kepulauan dengan keragaman geografis yang terletak di pertemuan empat lempeng tektonik dihadapkan pada berbagai bencana alam antara lain letusan gunung berapi, gempa bumi, tsunami, banjir dan tanah longsor. Pemerintah dan organisasi kemanusiaan menghadapi sejumlah tantangan dalam memberikan bantuan yang tepat dan efektif, seperti lambatnya pengambilan keputusan dan ketidakmampuan memproses informasi eksternal, sehingga bantuan tidak tepat waktu dan mengabaikan kebutuhan korban bencana. Twitter memberikan akses cepat dan luas ke berbagai informasi dari berbagai sumber, termasuk yang terkena dampak langsung bencana. Twitter dapat digunakan untuk membantu memproses dan menyaring informasi dari luar. Teknik crawling digunakan untuk membantu mengumpulkan tweet. Akan tetapi, ketika pengumpulan data tweet berdasarkan kata kunci yang dibuat, terdapat tweet yang tidak relevan terkait penelitian juga termasuk ke dalam pengumpulan data karena sesuai dengan kata kunci sehingga dibutuhkan tahapan pembersihan data yang optimal untuk menyaring data tersebut. Oleh karena itu, penelitian ini akan mengembangkan model klasifikasi menggunakan Hist Gradient Boosting untuk menyaring data tweet tersebut terkait konteks yang relevan tentang bencana yang bisa digunakan untuk tahapan pembersihan data lanjutan. Sebelum mengembangkan model klasifikasi, penelitian akan melakukan perbandingan terhadap algoritma Word Embedding melalui downstream task analisis sentimen. Algoritma Word Embedding yang digunakan antara lain, Word2Vec, Doc2Vec, FastText, dan Glove untuk mencari Word Embedding mana yang optimal data data yang diberikan. Hasil dari perbandingan Word Embedding, algoritma Word2Vec memperoleh hasil F1 score tertinggi pada analisis sentimen dengan nilai sebesar 82%, kemudian Word2Vec akan digunakan untuk membangun model klasifikasi relevansi. Hist Gradient Boosting yang di optimisasi menggunakan AdaBoost Classifier, Calibrated Classifier, dan Self-Training Classifier mendapatkan nilai F1 score tertinggi dengan nilai sebesar 93.07%. Kata kunci: Relevansi, Word Embedding, Hist Gradient Boosting, Twitter, Semi-Supervised	en_US
dc.publisher	Zhafran Ramadhan	en_US
dc.title	Klasifikasi Relevansi Teks Terhadap Bencana Alam Berdasarkan Data Twitter Menggunakan Semi-Supervised Hist Gradient Boosting	en_US

Files in this item

Name:: v1_105219024_Zhafran Ramadhan_ ...
Size:: 1.730Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

DISSERTATIONS AND THESES (CS)
Collections of Computer Science Students' Dissertations and Theses

Show simple item record