• Login
    View Item 
    •   DSpace Home
    • FACULTY OF SCIENCE AND COMPUTER
    • COMPUTER SCIENCE (ILMU KOMPUTER)
    • DISSERTATIONS AND THESES (CS)
    • View Item
    •   DSpace Home
    • FACULTY OF SCIENCE AND COMPUTER
    • COMPUTER SCIENCE (ILMU KOMPUTER)
    • DISSERTATIONS AND THESES (CS)
    • View Item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Klasifikasi Relevansi Teks Terhadap Bencana Alam Berdasarkan Data Twitter Menggunakan Semi-Supervised Hist Gradient Boosting

    Thumbnail
    View/Open
    v1_105219024_Zhafran Ramadhan_Laporan Tugas Akhir_ZHAFRAN RAMADHAN-1.pdf (1.730Mb)
    Date
    2023-08-10
    Metadata
    Show full item record
    Abstract
    Indonesia sebagai negara kepulauan dengan keragaman geografis yang terletak di pertemuan empat lempeng tektonik dihadapkan pada berbagai bencana alam antara lain letusan gunung berapi, gempa bumi, tsunami, banjir dan tanah longsor. Pemerintah dan organisasi kemanusiaan menghadapi sejumlah tantangan dalam memberikan bantuan yang tepat dan efektif, seperti lambatnya pengambilan keputusan dan ketidakmampuan memproses informasi eksternal, sehingga bantuan tidak tepat waktu dan mengabaikan kebutuhan korban bencana. Twitter memberikan akses cepat dan luas ke berbagai informasi dari berbagai sumber, termasuk yang terkena dampak langsung bencana. Twitter dapat digunakan untuk membantu memproses dan menyaring informasi dari luar. Teknik crawling digunakan untuk membantu mengumpulkan tweet. Akan tetapi, ketika pengumpulan data tweet berdasarkan kata kunci yang dibuat, terdapat tweet yang tidak relevan terkait penelitian juga termasuk ke dalam pengumpulan data karena sesuai dengan kata kunci sehingga dibutuhkan tahapan pembersihan data yang optimal untuk menyaring data tersebut. Oleh karena itu, penelitian ini akan mengembangkan model klasifikasi menggunakan Hist Gradient Boosting untuk menyaring data tweet tersebut terkait konteks yang relevan tentang bencana yang bisa digunakan untuk tahapan pembersihan data lanjutan. Sebelum mengembangkan model klasifikasi, penelitian akan melakukan perbandingan terhadap algoritma Word Embedding melalui downstream task analisis sentimen. Algoritma Word Embedding yang digunakan antara lain, Word2Vec, Doc2Vec, FastText, dan Glove untuk mencari Word Embedding mana yang optimal data data yang diberikan. Hasil dari perbandingan Word Embedding, algoritma Word2Vec memperoleh hasil F1 score tertinggi pada analisis sentimen dengan nilai sebesar 82%, kemudian Word2Vec akan digunakan untuk membangun model klasifikasi relevansi. Hist Gradient Boosting yang di optimisasi menggunakan AdaBoost Classifier, Calibrated Classifier, dan Self-Training Classifier mendapatkan nilai F1 score tertinggi dengan nilai sebesar 93.07%. Kata kunci: Relevansi, Word Embedding, Hist Gradient Boosting, Twitter, Semi-Supervised
    URI
    https://library.universitaspertamina.ac.id//xmlui/handle/123456789/9434
    Collections
    • DISSERTATIONS AND THESES (CS)

    DSpace software copyright © 2002-2015  DuraSpace
    Contact Us | Send Feedback
    Theme by 
    @mire NV
     

     

    Browse

    All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

    My Account

    LoginRegister

    DSpace software copyright © 2002-2015  DuraSpace
    Contact Us | Send Feedback
    Theme by 
    @mire NV