• Login
    View Item 
    •   DSpace Home
    • FACULTY OF SCIENCE AND COMPUTER
    • COMPUTER SCIENCE (ILMU KOMPUTER)
    • DISSERTATIONS AND THESES (CS)
    • View Item
    •   DSpace Home
    • FACULTY OF SCIENCE AND COMPUTER
    • COMPUTER SCIENCE (ILMU KOMPUTER)
    • DISSERTATIONS AND THESES (CS)
    • View Item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    EVALUASI KINERJA DEEPSEEK-V3, QWEN3-CODER-FP8, DAN KIMI-K2 DALAM PEMBUATAN KASUS UJI PERANGKAT LUNAK DENGAN VALIDASI HIBRIDA

    Thumbnail
    View/Open
    Laporan Tugas Akhir_Aryanda Rizky Pratama_105219038.pdf (2.373Mb)
    Date
    2026-01-12
    Author
    Rizky Pratama, Aryanda
    Metadata
    Show full item record
    Abstract
    Pengujian perangkat lunak manual dalam pengembangan sistem informasi menghadapi tantangan skalabilitas dan konsistensi, terutama pada proyek dengan kompleksitas tinggi dan tim terbatas. Ketergantungan pada human tester menyebabkan bias subjektif, coverage tidak merata, dan bottleneck dalam siklus pengembangan. Untuk mengatasi tantangan tersebut, penelitian ini mengusulkan pemanfaatan Large Language Model (LLM) untuk otomasi pengujian perangkat lunak pada Sistem Informasi Masjid Berbasis Web dengan mengembangkan LLM Testing Framework berarsitektur modular. Framework ini mengintegrasikan generasi test case otomatis dan validasi hibrida (Multi-LLM Cross-Validation dan Expert Grading) menggunakan tiga model: DeepSeek-V3, Qwen3-Coder-FP8, dan Kimi-K2. Sebanyak 75 test case dari domain keuangan dievaluasi berdasarkan standar ISO/IEC 29119-3 dan IEEE 829. Hasil menunjukkan kualitas dokumentasi sangat tinggi dengan skor konsensus mendekati penilaian pakar (ISO: 8.38 vs 8.63; IEEE: 8.38 vs 8.52), memvalidasi keandalan pendekatan Multi-LLM Cross-Validation. Namun, ditemukan “Compliance-Execution Gap”: hanya 68% test case berhasil dieksekusi meskipun memenuhi standar dokumentasi, menunjukkan bahwa kualitas dokumentasi belum menjamin keberhasilan eksekusi. Model Kimi-K2 memberikan hasil terbaik dengan tingkat kelulusan 80%, melampaui DeepSeek-V3 (64%) dan Qwen3-Coder-FP8 (60%). Analisis kegagalan mengungkap bahwa 46% kegagalan disebabkan oleh halusinasi LLM, namun 33% kegagalan justru berhasil mengidentifikasi bug aktual pada aplikasi yang sebelumnya tidak terdeteksi (hidden bugs). Penelitian ini membuktikan LLM efektif berperan ganda sebagai generator test case yang patuh standar dan detektor bug yang andal, dengan catatan bahwa implementasi otonom penuh memerlukan mekanisme konteks data yang lebih baik untuk memitigasi halusinasi.
    URI
    https://library.universitaspertamina.ac.id//xmlui/handle/123456789/15642
    Collections
    • DISSERTATIONS AND THESES (CS)

    DSpace software copyright © 2002-2015  DuraSpace
    Contact Us | Send Feedback
    Theme by 
    @mire NV
     

     

    Browse

    All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

    My Account

    LoginRegister

    DSpace software copyright © 2002-2015  DuraSpace
    Contact Us | Send Feedback
    Theme by 
    @mire NV