Show simple item record

dc.contributor.authorRizky Pratama, Aryanda
dc.date.accessioned2026-02-16T09:16:41Z
dc.date.available2026-02-16T09:16:41Z
dc.date.issued2026-01-12
dc.identifier.citationIEEE/JCSTen_US
dc.identifier.urihttps://library.universitaspertamina.ac.id//xmlui/handle/123456789/15642
dc.descriptionTugas Akhir ini membahas pengembangan LLM Testing Framework untuk otomatisasi pengujian perangkat lunak pada Sistem Informasi Masjid. Menggunakan pendekatan Multi-LLM Cross-Validation dengan model DeepSeek-V3, Qwen3, dan Kimi-K2, penelitian ini mengevaluasi 75 test case berdasarkan standar ISO dan IEEE. Hasil menunjukkan LLM efektif menemukan hidden bugs dan menghasilkan dokumentasi berkualitas tinggi, meskipun tantangan halusinasi dan Compliance-Execution Gap masih ditemukan.en_US
dc.description.abstractPengujian perangkat lunak manual dalam pengembangan sistem informasi menghadapi tantangan skalabilitas dan konsistensi, terutama pada proyek dengan kompleksitas tinggi dan tim terbatas. Ketergantungan pada human tester menyebabkan bias subjektif, coverage tidak merata, dan bottleneck dalam siklus pengembangan. Untuk mengatasi tantangan tersebut, penelitian ini mengusulkan pemanfaatan Large Language Model (LLM) untuk otomasi pengujian perangkat lunak pada Sistem Informasi Masjid Berbasis Web dengan mengembangkan LLM Testing Framework berarsitektur modular. Framework ini mengintegrasikan generasi test case otomatis dan validasi hibrida (Multi-LLM Cross-Validation dan Expert Grading) menggunakan tiga model: DeepSeek-V3, Qwen3-Coder-FP8, dan Kimi-K2. Sebanyak 75 test case dari domain keuangan dievaluasi berdasarkan standar ISO/IEC 29119-3 dan IEEE 829. Hasil menunjukkan kualitas dokumentasi sangat tinggi dengan skor konsensus mendekati penilaian pakar (ISO: 8.38 vs 8.63; IEEE: 8.38 vs 8.52), memvalidasi keandalan pendekatan Multi-LLM Cross-Validation. Namun, ditemukan “Compliance-Execution Gap”: hanya 68% test case berhasil dieksekusi meskipun memenuhi standar dokumentasi, menunjukkan bahwa kualitas dokumentasi belum menjamin keberhasilan eksekusi. Model Kimi-K2 memberikan hasil terbaik dengan tingkat kelulusan 80%, melampaui DeepSeek-V3 (64%) dan Qwen3-Coder-FP8 (60%). Analisis kegagalan mengungkap bahwa 46% kegagalan disebabkan oleh halusinasi LLM, namun 33% kegagalan justru berhasil mengidentifikasi bug aktual pada aplikasi yang sebelumnya tidak terdeteksi (hidden bugs). Penelitian ini membuktikan LLM efektif berperan ganda sebagai generator test case yang patuh standar dan detektor bug yang andal, dengan catatan bahwa implementasi otonom penuh memerlukan mekanisme konteks data yang lebih baik untuk memitigasi halusinasi.en_US
dc.language.isootheren_US
dc.subjectLarge Language Modelen_US
dc.subjectAutomated Testingen_US
dc.subjectJesten_US
dc.subjectSoftware as a Serviceen_US
dc.subjectISO 29119-3en_US
dc.subjectIEEE 829en_US
dc.subjectQuality Assuranceen_US
dc.titleEVALUASI KINERJA DEEPSEEK-V3, QWEN3-CODER-FP8, DAN KIMI-K2 DALAM PEMBUATAN KASUS UJI PERANGKAT LUNAK DENGAN VALIDASI HIBRIDAen_US
dc.typeThesisen_US


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record