EVALUASI KINERJA DEEPSEEK-V3, QWEN3-CODER-FP8, DAN KIMI-K2 DALAM PEMBUATAN KASUS UJI  PERANGKAT LUNAK DENGAN VALIDASI HIBRIDA

Rizky Pratama, Aryanda

View/Open

Laporan Tugas Akhir_Aryanda Rizky Pratama_105219038.pdf (2.373Mb)

Date

2026-01-12

Author

Rizky Pratama, Aryanda

Metadata

Show full item record

Abstract

Pengujian perangkat lunak manual dalam pengembangan sistem informasi menghadapi tantangan skalabilitas dan konsistensi, terutama pada proyek dengan kompleksitas tinggi dan tim terbatas. Ketergantungan pada human tester menyebabkan bias subjektif, coverage tidak merata, dan bottleneck dalam siklus pengembangan. Untuk mengatasi tantangan tersebut, penelitian ini mengusulkan pemanfaatan Large Language Model (LLM) untuk otomasi pengujian perangkat lunak pada Sistem Informasi Masjid Berbasis Web dengan mengembangkan LLM Testing Framework berarsitektur modular. Framework ini mengintegrasikan generasi test case otomatis dan validasi hibrida (Multi-LLM Cross-Validation dan Expert Grading) menggunakan tiga model: DeepSeek-V3, Qwen3-Coder-FP8, dan Kimi-K2. Sebanyak 75 test case dari domain keuangan dievaluasi berdasarkan standar ISO/IEC 29119-3 dan IEEE 829. Hasil menunjukkan kualitas dokumentasi sangat tinggi dengan skor konsensus mendekati penilaian pakar (ISO: 8.38 vs 8.63; IEEE: 8.38 vs 8.52), memvalidasi keandalan pendekatan Multi-LLM Cross-Validation. Namun, ditemukan “Compliance-Execution Gap”: hanya 68% test case berhasil dieksekusi meskipun memenuhi standar dokumentasi, menunjukkan bahwa kualitas dokumentasi belum menjamin keberhasilan eksekusi. Model Kimi-K2 memberikan hasil terbaik dengan tingkat kelulusan 80%, melampaui DeepSeek-V3 (64%) dan Qwen3-Coder-FP8 (60%). Analisis kegagalan mengungkap bahwa 46% kegagalan disebabkan oleh halusinasi LLM, namun 33% kegagalan justru berhasil mengidentifikasi bug aktual pada aplikasi yang sebelumnya tidak terdeteksi (hidden bugs). Penelitian ini membuktikan LLM efektif berperan ganda sebagai generator test case yang patuh standar dan detektor bug yang andal, dengan catatan bahwa implementasi otonom penuh memerlukan mekanisme konteks data yang lebih baik untuk memitigasi halusinasi.

URI

https://library.universitaspertamina.ac.id//xmlui/handle/123456789/15642

Collections

DISSERTATIONS AND THESES (CS)