EVALUASI KINERJA DEEPSEEK-V3, QWEN3-CODER-FP8, DAN KIMI-K2 DALAM PEMBUATAN KASUS UJI PERANGKAT LUNAK DENGAN VALIDASI HIBRIDA
Abstract
Pengujian perangkat lunak manual dalam pengembangan sistem informasi menghadapi tantangan skalabilitas dan konsistensi, terutama pada proyek dengan kompleksitas tinggi dan tim terbatas. Ketergantungan pada human tester menyebabkan bias subjektif, coverage tidak merata, dan bottleneck dalam siklus pengembangan. Untuk mengatasi tantangan tersebut, penelitian ini mengusulkan pemanfaatan Large Language Model (LLM) untuk otomasi pengujian perangkat lunak pada Sistem Informasi Masjid Berbasis Web dengan mengembangkan LLM Testing Framework berarsitektur modular. Framework ini mengintegrasikan generasi test case otomatis dan validasi hibrida (Multi-LLM Cross-Validation dan Expert Grading) menggunakan tiga model: DeepSeek-V3, Qwen3-Coder-FP8, dan Kimi-K2. Sebanyak 75 test case dari domain keuangan dievaluasi berdasarkan standar ISO/IEC 29119-3 dan IEEE 829. Hasil menunjukkan kualitas dokumentasi sangat tinggi dengan skor konsensus mendekati penilaian pakar (ISO: 8.38 vs 8.63; IEEE: 8.38 vs 8.52), memvalidasi keandalan pendekatan Multi-LLM Cross-Validation. Namun, ditemukan “Compliance-Execution Gap”: hanya 68% test case berhasil dieksekusi meskipun memenuhi standar dokumentasi, menunjukkan bahwa kualitas dokumentasi belum menjamin keberhasilan eksekusi. Model Kimi-K2 memberikan hasil terbaik dengan tingkat kelulusan 80%, melampaui DeepSeek-V3 (64%) dan Qwen3-Coder-FP8 (60%). Analisis kegagalan mengungkap bahwa 46% kegagalan disebabkan oleh halusinasi LLM, namun 33% kegagalan justru berhasil mengidentifikasi bug aktual pada aplikasi yang sebelumnya tidak terdeteksi (hidden bugs). Penelitian ini membuktikan LLM efektif berperan ganda sebagai generator test case yang patuh standar dan detektor bug yang andal, dengan catatan bahwa implementasi otonom penuh memerlukan mekanisme konteks data yang lebih baik untuk memitigasi halusinasi.
