EVALUASI KINERJA DEEPSEEK-V3, QWEN3-CODER-FP8, DAN KIMI-K2 DALAM PEMBUATAN KASUS UJI  PERANGKAT LUNAK DENGAN VALIDASI HIBRIDA

Rizky Pratama, Aryanda

dc.contributor.author	Rizky Pratama, Aryanda
dc.date.accessioned	2026-02-16T09:16:41Z
dc.date.available	2026-02-16T09:16:41Z
dc.date.issued	2026-01-12
dc.identifier.citation	IEEE/JCST	en_US
dc.identifier.uri	https://library.universitaspertamina.ac.id//xmlui/handle/123456789/15642
dc.description	Tugas Akhir ini membahas pengembangan LLM Testing Framework untuk otomatisasi pengujian perangkat lunak pada Sistem Informasi Masjid. Menggunakan pendekatan Multi-LLM Cross-Validation dengan model DeepSeek-V3, Qwen3, dan Kimi-K2, penelitian ini mengevaluasi 75 test case berdasarkan standar ISO dan IEEE. Hasil menunjukkan LLM efektif menemukan hidden bugs dan menghasilkan dokumentasi berkualitas tinggi, meskipun tantangan halusinasi dan Compliance-Execution Gap masih ditemukan.	en_US
dc.description.abstract	Pengujian perangkat lunak manual dalam pengembangan sistem informasi menghadapi tantangan skalabilitas dan konsistensi, terutama pada proyek dengan kompleksitas tinggi dan tim terbatas. Ketergantungan pada human tester menyebabkan bias subjektif, coverage tidak merata, dan bottleneck dalam siklus pengembangan. Untuk mengatasi tantangan tersebut, penelitian ini mengusulkan pemanfaatan Large Language Model (LLM) untuk otomasi pengujian perangkat lunak pada Sistem Informasi Masjid Berbasis Web dengan mengembangkan LLM Testing Framework berarsitektur modular. Framework ini mengintegrasikan generasi test case otomatis dan validasi hibrida (Multi-LLM Cross-Validation dan Expert Grading) menggunakan tiga model: DeepSeek-V3, Qwen3-Coder-FP8, dan Kimi-K2. Sebanyak 75 test case dari domain keuangan dievaluasi berdasarkan standar ISO/IEC 29119-3 dan IEEE 829. Hasil menunjukkan kualitas dokumentasi sangat tinggi dengan skor konsensus mendekati penilaian pakar (ISO: 8.38 vs 8.63; IEEE: 8.38 vs 8.52), memvalidasi keandalan pendekatan Multi-LLM Cross-Validation. Namun, ditemukan “Compliance-Execution Gap”: hanya 68% test case berhasil dieksekusi meskipun memenuhi standar dokumentasi, menunjukkan bahwa kualitas dokumentasi belum menjamin keberhasilan eksekusi. Model Kimi-K2 memberikan hasil terbaik dengan tingkat kelulusan 80%, melampaui DeepSeek-V3 (64%) dan Qwen3-Coder-FP8 (60%). Analisis kegagalan mengungkap bahwa 46% kegagalan disebabkan oleh halusinasi LLM, namun 33% kegagalan justru berhasil mengidentifikasi bug aktual pada aplikasi yang sebelumnya tidak terdeteksi (hidden bugs). Penelitian ini membuktikan LLM efektif berperan ganda sebagai generator test case yang patuh standar dan detektor bug yang andal, dengan catatan bahwa implementasi otonom penuh memerlukan mekanisme konteks data yang lebih baik untuk memitigasi halusinasi.	en_US
dc.language.iso	other	en_US
dc.subject	Large Language Model	en_US
dc.subject	Automated Testing	en_US
dc.subject	Jest	en_US
dc.subject	Software as a Service	en_US
dc.subject	ISO 29119-3	en_US
dc.subject	IEEE 829	en_US
dc.subject	Quality Assurance	en_US
dc.title	EVALUASI KINERJA DEEPSEEK-V3, QWEN3-CODER-FP8, DAN KIMI-K2 DALAM PEMBUATAN KASUS UJI PERANGKAT LUNAK DENGAN VALIDASI HIBRIDA	en_US
dc.type	Thesis	en_US

Files in this item

Name:: Laporan Tugas Akhir_Aryanda Rizky ...
Size:: 2.373Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

DISSERTATIONS AND THESES (CS)
Collections of Computer Science Students' Dissertations and Theses

Show simple item record