Analisis Performa Chatbot dengan Retrieval Augmented Generation untuk Domain Dokumen Universitas Pertamina
Abstract
Penelitian ini bertujuan untuk mengevaluasi performa chatbot dengan LLM IndoGPT, GPT-4, dan GPT-4o dalam mengaplikasikan Retrieval-Augmented Generation (RAG) dalam konteks menjawab pertanyaan pengguna terkait peraturan Universitas Pertamina berdasarkan dokumen PDF Universitas Pertamina. Penelitian ini menggabungkan teknik RAG dengan metode LangChain untuk membangun chatbot, serta menggunakan framework evaluasi RAGAS untuk mendapatkan metrik evaluasi dari model yang dibandingkan. Data penelitian ini adalah dokumen Universitas Pertamina yang bersifat bebas dan terbuka untuk diakses secara umum. Data test pada proses evaluasi dibuat oleh penulis berdasarkan data dokumen yang ada.
Hasil penelitian menunjukkan bahwa model GPT-4 dan GPT-4o memiliki performa yang jauh lebih baik dibandingkan dengan IndoGPT dalam mengaplikasikan RAG untuk menjawab pertanyaan terkait peraturan Universitas Pertamina berdasarkan dokumen PDF yang tersedia. Berdasarkan evaluasi yang dilakukan, rata-rata metrik evaluasi untuk GPT-4 adalah sebagai berikut: Context Precision 0.902736, Context Recall 0.869253, Faithfulness 0.84861, dan Answer Relevancy 0.814151; dan rata-rata metrik evaluasi untuk GPT-4o sebagai berikut: Context Precision 0.889566, Context Recall 0.859366, Faithfulness 0.880442, dan Answer Relevancy 0.877314. Hasil ini menunjukkan bahwa GPT-4 dan GPT-4o mampu mengambil konteks yang relevan dan menghasilkan jawaban yang sesuai dengan fakta yang ada dalam dokumen, serta menjawab pertanyaan dengan cukup relevan. Sementara itu, IndoGPT menunjukkan hasil yang lebih rendah dengan rata-rata metrik evaluasi sebagai berikut: Context Precision 0.6687, Context Recall 0.571111, Faithfulness 0.07377, dan Answer Relevancy 0.16276. Hal ini menunjukkan bahwa IndoGPT memiliki keterbatasan dalam mengambil konteks yang relevan dari dokumen dan seringkali menghasilkan jawaban yang tidak sesuai atau kurang relevan terhadap pertanyaan yang diajukan.
Implementasi chatbot menggunakan model GPT-4 memperlihatkan kemampuan untuk memahami pertanyaan pengguna dan memberikan jawaban yang tepat berdasarkan konteks dokumen Universitas Pertamina. Teknik RAG yang digunakan efektif dalam mengurangi halusinasi model, seperti yang terlihat dalam studi kasus implementasi chatbot ini.