IMPLEMENTASI REINFORCEMENT LEARNING PADA ROBOT HEXAPOD
Abstract
Robot hexapod merupakan robot berkaki enam yang dirancang untuk dapat melintasi medan tidak beraturan secara stabil. Namun, kompleksitas kendali akibat 18 derajat kebebasan pada kakinya menimbulkan tantangan besar dalam desain kontrol gerak. Perancangan ini mengembangkan sistem kontrol adaptif dengan mengintegrasikan metode kinematika (inverse kinematic, body kinematic, dan trajectory planning) dengan algoritma Reinforcement Learning (RL). Tiga algoritma RL—Proximal Policy Optimization (PPO), Twin Delayed Deep Deterministic Policy Gradient (TD3), dan Soft Actor-Critic (SAC)—dilatih menggunakan simulator PyBullet. Hasil pelatihan selama 100.000 langkah menunjukkan bahwa algoritma SAC menghasilkan reward kumulatif terbaik sebesar -1300, mengungguli TD3 (-2200) dan PPO (-4400), serta mampu menyelesaikan seluruh rintangan simulasi dengan rata-rata durasi 90 langkah per episode. Model SAC kemudian diimplementasikan pada robot fisik BumbleBee dan diuji pada tiga jenis medan nyata: tanjakan, turunan, dan tangga. Robot berhasil menyelesaikan setiap rintangan dengan rata-rata waktu 26 detik, kestabilan orientasi tubuh (pitch dan roll) tetap terjaga dalam rentang ±0,3 radian, serta tidak mengalami kegagalan (success rate 100%). Hasil ini menunjukkan bahwa integrasi RL dan kinematika mampu meningkatkan efisiensi pergerakan dan adaptivitas robot hexapod secara signifikan di medan kompleks.