IMPLEMENTASI REINFORCEMENT LEARNING PADA ROBOT HEXAPOD
Abstract
Robot hexapod merupakan robot berkaki enam yang dirancang untuk dapat melintasi medan
tidak beraturan secara stabil. Namun, kompleksitas kendali akibat 18 derajat kebebasan pada
kakinya menimbulkan tantangan besar dalam desain kontrol gerak. Perancangan ini
mengembangkan sistem kontrol adaptif dengan mengintegrasikan metode kinematika
(inverse kinematic, body kinematic, dan trajectory planning) dengan algoritma
Reinforcement Learning (RL). Tiga algoritma RL—Proximal Policy Optimization (PPO),
Twin Delayed Deep Deterministic Policy Gradient (TD3), dan Soft Actor-Critic (SAC)—
dilatih menggunakan simulator PyBullet. Hasil pelatihan selama 100.000 langkah
menunjukkan bahwa algoritma SAC menghasilkan reward kumulatif terbaik sebesar -1300,
mengungguli TD3 (-2200) dan PPO (-4400), serta mampu menyelesaikan seluruh rintangan
simulasi dengan rata-rata durasi 90 langkah per episode. Model SAC kemudian
diimplementasikan pada robot fisik BumbleBee dan diuji pada tiga jenis medan nyata:
tanjakan, turunan, dan tangga. Robot berhasil menyelesaikan setiap rintangan dengan rata
rata waktu 26 detik, kestabilan orientasi tubuh (pitch dan roll) tetap terjaga dalam rentang
±0,3 radian, serta tidak mengalami kegagalan (success rate 100%). Hasil ini menunjukkan
bahwa integrasi RL dan kinematika mampu meningkatkan efisiensi pergerakan dan
adaptivitas robot hexapod secara signifikan di medan kompleks.