Hai, temen-temen semua. Kali ini pembahasannya tentang Reinforcment Learning dan Q-Learning. Apa sih Reinforcment Learning itu? Apa sih Q-Learning itu? Simak penjelasannya dibawah ini!
A. Pengertian Reinforcment Learning
Metode
pembelajaran pada A.I mengenai apa yang mesti dilakukan (mengimplementasikan
aksi kedalam situasi) pada sebuah masalah/problem untuk mendapatkan
hasil/reward yang maksimal.
- Policy adalah cara suatu agent untuk berperilaku pada sebuah situasi. Dengan kata lain elemen ini adalah pemetaan aksi yang akan diambil oleh sang agent, lalu diimplementasikan pada suatu situasi.
2. Reward Function didefinisikan sebagai goal/tujuan yang ingin dicapai sebuah agent. Dalam proses ini agent akan memaksimalkan reward dari aksi yang sudah dilakukan. Reward Function akan menjadi acuan agent mengenai mana yang baik dan yang buruk.
3. Value Function yaitu dimana agent akan mempertimbangkan hasil yang terbaik untuk jangka panjang. Atau dalam kata lain, nilai sebuah keadaan (state) adalah jumlah total reward yang bisa dikumpulkan agen hingga masa berikutnya, dimulai dari keadaan (state) tersebut. Reward didapatkan langsung dari lingkungan (environment), sedangkan Value harus diestimasi secara menerus dari hasil pengamatan si agent.
4. Environment Model dimana agent akan memprediksi keadaan dan reward selanjuntnya. Elemen ini digunakan untuk perencanaan atau dalam kata lain, agent akan memutuskan aksi dengan mempertimbangkan kemungkinan situasi di masa yang akan datang
Sebelumnya, Q-learning dan SARSA (State-Action-Reward-State-Action) adalah dua algoritma Reinforcment Learning bebas model yang umum digunakan. Mereka berbeda dalam hal strategi eksplorasi mereka sementara strategi eksploitasi mereka serupa.
C. Pengertian Q-Learning
Q-learning adalah metode di luar kebijakan di mana agen mempelajari nilai (Value) berdasarkan tindakan a* yang diturunkan dari kebijakan (Policy) lain. Sedangkan SARSA adalah metode sesuai kebijakan di mana agen mempelajari nilai berdasarkan tindakan saat ini yang diperoleh dari kebijakan saat ini.
D. Langkah-langkah dalam Metode Q-Learning
- Langkah 1: Inisialisasi
Inisialisasi semua nilai Q dalam tabel Q ke 0, agen tidak memiliki pengetahuan tentang lingkungan tempatnya berada.
- Langkah
2: Jelajahi ruang
Masalah eksplorasi
vs eksploitasi, agen terus menjelajahi lingkungan dengan mengeksekusi
tindakan di wilayahnya.
- Langkah
3: Amati Imbalannya (reward)
Saat
menjelajah, agen akan mengamati hadiah apa yang didapatnya dari mengeksekusi
tindakan tertentu (at) di status (st) untuk pergi ke status berikutnya (st +
1).
- Langkah
4: Perbarui fungsi nilai
Setelah
mengamati hadiah, agen kemudian memperbarui fungsi nilai untuk keadaan tertentu
dan pasangan tindakan menggunakan rumus berikut, ini mengembalikan tabel-Q yang
diperbarui
- (gamma)
adalah faktor diskontinu (0<= gamma<=1) - menentukan seberapa penting
kita ingin memberikan imbalan di masa mendatang. Nilai tinggi untuk faktor
diskon (mendekati 1) menangkap penghargaan efektif jangka panjang, sedangkan,
faktor diskon 0 membuat agen kami hanya mempertimbangkan imbalan langsung,
sehingga membuatnya serakah.
Nah, itu dia pembahasan mengenai Reinforcment Learning dan Q-Learning kali ini. Mohon maaf atas apabila ada kesalahan atau kekeliruan, untuk itu kalian boleh komen dibawah apa untuk memperbaiki kekeliruannya atau mungkin ada masukan juga, silahkan tulis di kolom komentar dibawah. Sekian untuk pembahasan blog kali ini, jangan lupa pantengin terus pembahasan di blog-blog selanjutnya. Terima kasih dan Bye :)
Sumber :
Dosen Machinelearning ITPLN Ibu Efy Yosrita ,S.Si, M.Kom
Tidak ada komentar:
Posting Komentar