Sabtu, 25 Desember 2021

Reinforcment Learning & Q-Learning

      Hai, temen-temen semua. Kali ini pembahasannya tentang Reinforcment Learning dan Q-Learning. Apa sih Reinforcment Learning itu? Apa sih Q-Learning itu? Simak penjelasannya dibawah ini!


A. Pengertian Reinforcment Learning

         Metode pembelajaran pada A.I mengenai apa yang mesti dilakukan (mengimplementasikan aksi kedalam situasi) pada sebuah masalah/problem untuk mendapatkan hasil/reward yang maksimal.


B. Elemen pada Reinforcment Learning 


  1. Policy adalah cara suatu agent untuk berperilaku pada sebuah situasi. Dengan kata lain elemen ini adalah pemetaan aksi yang akan diambil oleh sang agent, lalu diimplementasikan pada suatu situasi.

2.  Reward Function didefinisikan sebagai goal/tujuan yang ingin dicapai sebuah agent. Dalam proses ini agent akan memaksimalkan reward dari aksi yang sudah dilakukan. Reward Function akan menjadi acuan agent mengenai mana yang baik dan yang buruk.

3.  Value Function yaitu dimana agent akan mempertimbangkan hasil yang terbaik untuk jangka panjang. Atau dalam kata lain, nilai sebuah keadaan (state) adalah jumlah total reward yang bisa dikumpulkan agen hingga masa berikutnya, dimulai dari keadaan (state) tersebut. Reward didapatkan langsung dari lingkungan (environment), sedangkan Value harus diestimasi secara menerus dari hasil pengamatan si agent.

4.      Environment Model dimana agent akan memprediksi keadaan dan reward selanjuntnya. Elemen ini digunakan untuk perencanaan atau dalam kata lain, agent akan memutuskan aksi dengan mempertimbangkan kemungkinan situasi di masa yang akan datang

     Sebelumnya, Q-learning dan SARSA (State-Action-Reward-State-Action) adalah dua algoritma Reinforcment Learning bebas model yang umum digunakan. Mereka berbeda dalam hal strategi eksplorasi mereka sementara strategi eksploitasi mereka serupa.

C. Pengertian Q-Learning

          Q-learning adalah metode di luar kebijakan di mana agen mempelajari nilai (Value) berdasarkan tindakan a* yang diturunkan dari kebijakan (Policy) lain. Sedangkan SARSA adalah metode sesuai kebijakan di mana agen mempelajari nilai berdasarkan tindakan saat ini yang diperoleh dari kebijakan saat ini.

D. Langkah-langkah dalam Metode Q-Learning

    - Langkah 1: Inisialisasi

          Inisialisasi semua nilai Q dalam tabel Q ke 0, agen tidak memiliki pengetahuan tentang lingkungan tempatnya berada.

    - Langkah 2: Jelajahi ruang

          Masalah eksplorasi vs eksploitasi, agen terus menjelajahi lingkungan dengan mengeksekusi tindakan di wilayahnya.

     - Langkah 3: Amati Imbalannya (reward)

          Saat menjelajah, agen akan mengamati hadiah apa yang didapatnya dari mengeksekusi tindakan tertentu (at) di status (st) untuk pergi ke status berikutnya (st + 1).

     - Langkah 4: Perbarui fungsi nilai   

          Setelah mengamati hadiah, agen kemudian memperbarui fungsi nilai untuk keadaan tertentu dan pasangan tindakan menggunakan rumus berikut, ini mengembalikan tabel-Q yang diperbarui

- (alpha) adalah tingkat pembelajaran (0<alpha<1) - Sama seperti dalam pengaturan pembelajaran yang diawasi, adalah sejauh mana nilai-Q kami diperbarui di setiap iterasi.

- (gamma) adalah faktor diskontinu (0<= gamma<=1) - menentukan seberapa penting kita ingin memberikan imbalan di masa mendatang. Nilai tinggi untuk faktor diskon (mendekati 1) menangkap penghargaan efektif jangka panjang, sedangkan, faktor diskon 0 membuat agen kami hanya mempertimbangkan imbalan langsung, sehingga membuatnya serakah.


Nah, itu dia pembahasan mengenai Reinforcment Learning dan Q-Learning kali ini. Mohon maaf atas apabila ada kesalahan atau kekeliruan, untuk itu kalian boleh komen dibawah apa untuk memperbaiki kekeliruannya atau mungkin ada masukan juga, silahkan tulis di kolom komentar dibawah. Sekian untuk pembahasan blog kali ini, jangan lupa pantengin terus pembahasan di blog-blog selanjutnya. Terima kasih dan Bye :)




Sumber :

Dosen Machinelearning ITPLN Ibu Efy Yosrita ,S.Si, M.Kom



 










Tidak ada komentar:

Posting Komentar

Teknik Evaluasi pada Model Machine Learning

Hai, temen-temen semua. Kali ini pembahasannya tentang Teknik Evaluasi pada Model Machine Learning. Gimana sih Teknik Evaluasi itu? Simak pe...