5 Tantangan Reinforcement Learning dan Cara Mengatasinya

Tantangan reinforcement learning sebagai mesin pencarian paling populer dalam data science. Apa saja tantangannya?

Bunga Dea Laraswati
Bunga Dea Laraswati

Table of Contents

Saat ini, reinforcement learning dalam data science sudah banyak digunakan di berbagai sektor industri. Di antaranya industri otomotif, mesin terjemahan, sistem rekomendasi, algoritma gaming, dan data proses. Hal tersebut dikarenakan reinforcement learning memiliki peranan penting dalam perkembangan artificial intelligence dan data science bisnis. seiring dengan itu tantangan reinforcement learning pun semakin banyak.

Reinforcement learning adalah salah satu bagian dari machine learning atau mesin pembelajaran yang digunakan pada data science. Dalam praktiknya, reinforcement learning bekerja tanpa jawaban pasti. Untuk menghindari kesalahan, reinforcement learning belajar berdasarkan pengalaman-pengalaman di masa lalu untuk memaksimalkan hasil yang diperoleh.

Tantangan Reinforcement Learning

Meskipun reinforcement learning makin populer dan telah banyak digunakan, dalam penerapannya masih memiliki banyak tantangan. Lalu, apa saja tantangan reinforcement learning yang ada saat ini? Simak informasi berikut.

1. Keterbatasan sampel

Tantangan reinforcement learning yang pertama adalah sangat terbatasnya sampel untuk mencapai pembelajaran yang efisien. Hasilnya, sistem reinforcement learning membutuhkan waktu yang cukup lama untuk menjadi efisien. Sebagai contoh, DeepMind’s AlphaGoZero memainkan lima juta game Go sebelum mengalahkan juara dunia di dalamnya.

Sebuah makalah penelitian dari Gen Li Princeton et al. menggambarkan ini sebagai, “Mengingat bahwa ruang keadaan dan ruang aksi bisa menjadi sangat besar yang belum pernah terjadi sebelumnya”. Sering kali Anda tidak mungkin untuk meminta ukuran sampel yang melebihi batas dasar yang telah ditetapkan oleh dimensi sekitar dalam pengaturan tabular. Akibatnya, pencarian efisiensi sampel tidak dapat dicapai secara umum tanpa mengeksploitasi struktur kompleksitas rendah yang tepat dan mendasari masalah yang menarik.

Sebagai solusi, makalah IEEE memperkenalkan “safe set algorithm”. Algoritma akan memantau, memodifikasi kontrol, dan mengevaluasi reinforcement learning dalam lingkungan dinamis berkerumun dan menantang reinforcement learning yang ada.

2. Krisis reproduksi

Berdasarkan penelitian Facebook dalam upaya mereka untuk memproduksi DeepMind’s AlphaZero, dilansir dari analyticsindiamag.com, dikatakan bahwa reinforcement learning memiliki hasil pendekatan yang sangat sulit ketika dikombinasikan dengan tidak tersedianya kode dan model.

Neural networks atau jaringan saraf adalah kotak hitam buram yang cara kerjanya menjadi misteri bahkan bagi pembuatnya. Selain itu, mereka juga meningkat dari segi ukuran dan kompleksitas dengan didukung oleh kumpulan data besar, daya komputasi, dan jam pelatihan. Faktor-faktor inilah yang membuat reinforcement learning sulit untuk ditiru.

Makalah Leiden Institute of Advanced Computer Science menyarankan untuk menerapkan konsep “jejak minimal”. Idenya mendukung “re-simulation of action sequences in deterministic reinforcement learning environments”, yang memungkinkan pengulas untuk memverifikasi, menggunakan kembali, dan memeriksa hasil eksperimen secara manual tanpa memerlukan cluster komputasi yang besar.

Solusi lain yang bisa dilakukan adalah dengan melakukan percobaan pelacakan dan pencatatan, mengirimkan kode, dan membuat repository metadata.

3. Kesenjangan realitas

Secara umum, reinforcement learning belajar dari eksplorasi lingkungan buatan. Agen reinforcement learning dapat gagal di lingkungan manufaktur, tetapi mereka tidak memiliki kesempatan untuk gagal dan belajar dalam skenario kehidupan nyata.

Biasanya, di lingkungan nyata, agen tidak memiliki ruang untuk mengamati lingkungan dengan cukup baik agar bisa menggunakan data pelatihan sebelumnya untuk memutuskan strategi kemenangan. Hal ini juga berlaku pada kesenjangan realitas, yaitu ketika agen tidak dapat mengukur perbedaan antara simulasi pembelajaran dan dunia nyata.

Teknik umum yang digunakan oleh peneliti termasuk belajar dengan meniru perilaku yang diinginkan, belajar melalui simulasi yang akurat, desain dan demonstrasi algoritma yang lebih baik, dan yang paling populer digunakan, melatih agen tentang mekanisme reward and punishment. Karena agen diberi penghargaan untuk tindakan yang benar dan dihukum untuk tindakan yang salah, maka ia dilatih untuk memaksimalkan tindakan yang benar.

4. Minim Rewards

Agen tidak cukup mengamati situasi untuk memperhatikan sinyal hadiah dan memaksimalkan tindakan tertentu. Hal ini disebabkan karena hadiah jarang didistribusikan di lingkungan dan juga dapat terjadi ketika lingkungan tidak memberikan sinyal penghargaan tepat waktu. Misalnya, dalam banyak situasi, agen menerima bendera hijau hanya jika cukup dekat dengan target.

Metode berbasis rasa ingin tahu atau curiosity-driven banyak digunakan untuk mendorong agen menjelajahi lingkungan dan belajar menangani tugas di dalamnya. Para peneliti dalam makalah “Curiosity-driven exploration by self-supervised prediction” mengusulkan Modul Keingintahuan Intrinsik (ICM) untuk mendukung agen dalam mengeksplorasi dan mendorongnya memilih tindakan berdasarkan pengurangan kesalahan.

Pendekatan lain yang bisa digunakan adalah agen disajikan dengan berbagai tugas dalam urutan kompleksitas. Hal ini seperti meniru cara belajar manusia.

5. Reinforcement Offline

Tantangan reinforcement learning berikutnya adalah reinforcement learning offline bekerja pada serangkaian pengalaman yang dicatat dengan interaksi minimal dalam lingkungan. Metode ini menghilangkan kebutuhan untuk pelatihan berulang agen AI dalam membuat skalanya.

Namun, hal tersebut justru menimbulkan tantangan. Model yang dilatih dengan dataset tertentu, akan mengambil tindakan berbeda dari agen pengumpulan data dan salah satunya tidak dapat menentukan hadiah yang diberikan untuk model pembelajaran. Untungnya, para peneliti menemukan bahwa reinforcement learning online bekerja dengan baik dalam pengaturan offline dan dengan kumpulan data yang cukup beragam.

Kesimpulan

Kepopuleran reinforcement learning sebagai mesin pembelajaran atau machine learning tidak serta membuatnya menjadi mesin pembelajaran yang sempurna. Masih terdapat berbagai tantangan seperti keterbatasan sampel, krisis reproduksi, kesenjangan realitas, minim reward, dan reinforcement offline. Meskipun demikian, banyak peneliti yang telah menemukan solusi dari tantangan tersebut.

Tertarik untuk lebih lanjut mempelajari machine learning pada data science? Yuk, ikuti kelas data science dari Algoritma Data Science School. Anda akan mempelajari lebih banyak tentang machine learning yang sering digunakan di berbagai perusahaan!

Referensi:

  • knowledgenile - How is Machine Learning Used in Business Forecasting (diakses pada 17 Juni 2022)
  • builtin - 7 Challenges in Reinforcement Learning — and How Researchers Are Responding (diakses pada 22 Juni 2022)
  • Towards Data Science  - Reinforcement Learning : Its necessity and challenges (diakses pada 22 Juni 2022)

Get Free Learning Resources

* indicates required
Insights

Bunga Dea Laraswati

Sr. Writer Algoritma Data Science School