Bagaimana Cara Mendeteksi Underfitting pada Model Machine Learning?

Mengenal apa itu underfitting pada model machine learning. Bagaimana cara untuk mencegahnya terjadi?

Bunga Dea Laraswati
Bunga Dea Laraswati

Table of Contents

Underfitting merupakan salah satu problem dalam pengembangan machine learning. Mendeteksi masalah ini sedini mungkin akan membantu machine learning bekerja dengan optimal dan memberikan hasil sesuai ekspektasi. Hanya saja, terkadang problem ini sulit untuk dikenali. Sebenarnya, bagaimana cara mendeteksi underfitting pada model machine learning?

Apa Itu Underfitting Data dalam Machine Learning?

Underfitting adalah suatu situasi dalam data science ketika model data tidak dapat menangkap hubungan antara variabel input dan output secara akurat. Situasi ini bisa menyebabkan tingkat kesalahan yang tinggi pada set pelatihan dan membuat beberapa data menjadi tersembunyi. Bagaimana situasi ini terjadi?

Underfitting terjadi saat model statistika yang diterapkan pada machine learning terlalu sederhana. Model yang terlalu sederhana ini misalnya model yang memerlukan waktu pelatihan lebih panjang, model dengan terlalu banyak fitur input, atau model yang terlalu sedikit regularisasi.

Selain underfitting, ada juga masalah overfitting. Keduanya sama-sama menyebabkan model menjadi kurang “ideal”. Hasilnya, model tidak dapat menetapkan tren dominan dalam data, yang kemudian dapat mengakibatkan kesalahan pelatihan dan kinerja model yang buruk.

Beberapa indikator underfitting adalah bias yang terlampau tinggi dan/atau varians yang terlalu rendah. Kedua indikator tersebut bisa dikenali dengan mudah saat Anda melakukan pelatihan dataset. Ini membuat kasus underfitting lebih cepat dikenali dibanding kasus overfitting.

Cara Mendeteksi Model Ketika Underfitting

Seperti yang telah disebutkan pada poin sebelumnya, model machine learning dikatakan underfitting jika memiliki bias yang terlalu tinggi, namun varians yang tersedia terlalu rendah. Ketika model underfitting dijalankan, Anda bisa tetap mendapatkan prediksi yang akurat. Hanya saja, prediksi tersebut sering kali tidak aktif saat model baru dijalankan.

Tidak ada metode deteksi lain yang akurat selain melakukan pengujian model. Idealnya, suatu model machine learning memiliki akurasi, baik pada training data maupun test data. Namun, pada model yang underfitting, tingkat akurasi training data dan test data sangatlah rendah.

Bagaimana Menghindari Underfitting?

Dari penjelasan pada poin sebelumnya, diketahui bahwa underfitting bisa dideteksi lebih awal dengan melakukan set pelatihan. Melakukan set pelatihan lebih awal akan membantu Anda membangun hubungan yang lebih baik antara variabel input dan output.

Dengan mempertahankan kompleksitas model yang memadai, masalah underfitting dapat dihindari dan Anda bisa mendapatkan hasil yang lebih akurat. Berikut adalah beberapa cara yang bisa dilakukan untuk meminimalisir terjadinya underfitting data:

1. Kurangi regularisasi

Umumnya, regularisasi dilakukan untuk mengurangi varians pada model dengan menerapkan penalti pada parameter input. Dengan catatan, koefisiennya harus lebih besar. Ada beberapa metode untuk menerapkan pendekatan tersebut, misalnya dengan metode regularisasi L1, regularisasi Lasso, atau bisa juga dengan metode dropout. Meski berbeda, metode tersebut mampu mengurangi munculnya noise dan outlier pada model machine learning.

Sayangnya, hal ini bisa menyebabkan fitur data pada model menjadi terlalu serupa. Pada akhirnya, model akan kesulitan mengidentifikasi mana tren yang lebih dominan dan inilah yang kemudian menyebabkan underfitting. Untuk itu, ada baiknya Anda mereduksi regularisasi pada fitur data. Dengan berkurangnya regularisasi, maka fitur data akan memiliki kompleksitas dan variasi yang membantu model dalam mengidentifikasi tren.

2. Tingkatkan durasi pelatihan

Cara lain untuk menghindari terjadinya underfitting data adalah dengan meningkatkan durasi pelatihan. Selain regularisasi, durasi pelatihan yang terlalu singkat juga bisa memicu terjadinya underfitting. Solusinya, Anda bisa memperpanjang durasi pelatihan data. Namun, perlu diingat, pastikan untuk mengetahui durasi pelatihan yang ideal. Sebab, durasi pelatihan yang terlalu panjang atau overtraining justru bisa memicu terjadinya overfitting.

3. Lakukan seleksi fitur

Fitur diterapkan pada model machine learning untuk menentukan hasil yang akan diberikan. Meski begitu, Anda tidak bisa sembarangan memilih fitur. Apabila model tidak memiliki fitur prediktif yang cukup, maka fitur khusus atau fitur yang lebih penting harus dimunculkan. Contohnya dalam sistem komputasi neural network, Anda bisa menambahkan lebih banyak neuron yang tersembunyi atau pada sistem random forest, tambahkan lebih banyak pohon lagi.

Meski simpel, prosedur ini mampu menambahkan kompleksitas pada model. Dengan begitu, model dapat mengidentifikasi tren dengan mudah dan memberikan hasil pelatihan yang lebih baik.

Kesimpulan

Underfitting merupakan salah satu problem dalam pengembangan model machine learning. Hal ini terjadi karena bias pada model terlalu tinggi dan/atau variansnya terlalu rendah. Untuk menghindarinya, Anda bisa melakukan beberapa hal seperti seleksi fitur, mereduksi regularisasi, hingga meningkatkan durasi pelatihan data.

Penting bagi seorang data scientist untuk mempelajari masalah-masalah seperti underfitting ini. Dengan mempelajari problem, Anda bisa mengetahui cara untuk mencegahnya terjadi di masa mendatang. Tertarik untuk mempelajari data science lebih jauh? Algoritma Data Science School menawarkan kelas dan pelatihan untuk membantu Anda menyelami bidang data science. Tersedia juga kelas untuk perusahaan sesuai kebutuhan. Informasi selengkapnya bisa Anda simak di sini!

Referensi:

  • IBM – Underfitting (diakses 29 Juli 2022)

Get Free Learning Resources

* indicates required
Insights

Bunga Dea Laraswati

Sr. Writer Algoritma Data Science School