Semi-Supervised Learning: Cara Kerja dan Contohnya
Semi-supervised learning jadi salah satu machine learning yang banyak digunakan saat ini. Apa definisi dan bagaimana cara kerjanya?
Table of Contents
Machine learning jadi salah satu hal penting untuk digunakan dalam menunjang pekerjaan di era digital, khususnya bagi perusahaan yang memerlukan proses pengolahan data dalam jumlah besar. Salah satu jenis machine learning yang bisa Anda gunakan adalah semi-supervised learning. Seperti apa definisinya, cara kerja, dan contohnya? Simak ulasannya berikut ini.
Apa Itu Semi-Supervised Learning?
Semi-supervised learning dapat diartikan sebagai salah satu jenis machine learning dengan melibatkan data dalam jumlah kecil hingga sangat besar, baik data dengan label maupun tanpa label. Machine learning ini dibutuhkan ketika data memiliki label yang kurang sesuai.
Begitu juga data yang tidak memiliki label. Anda akan butuh banyak waktu untuk memberi label pada data tersebut. Dengan adanya semi-supervised learning, proses pengolahan data akan lebih mudah berkat ketersediaan algoritma.
Bagaimana Semi-Supervised Learning Bekerja?
Berbicara mengenai cara kerja semi-supervised learning, ada dua metode yang biasa dilakukan, yakni self-training dan co-training. Berikut penjelasan dari masing-masing metode tersebut:
- Metode Self-Training
Metode self training bisa dilakukan untuk proses klasifikasi regresi. Keunggulannya adalah Anda dapat memanfaatkan data yang sudah terlabel maupun yang tidak. Jika menggunakan metode ini, maka langkah-langkahnya yang perlu dilakukan antara lain:
- Pilih data berukuran kecil dari data yang sudah terlabel, misalnya saja data yang menunjukkan gambar secara spesifik mengenai sebuah objek. Gambar ini bisa Anda jadikan model dasar untuk membantu proses dan metode selanjutnya.
- Kemudian, lanjutkan dengan proses yang disebut dengan pseudo-labeling. Proses ini merupakan pengklasifikasian data yang tidak terlabel ke data yang sudah terlabel.
- Proses terakhir ialah membuat dataset baru, di mana data ini berasal dari data yang sudah terlabel maupun dari pseudo-label. Langkah dilanjutkan dengan improvisasi dataset hingga proses prediksi.
- Metode Co-Training
Metode selanjutnya adalah co-training, yang sebenarnya lebih kompleks jika dibandingkan dengan self-training. Sebagian orang menilai bahwa cara ini cukup efektif untuk pengklasifikasian website. Secara sederhana, langkah yang harus Anda lakukan adalah sebagai berikut:
- Klasifikasikan model secara terpisah untuk tiap tampilan yang menggunakan sejumlah kecil data yang sudah terlabel.
- Kemudian, sejumlah data yang tidak berlabel dan lebih besar bisa ditambahkan ke penerima label semu.
- Proses selanjutnya adalah pseudo-labeling. Di sinilah data yang telah diklasifikan pada tahap pertama dan kedua akan dilihat, mana yang memiliki kesalahan dan tidak. Terakhir adalah mengombinasikan prediksi dari dua klasifikasi data yang sudah update untuk hasil akhirnya.
Contoh Semi-Supervised Learning
Semi-supervised learning masih dibedakan lagi menjadi beberapa jenis. Data ini bisa dalam bentuk suara, konten dalam sebuah website, hingga data yang berbentuk klasifikasi dokumen. Berikut beberapa contohnya:
1. Speech Recognition
Contoh yang pertama adalah speech recognition. Seperti namanya, data ini berbentuk suara dalam sebuah aplikasi maupun website. Memproses data suara memang memerlukan banyak waktu, namun metode semi-supervised learning seperti self-training akan membuat proses klasifikasi data jadi relatif lebih mudah.
Hal itulah yang dilakukan oleh Facebook (kini Meta) dalam menerapkan proses tersebut. Facebook memulai proses dengan memilah data dalam bentuk audio 100 jam. Kemudian, menambahkan data audio 500 jam yang tidak terlabel menggunakan self-training. Alhasil, data yang dimasukkan hanya mengalami tingkat error sekitar 33.9% saja dengan pengembangan yang sangat signifikan.
2. Web Content Classification
Contoh kedua semi-supervised learning adalah dalam bentuk web content classification. Seperti yang Anda tahu, suatu website biasanya menyimpan data besar dan banyak. Proses klasifikasinya tentu memakan waktu dan tenaga.
Variasi dari semi-supervised learning dapat mengatasi hal tersebut dengan mengklasifikasi konten website secara cepat dan efisien untuk meningkatkan pengalaman pengguna. Beberapa mesin pencari, seperti Google, menggunakan SSL untuk memudahkan pencarian berdasarkan bahasa sehari-hari dan relevan. Dengan SSL pula, Google Search akan menemukan konten yang relevan dengan yang dicari pengguna.
3. The Document Classification
Sama halnya dengan data berbentuk audio, klasifikasi dokumen memang cukup banyak dan memakan waktu. Untuk itu, Anda dapat menggunakan Long Short Term Memory (LSTM). Semi-supervised learning satu ini dapat menentukan data teks mana yang akan diproses dengan mudah tanpa memakan banyak waktu, termasuk dalam memproses sejumlah data yang besar sekalipun.
Kesimpulan
Dari ulasan di atas, dapat disimpulkan bahwa keberadaan semi-supervised learning sangatlah penting untuk pemrograman data, terlebih untuk data dalam jumlah sangat besar, tentunya tanpa harus memakan waktu yang lama. Dengan begitu, semi-supervised learning dapat mempercepat pemrosesan data serta meminimalisir kesalahan.
Bagi Anda yang ingin mempelajari data science secara mendalam, termasuk tentang semi-supervised learning, bisa dengan mengikuti kelas di Algoritma Data Science School. Ada banyak program kelas yang bisa Anda pilih sesuai bidang dan kemampuan. Informasi lebih lanjut, Anda bisa klik di sini!
Referensi:
- Altexsof. Semi-Supervised Learning, Explained with Examples. (Diakses pada 10 Agustus 2022)
- Datarobot. Semi-Supervised Learning. (Diakses pada 10 Agustus 2022)