Menyingkap Pentingnya Training Data dalam Machine Learning

Machine Learning, sebuah konsep mesin yang dapat belajar banyak hal secara mandiri! Tahukah kamu Training Data, bagian penting dalam Machine Learning?

Bunga Dea Laraswati

26 Mei 2023

Sebuah pernyataan populer dalam data, “garbage in, garbage out” yang bermakna output atau hasil akan sangat ditentukan oleh kualitas input. Untuk menghasilkan model Machine Learning yang baik sangat membutuhkan kualitas data yang baik pula. Tanpa data pelatihan (Training Data) yang berkualitas tinggi, algoritma Machine Learning yang paling efisien pun akan gagal bekerja dengan baik karena mempelajari sebuah hal yang buruk (data yang tidak baik).

Kebutuhan akan data yang berkualitas, akurat, lengkap, dan relevan dimulai sejak awal dalam proses pelatihan. Data pelatihan yang baik dapat memudahkan algoritma mengambil fitur dan menemukan hubungan yang perlu diprediksi di kemudian hari. Dengan demikian, ketersediaan data pelatihan yang tepat akan berdampak pada akurasi dan kesuksesan model Machine Learning.

Apa itu Training Data?

Sebelum kita memahami terkait Training Data, penting bagi kita memahami bahwa dalam menghasilkan sebuah Machine Learning sangat membutuhkan data. Data tersebut nantinya akan dibagi umumnya menjadi tiga bagian, Training Data (untuk pelatihan model), Validation Data (untuk memastikan model sudah menangkap pola data pelatihan), Testing Data (untuk menguji model agar siap menghadapi data baru), 3 jenis ini dibahas sekilas karena di bawah akan dijelaskan lebih lanjut. Training Data atau dikenal sebagai dataset pelatihan, set pembelajaran dan set pelatihan, merupakan bagian dalam kumpulan dataset yang disediakan untuk menjadi bahan pembelajaran model agar model dapat menggeneralisasi (menemukan pola) data sehingga nantinya dapat digunakan untuk memprediksi data baru. Sederhananya, data pelatihan akan membentuk model Machine Learning.

Training data dapat diklasifikasikan menjadi dua kategori, yaitu data berlabel (labeled data) dan data tidak berlabel (unlabeled data). Data berlabel adalah sekelompok data yang ditandai dengan satu atau lebih label yang bermakna (memiliki keterangan). Misalnya gambar buah-buahan dapat diberi keterangan apel, pisang atau anggur. Data tidak berlabel adalah data yang tidak memiliki tanda atau keterangan. Seperti contoh sebelumnya, maka data tidak berlabel berarti gambar buah-buahan tersebut tidak diberi keterangan apel, pisang atau anggur.

Bagaimana Training Data digunakan dalam Machine Learning?

Kita dapat memahami penggunaan Training data dalam Machine Learning melalui pemahaman perbedaan tradisional programming dan Machine Learning. Dalam tradisional programming kita berusaha menyiapkan data dan sebuah program (aturan yang dibuat spesifik) agar memberikan output yang diinginkan. Namun berbeda dengan Machine Learning yang mana kita menyiapkan data dan output alias berbagai contoh soal dan jawaban kemudian model akan belajar untuk menghasilkan sebuah aturan (program) yang nantinya digunakan untuk memprediksi data baru.

Secara formal, Pembelajaran Mesin adalah jenis Kecerdasan Buatan yang memberi komputer kemampuan untuk belajar dari contoh atau pengalaman tanpa diprogram secara eksplisit. Namun, bukan berarti kita tidak perlu membuat apa-apa ya, melainkan proses belajar Machine Learning (menemukan aturan) dapat dilakukan secara otomatis sehingga kita tidak usah merancang aturan untuk menghasilkan output berdasarkan input.

Sama seperti manusia yang mengandalkan pengalaman masa lalu untuk membuat keputusan yang lebih baik, model ML melihat kumpulan data pelatihan mereka (pengamatan sebelumnya) untuk membuat prediksi. Data disini berperan penting dalam menghasilkan sebuah aturan (program) alias akan sangat menentukan bagaimana model memprediksi sebuah data baru nantinya.

Singkatnya Training Data adalah buku teks yang membantu data scientist memberikan gambaran kepada algoritma Machine Learning tentang apa yang diharapkan (output). Meskipun kumpulan data pelatihan tidak berisi semua contoh yang mungkin sehingga mesti diperbarui secara berkala, ini akan membuat algoritma mampu membuat prediksi.

Training Data vs Testing Data vs Validation Data

Uji digunakan dalam pelatihan model, atau dengan kata lain, itu adalah data yang digunakan untuk menghasilkan model. Sebaliknya, Testing Data digunakan untuk mengevaluasi kinerja atau akurasi model. Ini adalah sampel data yang digunakan untuk membuat evaluasi yang tidak bias dari model akhir yang sesuai dengan data pelatihan. Lalu ada Validation Data, merupakan kumpulan data yang sering digunakan untuk evaluasi selama fase pelatihan. Validation Data dapat menjadi awal dalam melihat apakah model sudah dapat menangkap pola Training Dataset.

Banyak yang menggunakan istilah " Testing Data" dan " Validation Data" secara bergantian. Perbedaan utama antara keduanya adalah Validation Data digunakan untuk memvalidasi model selama pelatihan, sedangkan Testing Data digunakan untuk menguji model setelah pelatihan selesai. Validation Data memberi model rasa pertama dari data yang tidak terlihat. Namun, tidak semua Data Scientist melakukan pemeriksaan awal menggunakan Validation Data. Mereka mungkin melewati bagian ini dan langsung menuju Testing Data.

Apa yang Membuat Training Data Bagus?

Data yang bagus atau berkualitas tinggi dapat menghasilkan model Machine Learning yang akurat. Sedangkan, Data berkualitas rendah dapat secara signifikan memengaruhi keakuratan model, yang dapat menyebabkan kerugian finansial yang parah. Berikut ini adalah empat ciri utama dari data pelatihan berkualitas !

1. Relevan

Data harus relevan dengan tugas yang dihadapi. Misalnya, jika Anda ingin melatih algoritma visi komputer untuk kendaraan otonom, Anda mungkin tidak memerlukan gambar buah dan sayuran. Sebagai gantinya, Anda memerlukan kumpulan data pelatihan yang berisi foto jalan, trotoar, pejalan kaki, dan kendaraan.

2. Perwakilan

Data pelatihan AI harus memiliki poin data atau fitur yang dibuat oleh aplikasi untuk memprediksi atau mengklasifikasikan. Tentu saja, kumpulan data tidak pernah bisa mutlak, tetapi setidaknya harus memiliki atribut yang ingin dikenali oleh aplikasi AI.

Misalnya, jika model dimaksudkan untuk mengenali wajah dalam gambar, model tersebut harus dilengkapi dengan beragam data yang berisi wajah orang dari berbagai etnis. Ini akan mengurangi masalah bias AI, dan model tidak akan berprasangka terhadap ras, jenis kelamin, atau kelompok usia tertentu.

3. Seragam

Semua data harus memiliki atribut yang sama dan harus berasal dari sumber yang sama. Misalkan proyek Machine Learning Anda bertujuan untuk memprediksi tingkat churn (berhenti berlangganan) dengan melihat informasi pelanggan. Untuk itu, Anda akan memiliki database informasi pelanggan yang mencakup nama pelanggan, alamat, jumlah pesanan, frekuensi pemesanan, dan informasi relevan lainnya. Satu bagian data tidak boleh memiliki informasi tambahan, seperti usia atau jenis kelamin sedangkan yang lainnya tidak. Hal ini akan membuat data pelatihan tidak lengkap dan membuat model menjadi tidak akurat.

4. Luas

Training Data harus berupa kumpulan data besar yang mewakili sebagian besar kasus penggunaan model. Training Data harus memiliki cukup contoh yang memungkinkan model untuk belajar dengan tepat. Hal ini berarti harus berisi sampel data dunia nyata karena akan membantu melatih model untuk memahami apa yang diharapkan.

Apa yang Memengaruhi Kualitas Training Data?

Kualitas Training data umumnya dipengaruhi seberapa besar bias yang mungkin terjadi dalam proses pengumpulan data. Performa atau keakuratan data akan bergantung pada seberapa komprehensif, relevan, dan representatif. Berikut tiga faktor yang memengaruhi kualitas data pelatihan:

1. Orang

Orang dalam hal ini berarti pihak yang mengumpulkan dan melatih model akan memiliki pengaruh yang signifikan terhadap akurasi atau kinerjanya. Jika bias, secara alami akan memengaruhi cara mereka menandai data dan pada akhirnya cara model Machine Learning berfungsi.

2. Proses

Proses pelabelan data harus memiliki pemeriksaan kontrol kualitas yang ketat alias cara di dalam menghasilkan data. Hal ini secara signifikan akan meningkatkan kualitas data pelatihan.

3. Alat

Alat yang tidak kompatibel atau ketinggalan zaman dapat membuat kualitas data menurun. Menggunakan perangkat lunak pelabelan data yang tepat dapat mengurangi biaya dan waktu yang terkait dengan proses tersebut.

Dimana Mendapatkan Training Data ?

Ada beberapa cara untuk mendapatkan data pelatihan bergantung pada skala proyek Machine Learning, anggaran, dan waktu yang tersedia. Berikut ini adalah tiga sumber utama untuk mengumpulkan data :

1. Sumber Terbuka (Open Source)

Sebagian besar developer Machine Learning pemula dan bisnis kecil yang tidak mampu membayar pengumpul atau pelabelan data sehingga mereka sangat bergantung pada data pelatihan sumber terbuka. Hal ini adalah pilihan yang mudah karena sudah dikumpulkan dan gratis. Namun, kemungkinan besar Anda harus menganotasi ulang kumpulan data agar seperti dengan kebutuhan pelatihan Anda. ImageNet, Kaggle, dan Kumpulan Dataset Google adalah beberapa contoh kumpulan data sumber terbuka.

2. Internet dan IoT

Sebagian besar perusahaan menengah mengumpulkan data menggunakan internet dan perangkat IoT. Kamera, sensor, dan perangkat cerdas lainnya membantu mengumpulkan data mentah, yang akan dibersihkan dan dianotasi (memberikan keterangan/label) nanti. Metode pengumpulan data ini akan disesuaikan secara khusus dengan kebutuhan proyek Machine Learning Anda, tidak seperti kumpulan data sumber terbuka yang relatif sudah dikumpulkan sehingga belum tentu dapat sesuai dengan kebutuhan proyek.

3. Data Pelatihan Buatan (Artificial Training Data)

Seperti namanya, data pelatihan buatan adalah data yang dibuat secara artifisial menggunakan model Machine Learning yang telah dibuat sebelumnya. Data yang dihasilkan ini disebut data sintetis, dan merupakan pilihan yang sangat baik jika Anda memerlukan data pelatihan berkualitas baik dengan fitur khusus untuk melatih algoritma. Tentu saja, metode ini akan membutuhkan sumber daya komputasi yang besar dan waktu yang cukup.

Berapa banyak Training Data yang cukup?

Tidak ada jawaban khusus untuk berapa banyak Training Data cukup dalam proyek Machine Learning. Hal ini tergantung pada algoritma yang Anda latih, hasil yang diharapkan, aplikasi, kompleksitas, dan banyak faktor lainnya.

Misalkan Anda ingin melatih pengklasifikasi teks yang mengkategorikan kalimat berdasarkan kemunculan istilah "kucing" dan "anjing" dan sinonimnya seperti "kitty", "kitten", "pussycat", "puppy", atau "doggy" . Ini mungkin tidak memerlukan kumpulan data yang besar karena hanya ada beberapa istilah untuk dicocokkan dan diurutkan.

Namun, jika ini adalah pengklasifikasi gambar yang mengkategorikan gambar sebagai "kucing" dan "anjing", jumlah titik data yang diperlukan dalam kumpulan data pelatihan akan meningkat secara signifikan karena setiap gambar memiliki komposisi piksel yang relatif tidak sama persis. Singkatnya, banyak faktor yang berperan untuk memutuskan Training Data yang cukup.

Jumlah data yang dibutuhkan akan berubah tergantung pada algoritma yang digunakan pula. Pada konteks pembelajaran mendalam (Deep Learning), bagian dari Machine Learning, membutuhkan jumlah data yang sangat besar. Sebaliknya, algoritma Machine Learning lainnya mungkin hanya membutuhkan data yang lebih sedikit. Dengan demikian, terdapat algoritma yang membutuhkan jumlah data yang sangat besar untuk mencapai titik optimal, ada juga yang cocok memproses data dalam jumlah relatif lebih sedikit dan mungkin belum optimal.

Kesimpulan

Kita telah mengulas banyak hal terkait Training Data, bagian dalam kumpulan dataset yang disediakan untuk menjadi bahan pembelajaran model. Training Data berperan menjadi bahan belajar bagi algoritma sehingga dapat menghasilkan aturan (program) yang akan digunakan untuk memprediksi nilai baru.

Kita juga membahas perbedaan Training Data, Testing Data dan Validation Data. Setelah itu, kita juga mengenal hal yang membuat Training Data bagus dan hal yang memengaruhi kualitas Training Data. Training Data dapat diperoleh dari Sumber Terbuka (Open Source), Internet dan IoT dan Data Pelatihan Buatan (Artificial Training Data). Terakhir kita juga membahas seberapa banyak Training Data yang cukup untuk membangun Machine Learning, yang sangat bergantung algoritma yang Anda latih, hasil yang diharapkan, aplikasi, kompleksitas, dan banyak faktor lainnya.

Intinya adalah Training Data memegang peranan penting dalam menghasilkan model Machine Learning yang berkualitas. Machine Learning berkualitas dapat memberikan benefit bagi perusahaan seperti ketika mengetahui prediksi apa yang akan terjadi di masa depan perusahaan dapat menentukan strategi untuk mengatasi tantangan atau mengambil peluang.

Jika Anda tertarik mempelajari berbagai hal terkait Machine Learning dan pemanfaatannya lebih lanjut hingga berkarir di dunia data #JadiTalentaData handal, Anda dapat mengikuti Bootcamp Algoritma Data Science yang memiliki serangkaian program yang dapat membantu Anda menguasai dunia data di industri yang Anda minati. Yuk, bergabung bersama Algoritma sekarang!

TONI ANDREAS SUSANTO

Jika Anda tertarik dengan artikel seputar Insight Data Science dan beragam topik menarik lainnya, jadilah orang pertama yang membacanya dengan melakukan subscribe blog dibawah ini!

Insights

Bunga Dea Laraswati

Sr. Writer Algoritma Data Science School

Menyingkap Pentingnya Training Data dalam Machine Learning

Table of Contents

Apa itu Training Data?

Bagaimana Training Data digunakan dalam Machine Learning?

Training Data vs Testing Data vs Validation Data