Apa itu Bias dan Contohnya dalam Machine Learning
Dalam dunia informasi yang kaya dengan berbagai sumber dan sudut pandang, bias menjadi salah satu aspek yang perlu diperhatikan dengan serius. Dalam setiap teks yang kita baca, terdapat potensi adanya bias yang dapat mempengaruhi pemahaman dan penilaian kita terhadap suatu isu atau topik.
Bias dapat muncul dalam berbagai bentuk, baik itu dalam tulisan jurnalistik, publikasi ilmiah, maupun konten media sosial. Penting bagi kita untuk mengenali dan memahami bias ini agar kita dapat menjadi pembaca yang kritis dan objektif.
Apa itu Bias dalam Machine Learning?
Istilah bias pertama kali diperkenalkan oleh Tom Mitchell pada tahun 1980 dalam makalahnya yang berjudul, “ The need for biases in learning generalizations ”. Dalam makalah tersebut dijelaskan perlunya bias dalam menggeneralisasi yang lebih baik untuk kumpulan data yang lebih besar. Namun demikian, bias berpotensi menimbulkan kurang akuratnya atau kurang sensitif terhadap beberapa titik data yang tidak terlalu besar. Dengan demikian, bias dalam Machine Learning dapat diartikan sebagai kondisi ketika model cenderung hanya bagus dalam memberikan prediksi pada kumpulan data tertentu biasanya yang berjumlah besar, sedangkan pada data yang kurang akan memberikan kecenderungan prediksi yang keliru.
Bagaimana Data Bisa Menjadi Bias?
Ketika kita ingin mengetahui proses data menjadi bias agar dapat mengantisipasinya, ini menjadi tantangan tersendiri untuk mengetahui prosesnya. Bahkan ketika tim yang mengumpulkan data melakukan upaya yang lebih besar untuk membangun kumpulan yang inklusif dan representatif untuk populasi target mereka, bias masih dapat merembes ke dalam model data.
Studi referensi Duke-Margolis yang menemukan beberapa alat yang memprediksi penyakit Covid-19 menggunakan data sensor saturasi oksigen dari perangkat ujung jari, menggunakan sensor berbasis laser yang ternyata memiliki kinerja kurang akurat pada individu dengan kulit lebih gelap atau atribut lainnya. Meskipun data memiliki representasi populasi yang luas, catatan data individual memiliki bias bawaan yang dibuat oleh alat yang mengekstraksi data.
Saat mengumpulkan dan menganalisis data untuk pembuatan model ML, setiap aspek konten dan proses pengumpulan perlu dipertimbangkan dengan hati-hati karena umumnya disekitar inilah bias akan muncul. Apakah alat dan sistem yang digunakan untuk mengumpulkan data bebas bias, jika tidak, bagaimana pengaruh bias terhadap data? Ketika data dikumpulkan, apakah tim menyertakan atau mengecualikan sumber berdasarkan metodologi yang bias? Apakah data diterima atau ditolak yang sebagian atau memiliki dimensi yang hilang dan dapat memengaruhi sistem di hilir?
Bias dapat secara tidak sadar diperkenalkan pada berbagai tingkatan. Dalam sistem multi-tingkat yang kompleks saat ini, data hampir selalu digabungkan dengan banyak kumpulan data yang berbeda, masing-masing dengan potensi biasnya sendiri. Saat kami menggabungkan dan menggabungkan kembali data, bias dapat muncul tanpa sepengetahuan kita dan sampai mesti meluangkan waktu untuk memperdalamnya hingga menyelami semua aspek data, meskipun demikian tetap saja masih menjadi tantangan memahami bagaimana sistem ML dan AI mewarisi bias.
Jenis-Jenis Bias yang Umum Ditemukan
1. Anchoring Bias
Anchoring bias terjadi ketika pilihan pada metrik dan data didasarkan pada pengalaman pribadi atau preferensi untuk kumpulan data tertentu. Dengan menggantungkan pada preferensi ini, model dibangun di atas set yang disukai, yang bisa saja tidak lengkap atau bahkan berisi data yang salah sehingga menghasilkan hasil yang tidak valid.
2. Availability Bias
Availability bias mirip dengan anchoring yang terjadi saat kumpulan data berisi informasi berdasarkan apa yang paling disadari oleh pembuat model alias apa yang tersedia. Misalnya, jika fasilitas yang mengumpulkan data berspesialisasi dalam demografi atau komorbiditas tertentu, kumpulan data akan sangat berbobot terhadap informasi tersebut. Jika set ini kemudian diterapkan di tempat lain, model yang dihasilkan mungkin merekomendasikan prosedur yang salah atau mengabaikan hasil yang mungkin terjadi karena terbatasnya ketersediaan sumber data asli.
3. Confirmation Bias
Confirmation bias mengarah pada kecenderungan untuk memilih sumber data atau hasil model yang sejalan dengan keyakinan atau hipotesis yang dipegang saat ini. Pengembang Machine Learning mungkin secara tidak sengaja mengumpulkan atau melabeli data dengan cara yang memengaruhi hasil alias mendukung keyakinan mereka saat ini.
4. Stability Bias
Stability bias didorong oleh keyakinan bahwa perubahan besar biasanya tidak terjadi sehingga hasil yang tidak sesuai diabaikan, dibuang, atau dimodelkan ulang untuk menyesuaikan kembali dengan perilaku yang diharapkan. Padahal ketika kita memberi model data yang baik, mungkin saja hasilnya tidak sejalan dengan keyakinan kita. Oleh karena itu, bias ini dapat berpotensi mengabaikan hasil yang sebenarnya.
Bagaimana Mengidentifikasi dan Menghilangkan Bias?
Mungkin secara gagasan Anda sudah tergambar bagaimana mengenali bias dan mencegahnya atau meminimalisirnya melalui gagasan bagian Bagaimana Data Bisa menjadi Bias dan Jenis-Jenis Bias yang Umum Ditemukan. Kita dapat mengenali bias ketika model memberikan hasil yang keliru dan cara menghilangkan bias adalah dengan menghindari penggunaan data, algoritma dan sebagainya yang menyebabkan terjadinya bias. Selanjutnya kita akan membahas gambaran nyata terkait mengidentifikasi dan menghilangkan bias.
Mengidentifikasi dan menghilangkan bias merupakan topik yang penting dalam pengembangan algoritma Machine Learning. Contoh yang terkenal adalah upaya Amazon dalam menciptakan alat pemfilteran resume yang malah menghasilkan bias terhadap wanita. Alat ini ditujukan untuk memilih lima resume terbaik dari ratusan yang ada. Namun, masalah muncul ketika algoritma tersebut menolak pelamar berdasarkan jenis kelamin mereka. Akibatnya, alat ini tidak pernah digunakan.
Selain itu, bias juga dapat ditemukan dalam penggunaan kata embeddings, yaitu teknik yang memungkinkan pemahaman bahasa alami dengan menangkap hubungan antara kata-kata. Sebagai contoh, penggunaan kata embeddings dapat menghasilkan hubungan seperti "Raja = Pria dan Wanita = Ratu" dan “Pemrogram komputer = Pria dan Wanita = Ibu rumah tangga”. Secara matematis, hal ini mungkin benar dan mempresentasikan data secara akurat, namun pertanyaannya adalah apakah kita ingin memasukkan bias semacam ini ke dalam algoritma Machine Learning? Oleh karena itu, penting bagi kita untuk menghilangkan bias ini agar tidak menjadi bagian tak terpisahkan (integral) dari algoritma yang kita gunakan.
Para peneliti, seperti Prof. Sharad Goel dan Prof. James Zou, telah bekerja dalam bidang ini dan mencoba mengatasi masalah bias dalam kata embeddings dan algoritma Machine Learning. Prof. James, bersama Tolga Bolukbasi, mengusulkan metodologi untuk mengukur dan menghilangkan bias gender dan rasial dalam kata embeddings. Mereka menggunakan pendekatan geometris untuk memodifikasi penyematan kata agar dapat menghilangkan stereotip gender. Misalnya, mereka mempertahankan hubungan antara ratu dan perempuan, tetapi menghilangkan hubungan antara resepsionis dan perempuan.
Sementara itu, Prof. Sharad telah melakukan penelitian yang mengkritisi definisi-definisi keadilan seperti anti-klasifikasi, paritas klasifikasi, dan kalibrasi dalam konteks Machine Learning. Mereka menyadari bahwa definisi-definisi ini memiliki keterbatasan statistik yang signifikan dan dapat berpotensi membahayakan kelompok yang ingin dilindungi. Pendekatannya adalah memperlakukan orang-orang dengan risiko yang serupa secara adil, berdasarkan estimasi akurat risiko yang mereka hadapi.
Penelitian mengenai keadilan dan bias dalam Machine Learning masih dalam tahap awal, dan perjalanan ini akan menarik untuk menyaksikan bagaimana hal tersebut berkembang dan mempengaruhi kebijakan di masa depan. Tujuan utamanya adalah menciptakan algoritma yang adil dan bebas dari bias, sehingga dapat digunakan secara luas dan memberikan manfaat bagi semua orang.
Kesimpulan
Kita telah membahas banyak hal terkait bias, kondisi ketika model cenderung hanya bagus dalam memberikan prediksi pada kumpulan data tertentu. Data bisa menjadi bias disebabkan oleh berbagai proses mengumpulkan dan menganalisis data untuk pembuatan model ML yang tidak berjalan dengan semestinya. Kondisi bias umumnya memiliki 4 jenis, yakni Anchoring Bias, Availability Bias, Confirmation Bias, dan Stability Bias. Terakhir kita juga membahas bagaimana mengidentifikasi bias, yakni dengan melihat apakah model memberikan hasil keliru untuk data tertentu, dan untuk menghilangkan bias, yakni dengan menghindari penggunaan data, algoritma dan sebagainya yang menyebabkan terjadinya bias.
Pada bagian ini juga, kita membahas gambaran nyata terkait mengidentifikasi dan menghilangkan bias.Dengan demikian, kita sudah membahas masalah AI dan cara menanganinya. Lebih dari itu, Machine Learning dan AI tetap saja dapat mendorong kemajuan dan nilai tambah bagi perusahaan sehingga mendorong berbagai perusahaan mengembangkannya.
Jika Anda tertarik mempelajari Machine Learning & Artificial Intelligence (AI) dan pemanfaatannya lebih lanjut hingga berkarir di dunia data menjadi seorang Data Scientist handal, Anda dapat mengikuti Bootcamp Algoritma Data Science yang memiliki serangkaian program yang dapat membantu Anda menguasai dunia data di industri yang Anda minati. Yuk, bergabung bersama Algoritma sekarang!