Bagaimana Cara Menghadapi Missing Value bagi Pemula?
Mengenal apa itu missing value serta langkah-langkah penanganannya bagi pemula. Bolehkah nilai yang hilang diabaikan? Cari tahu disini!
Table of Contents
Memahami missing value amat penting agar Anda dapat mengelola data dengan tepat. Jika nilai-nilai tersebut tidak ditangani dengan tepat, kemungkinan besar akan sulit untuk menarik kesimpulan yang akurat. Ini tentu bisa menimbulkan dampak yang merugikan di masa mendatang. Lantas, apa yang harus dilakukan jika menemukan adanya missing value dalam data Anda?
Apa Itu Missing Value?
Missing value adalah nilai yang tidak disimpan dalam kumpulan data selama pengamatan. Untuk memudahkan klasifikasi missing value, pada tahun 1976 D.B. Rubin mengelompokkannya dalam tiga kategori. Menurut Rubin, tiap titik data memiliki kemungkinan untuk missing atau hilang. Ketiga kategori tersebut adalah:
1. MCAR (Missing Completely at Random)
Pada kategori ini, missing values sebenarnya tidak berkaitan dengan pengamatan. Jadi, hal ini tidak akan memengaruhi parameter lain dalam model. Namun, kasus ini bukanlah hal yang umum terjadi. MCAR terjadi karena terjadi kesalahan desain sistem pengumpulan data atau kerusakan pada alat.
2. MAR (Missing at Random)
Missing value yang satu ini bisa sangat membingungkan. Sebab, MAR masih memiliki kaitan dengan variabel lain yang ada dalam dataset, namun nilai yang hilang benar-benar acak. Terkadang, MAR juga disebut dengan istilah “missing conditionally at random” karena terkait dengan situasi tertentu pada variabel lain.
Contoh MAR adalah data mengenai pandangan politik masyarakat. Kebanyakan orang akan memilih untuk tidak menyebutkan pandangan politiknya meski sebenarnya informasi tersebut mungkin berkaitan dengan data lain, seperti pendapatan.
3. MNAR (Missing Not at Random)
Pada kasus MNAR, mekanisme bagaimana data tersebut hilang dapat diketahui. Hanya saja, nilai-nilainya tidak dapat disimpulkan. MNAR biasanya terjadi ketika objek penelitian memilih untuk menghindari pertanyaan, misalnya ketika mereka ditanya mengenai jumlah aset. Kelompok usia tertentu mungkin akan memilih untuk tidak menjawabnya. Mekanismenya jelas terlihat, namun sulit untuk bisa mengetahui jumlah pastinya.
Pentingnya Memperbaiki Missing Value
Memperbaiki missing value sangatlah penting dalam analisis data. Ini karena data tidak akan lengkap jika Anda tak menangani nilai yang hilang. Beberapa algoritma machine learning (ML) juga tidak mengizinkan kumpulan data dengan missing value. Terlebih, nilai yang hilang pada suatu kumpulan data bisa menimbulkan beberapa masalah.
Masalah yang Terjadi Akibat Missing Value
Missing value memang merupakan sebuah masalah. Namun, dalam beberapa kasus, nilai yang hilang justru merupakan gejala atau tanda dari masalah yang jauh lebih serius. Selain itu, beberapa jenis model data tidak bisa diproses lebih lanjut jika terdapat missing values di dalamnya. Beberapa contohnya adalah model Nulls dan NaNs.
Cara Menghadapi Missing Value untuk Pemula
Untuk itu, sebaiknya Anda segera memperbaiki nilai yang hilang dalam kumpulan data. Untuk mulai memperbaiki missing value, Anda bisa mengikuti langkah-langkah berikut ini:
1. Identifikasi
Langkah awal yang harus dilakukan adalah identifikasi. Bagi pemula, disarankan untuk menggunakan Python karena relatif lebih mudah dan simpel. Sebelumnya, pastikan Anda telah mengimpor library apt dan pastikan dataset dapat terbaca.
2. Penanganan
Ada beberapa metode yang dapat digunakan untuk menangani missing value. Cara paling sederhana adalah dengan mengabaikan struktur data dengan nilai yang hilang. Metode ini bisa diterapkan jika kumpulan data yang diberikan cenderung besar dan beberapa nilai terlewatkan. Cara lainnya adalah dengan mengeluarkan nilai yang hilang. Ini hanya akan berjalan jika data yang digunakan berskala besar.
3. Penghapusan
Penghapusan missing value terbagi menjadi empat kategori berbeda, yaitu:
- Listwise: Solusi mudah untuk kumpulan data besar yang mengalami MCAR. Cara ini terkadang disebut dengan sebutan complete case analysis. Namun, jika diterapkan pada data berskala kecil, bisa menimbulkan bias dan menyesatkan hasil. Ini karena seluruh variabel akan dihapus.
- Pairwise: Metode penghapusan ini dapat dilakukan jika terdapat beberapa data yang hilang sekaligus. Subset dengan kasus MCAR harus dipertimbangkan karena menyimpan lebih banyak informasi.
- Entire variable: Apabila dalam satu kolom terdapat sekitar 60% nilai yang hilang, maka kolom tersebut bisa dihapus seluruhnya.
- Dropping: Ini merupakan proses menghapus seluruh baris data.
Selain metode simpel di atas, penanganan missing value juga bisa dilakukan dengan beberapa metode profesional seperti imputation, regresi linear, hingga algoritma KNN.
Kesimpulan
Missing value pada dasarnya adalah hal yang sangat wajar terjadi, terlebih jika data diambil oleh tenaga manusia. Meski begitu, bukan berarti nilai yang hilang dapat disepelekan. Justru sebaliknya, missing value harus segera ditangani. Bagi pemula, Anda bisa mencoba cara yang telah dijelaskan.
Namun, jika data yang Anda tangani berskala besar dan missing value cukup rumit, ada baiknya untuk menggunakan metode lanjutan. Mengenai cara menangani nilai yang hilang dengan metode lanjutan ini bisa Anda pelajari di Algoritma Data Science School. Tertarik? Hubungi kami di sini!
Referensi:
- Analytics Vidhya – Guide to Deal with Missing Value (diakses 29 Juli 2022)
- Towards Data Science – Missing Value Handling (diakses 29 Juli 2022)
- Statistics Solutions – Missing Values in Data (diakses 29 Juli 2022)