5 Cara Mendeteksi Outlier dalam Data

Outlier berpotensi memberikan informasi keliru dan menghancurkan performa model. Lantas bagaimana untuk cara untuk mendeteksi outlier? Simak penjelasannya di sini!

Bunga Dea Laraswati
Bunga Dea Laraswati

Table of Contents

Outlier adalah nilai yang sangat berbeda dari nilai-nilai lain dalam sebuah kumpulan data. Mengapa kita perlu mengetahui apakah ada outlier dalam sebuah kumpulan data? Sebuah contoh dapat menjelaskan pentingnya hal ini.

Misalnya, terdapat 5 orang warga di sebuah desa, di mana 1 orang memiliki penghasilan bulanan sebesar 100 juta rupiah, sedangkan 4 orang lainnya hanya memiliki penghasilan sekitar 2 juta rupiah. Jika kita menghitung rata-rata pendapatan kelima orang tersebut, maka angkanya akan menjadi 21,6 juta rupiah per bulan, yang terlihat cukup besar. Namun, apakah ini benar-benar merepresentasikan pendapatan warga desa secara keseluruhan? Tentu tidak, karena hanya satu orang yang memiliki pendapatan yang sangat tinggi. Oleh karena itu, pemahaman tentang outlier sangat penting untuk menghindari bias ketika menganalisis data atau melatih model.

Mendeteksi outlier sangatlah penting dalam analisis data. Outlier adalah nilai yang jauh berbeda dari nilai-nilai lain dalam kumpulan data, dan ini dapat menyebabkan hasil analisis menjadi tidak akurat jika tidak diperhitungkan. Sebagai contoh yang telah disebutkan di atas, jika hanya satu orang dalam sebuah kelompok memiliki penghasilan yang sangat tinggi sementara orang lain hanya memiliki penghasilan yang kecil, maka rata-rata pendapatan kelompok tersebut akan terlihat lebih tinggi daripada seharusnya. Hal ini dapat menghasilkan kesimpulan yang salah dan membuat keputusan yang tidak tepat. Oleh karena itu, memahami dan mengetahui bagaimana mendeteksi outlier dapat membantu menganalisis data secara akurat dan efektif.

Pengertian Outlier

Outlier adalah bagian dari data yang sangat berbeda dari sebagian besar data lainnya. Mungkin sulit untuk menentukan apa yang tepat dianggap sebagai outlier, karena bisa bersifat subjektif. Outlier dapat dianggap sebagai bagian data yang sangat rendah atau tinggi, jauh dari rata-rata atau norma dari kumpulan data. Outlier bisa disebabkan oleh kebetulan atau kesalahan dalam pengukuran. Hal ini dapat mempengaruhi hasil analisis data secara keseluruhan, sehingga penting untuk mengidentifikasi dan menghapus outlier dari data. Ada berbagai cara untuk mengidentifikasi outlier, dan tidak ada cara baku yang tepat untuk setiap data. Dalam bagian selanjutnya, akan dibahas 5 cara untuk mendeteksi outlier.

5 Cara Mendeteksi Outlier

1.       Metode IQR

Inter Quartile Range (IQR) adalah salah satu prosedur yang paling banyak digunakan untuk deteksi dan penghapusan outlier. Hal ini dapat diterapkan dengan menemukan kuartil pertama dan ketiga (Q1 dan Q3) kemudian menghitung nilai IQRnya dengan mengurangi Q3 dan Q1. Kemudian dari nilai IQR dikalikan dengan 1,5 baru ketika menemukan batas bawah  (Q1 – 1,5*IQR) dan batas atas (Q3 + 1,5*IQR). Jadi setiap titik data di luar rentang ini, entah itu di bawah atau di atas akan dianggap sebagai outlier dan harus dihapus untuk analisis lebih lanjut.

2.       Analisis Boxplot

Pada analisis Boxplot secara perhitungan sama dengan metode IQR yaitu menemukan nilai batas atas dan bawah berdasarkan nilai Q1 atau Q3 dan IQR lalu nilai yang lebih atau kurang dari batas tersebut dapat dikatakan sebagai outlier. Namun, dalam analisis ini menggunakan hasil perhitungan tersebut untuk divisualisasikan sehingga memudahkan pemangku kepentingan mengetahui data yang mana adalah outlier. Jadi dengan Boxplot memudahkan dan mempercepat manusia untuk memahami sebuah data karena diberikan dalam bentuk visual.

3.       Metode Z-Score

Kita sudah menyadari outlier merupakan nilai yang unik dan berbeda banget alias biasanya terlalu kecil atau besar. Maka dari itu, pada metode Z-Score berusaha mengasumsikan data yang berada di ekor distribusi dan relatif jauh dari rata-rata dapat dikatakan sebagai outlier. Kita dapat menghitung nilai Z-Score dari setiap data dengan mengurangi nilai setiap data dengan rata-rata dari kumpulan data lalu dibagi dengan nilai standar deviasi. Kemudian tentukan nilai ambang batas 3 dan tandai titik data yang lebih besar dari ambang batas tersebut sebagai outlier. Jadi ketika letak data tersebut relatif sedikit dan nilai Z-Scorenya berada di nilai lebih dari 3 maka dapat dikatakan outlier.

4.       Metode DBSCAN

Metode ini berbasis tingkat kepadatan dan didasarkan oleh konsep clustering, yaitu bagaimana kita menghitung atau memvisualisasikan kumpulan data untuk dapat dikelompokkan pada beberapa kelas. Kita dapat menggunakan DBSCAN sebagai cara mendeteksi outlier sebab ketika terdapat data yang tidak tergolong cluster/kelas apapun akan memiliki nilai sendiri alias dapat menghasilkan prediksi biner (outlier atau bukan).

5.       Model Linier

Dalam pendekatan ini, data dimodelkan ke dalam subruang berdimensi lebih rendah dengan menggunakan korelasi linier. Kemudian jarak setiap titik data ke bidang yang sesuai dengan sub-ruang dihitung. Jarak ini digunakan untuk mencari outlier. PCA (Analisis Komponen Utama) adalah contoh model linier untuk deteksi anomali. Jadinya model akan mengolah data untuk diproyeksikan dalam sebuah ruang dan menghitung jaraknya sebagai acuan menentukan outlier atau bukan.

Kesimpulan

Kita sudah mempelajari banyak hal seputar outlier. Mulai dari pentingnya outlier dalam  menghindari bias sehingga dapat memberikan pemahaman yang lebih menyeluruh. Kemudian, kita pun telah memahami bahwa outlier itu adalah nilai yang sangat berbeda dari kumpulan data, entah itu terlalu rendah atau tinggi. 5 cara mendeteksi outlier yang dijelaskan di atas dapat memudahkan kita dalam menentukan outlier.

Outlier hanya salah satu bagian dari proses menghasilkan insight dari data. Melalui data dapat menjadi rujukan efektif pemangku kepentingan dalam rangka menentukan berbagai keputusan strategis untuk memberikan nilai tambah bagi perusahaan. Maka dari itu, peluang karir seseorang yang dapat menghasilkan insight melalui data akan sangat besar.  Jika Anda tertarik mempelajari pengolahan data dan pemanfaatannya lebih lanjut hingga berkarir di dunia data menjadi seorang data scientist handal, Anda dapat mengikuti Bootcamp Algoritma Data Science yang memiliki serangkaian program yang dapat membantu Anda menguasai dunia data di industri yang Anda minati. Yuk, bergabung bersama Algoritma sekarang!

TONI ANDREAS SUSANTO


Jika Anda tertarik dengan artikel seputar Insight Data Science dan beragam topik menarik lainnya, jadilah orang pertama yang membacanya dengan melakukan subscribe blog dibawah ini!

Get Free Learning Resources

* indicates required


Insights

Bunga Dea Laraswati

Sr. Writer Algoritma Data Science School