Cara Deteksi Anomali dalam Analisis Data

Pada era informasi yang semakin maju ini, analisis data telah menjadi salah satu alat yang paling berharga dalam mengungkap tren, pola, dan wawasan yang dapat mengarah pada pengambilan keputusan yang lebih baik. Namun, dalam proses analisis data, sering kali terdapat anomali yang dapat mengganggu keakuratan dan validitas hasil yang diperoleh.

Oleh karena itu, penting bagi Data Analyst untuk memiliki mengetahui cata mendeteksi anomali dengan metode dan teknik yang efektif saat melakukan analisis data. Dengan memahami cara-cara deteksi yang efektif, para analis data akan dapat meningkatkan kualitas analisis mereka dan mengambil langkah-langkah yang tepat untuk menangani anomali yang mungkin muncul.

Apa itu Anomali?

Anomali merupakan sesuatu yang tidak normal alias tidak seperti umumnya dapat dikatakan peristiwa mencurigakan yang menonjol dari pola dasar. Dalam konteks analisis data, setiap titik data yang memiliki nilai sangat berbeda dibandingkan kebanyakan suatu kumpulan nilai maka disebut anomali atau dikenal juga outlier. Titik data outlier berarti memiliki perbedaan nilai yang signifikan dengan nilai-nilai lainnya.

Jenis-jenis Anomali

1. Anomali Titik

Anomali titik didefinisikan sebagai titik data tunggal yang tidak biasa dibandingkan dengan data lainnya. Misalnya anomali ini digunakan pada kasus mendeteksi penipuan MasterCard berdasarkan jumlah yang dibelanjakan.

2. Anomali Kontekstual

Disebut juga outlier bersyarat, anomali kontekstual berisi titik data yang menyimpang secara signifikan dari titik data lain yang didasarkan pada konteks spesifik tertentu. Anomali semacam ini dapat kita temukan dalam data berbasis time-series. Misalnya jumlah yang dihabiskan untuk bensin setiap hari selama hari kerja adalah normal tetapi akan terlihat ganjil saat dihabiskan untuk liburan.

3. Anomali Kolektif

Anomali kolektif adalah kumpulan titik data serupa yang dapat dianggap tidak normal jika dibandingkan dengan data lainnya.Misalnya, periode suhu panas selama 10 hari berturut-turut dapat dianggap sebagai anomali kolektif. Suhu ini tidak biasa karena terjadi bersamaan dan kemungkinan besar disebabkan oleh peristiwa cuaca dasar yang sama.

Umumnya titik data dalam anomali kolektif juga dapat menjadi titik anomali, tetapi tidak selalu demikian. Anomali kolektif sangat penting dalam analisis deret waktu (Time Series), di mana peristiwa yang mendasarinya dapat menyebabkan beberapa titik data muncul sebagai anomali pada waktu yang sama.

Apa itu Deteksi Anomali?

Deteksi anomali sederhananya bagaimana menemukan sesuatu yang tidak biasa, menangkap penipuan, menemukan aktivitas aneh. Deteksi anomali merupakan proses memeriksa titik data tertentu dan mendeteksi kejadian langka yang tampak mencurigakan karena berbeda dari pola perilaku yang ditetapkan. Deteksi anomali bukanlah hal baru, berbagai cara mendeteksi anomali telah berkembang seiring bertambahnya kuantitas data maka pelacakan atau pendeteksian manual menjadi tidak praktis sehingga membutuhkan berbagai teknik yang memanfaatkan teknologi dan sebagainya.

Kenapa Deteksi Anomali Penting?

Mendeteksi sebuah anomali memang memegang peranan vital karena memungkinkan tim keamanan untuk melihat peristiwa atau titik data yang menunjukkan penyimpangan signifikan dari pola operasi normal. Sering kali, tim memerlukan kemampuan pemantauan data real-time untuk merespons ketidaknormalan data dan kemungkinan mencegah pelanggaran, mendeteksi penipuan, atau menilai kesehatan sistem. Titik data anomali berfungsi sebagai dasar yang membantu tim menemukan sumber masalah keamanan secepat mungkin. Perusahaan membutuhkan deteksi anomali untuk menilai risiko keamanan, menyelidiki celah, dan memperkuat postur keamanan mereka untuk menghindari paparan data.

Misalnya, industri perbankan yang telah menerima manfaat dari deteksi anomali. Dengan menggunakannya, bank dapat mengidentifikasi aktivitas penipuan dan pola yang tidak konsisten serta melindungi data. Data adalah garis hidup bisnis Anda dan mengorbankannya dapat membahayakan kelangsungan bisnis perbankan. Tanpa deteksi anomali, Anda akan kehilangan tingkat kepercayaan pelanggan yang mungkin tidak dapat dipulihkan. Lebih lanjut, Anda bisa kehilangan pendapatan dan brand yang sejatinya bukan dibangun satu malam melainkan waktu bertahun-tahun untuk dikembangkan.

Cara Mendeteksi Anomali

Cara mendeteksi anomali yang efisien membuat analis data dapat meningkatkan mutu analisis mereka serta mengambil langkah yang sesuai dalam mengatasi kemungkinan adanya anomali.

1. Visualisasi Data

Saat fitur diplot menggunakan alat visualisasi seperti seaborn, matplotlib, plotly, atau perangkat lunak lain seperti tableau, PowerBI, Qlik Sense, Excel, Word, dll untuk mendapatkan gambaran tentang data dan mengenali anomali terutama menggunakan plot kotak, plot biola, plot pencar dan sebagainya.

2. Metode Statistik

Ketika Anda menemukan rata-rata data, itu mungkin tidak memberikan nilai tengah yang benar ketika ada anomali dalam data. Maka dari itu, ketika terdapat anomaly, maka sebaiknya menggunakan median data yang memberikan nilai lebih tepat daripada rata-rata karena median mengurutkan nilai dan menemukan posisi tengah dalam data sedangkan rata-rata hanya menjumlahkan keseluruhan nilai dalam data baru dibagi jumlah data.

Dalam mencari nilai outlier, kita mesti mencari Interquartile Range dengan cara kuartil 3 – kuartil 1. Setelah itu, kita mencari batas bawah (“Minimum”) dengan cara Q1-1.5(IQR) dan batas atas (“Maximum”) dengan cara Q3+1.5(IQR) yang akan digunakan untuk menentukan nilai dapat dikatakan normal. Ketika terdapat titik data yang lebih kecil dari batas bawah (“Minimum”) dan batas atas (“Maximum”) maka dapat dikatakan anomali atau data outlier.

3. Algoritma Machine Learning

Manfaat menggunakan algoritma tanpa pengawasan untuk deteksi anomali adalah kita dapat menemukan anomali untuk banyak variabel atau fitur atau prediktor dalam data pada waktu yang sama, bukan secara terpisah untuk masing-masing variabel. Bisa juga dilakukan dua cara yang disebut Deteksi Anomali Univariat dan Deteksi Anomali Multivariat.

A. Hutan Isolasi

Merupakan teknik pembelajaran tanpa pengawasan (unsupervised learning) untuk mendeteksi anomali ketika label atau nilai sebenarnya tidak ada. Ini akan menjadi tugas yang kompleks untuk memeriksa setiap baris dalam data untuk mendeteksi baris tersebut yang dapat dianggap sebagai anomali.

B. Local Outlier Factor (LOF)

Merupakan algoritma pembelajaran tanpa pengawasan (unsupervised learning) yang mendeteksi outlier lokal yang didasarkan pada lingkungan lokalnya. LOF akan mengidentifikasi outlier dengan mempertimbangkan kepadatan tetangga (titik-titik data sekitar). LOF bekerja dengan baik saat kepadatan titik data tidak konstan di seluruh kumpulan data.

Kesimpulan

Kita telah membahas banyak hal terkait deteksi anomali, sebuah proses menemukan sesuatu yang tidak biasa. Anomali sendiri memiliki 3 jenis, yakni anomali titik, anomali kontekstual dan anomali kolektif. Deteksi anomali sangat penting sebab dapat membantu menilai risiko keamanan, mengidentifikasi aktivitas penipuan, menjaga kepercayaan pelanggan dan lain sebagainya. Terakhir kita juga membahas cara mendeteksi anomali, yakni melalui visualisasi data, metode statistik dan algoritma Machine Learning.

Intinya adalah menganalisis data merupakan hal penting, khususnya pada pembahasan kali ini, yaitu mendeteksi anomali. Jika Anda tertarik mempelajari berbagai analisis data dan pemanfaatannya lebih lanjut hingga berkarir #JadiDataTalenta handal, Anda dapat mengikuti Bootcamp Algoritma Data Science yang memiliki serangkaian program yang dapat membantu Anda menguasai dunia data di industri yang Anda minati. Yuk, bergabung bersama Algoritma sekarang!

TONI ANDREAS SUSANTO


Jika Anda tertarik dengan artikel seputar Insight Data Science dan beragam topik menarik lainnya, jadilah orang pertama yang membacanya dengan melakukan subscribe blog dibawah ini!

Get Free Learning Resources

* indicates required
Email Address *
First Name *