Kelebihan dan Kekurangan Jenis-Jenis Clustering dalam Data Science

Clustering merupakan sebuah teknik mengelompokkan data serupa ke dalam kelompok. Memudahkan analisis dan visualisasi data. Bisa juga mengurangi dimensi data. Simak penjelasan lengkapnya di sini!

Team Algoritma
Team Algoritma

Table of Contents

Clustering dalam data science adalah teknik yang sangat berguna untuk mengelompokkan data ke dalam kelompok-kelompok yang serupa. Analoginya seperti memisahkan bola-bola yang memiliki warna dan ukuran yang serupa ke dalam kelompok-kelompok yang berbeda. Dengan menggunakan Clustering, kita dapat menemukan pola dan struktur dalam data yang tidak terlihat sebelumnya, serta memudahkan dalam analisis data. Misalnya, dengan mengelompokkan data pelanggan berdasarkan preferensi dan perilaku pembelian, kita dapat memahami profil pelanggan dan membuat strategi pemasaran yang lebih efektif. Selain itu, Clustering juga bisa digunakan untuk mengurangi dimensi data, sehingga memudahkan visualisasi data yang kompleks. Mari kita bahas lebih dalam mengenai pengelompokkan (Clustering)!

Apa itu Clustering?

Clustering adalah teknik Data Mining (penambangan data) dan Machine Learning (pembelajaran mesin) yang melibatkan pengelompokan sekumpulan objek sehingga mereka yang berada dalam kelompok yang sama (disebut Cluster) relatif memiliki karakteristik serupa dibandingkan di luar kelompok. Pengelompokan (Clustering) dalam konteks Machine Learning memiliki makna secara sederhana, yaitu sebuah konsep mesin belajar mengelompokkan sebuah data yang tidak memiliki keterangan kelas (data tidak berlabel).

Apabila sebelumnya mesin belajar mengelompokkan sebuah data memiliki keterangan kelas (data berlabel) alias jenis atau nama kelompok sudah ditentukan duluan maka disebut klasifikasi. Dengan demikian, Clustering berusaha mengelompokkan data dengan mempertimbangkan kemiripan antar data, bukan sudah ditentukan kelas/label lalu diklasifikasikan setiap datanya. Berikut visualisasi sebuah data yang telah di Clustering!

Umumnya kita agak kesulitan mengelompokkan data apabila menyebar seperti data di atas. Apalagi memiliki banyak fitur/informasi yang mesti digunakan sebagai pertimbangan. Maka dari itu, kita membutuhkan sebuah teknik atau cara khusus (algoritma) yang dijelaskan pada bagian berikutnya, jenis-jenis Clustering.

Jenis-Jenis Clustering?

Pada bagian ini kita akan berkenalan dengan setiap jenis Clustering sehingga akan diusahakan untuk dibahas secara umum tetapi tetap masih memiliki detail.

1.  K-Means Clustering

Di antara jenis Clustering yang ada, K-Means merupakan yang paling populer. Algoritma K-Means menggunakan jarak rata-rata pusat titik data (centroid) untuk memisahkan titik-titik data menjadi k Cluster. Salah satu kelebihan dari K-Means adalah kesederhanaannya yang membuatnya mudah digunakan dan efisien dalam menemukan Cluster dengan bentuk elips atau bola. Namun, K-Means juga memiliki kelemahan yaitu tidak efektif dalam menangani Cluster dengan ukuran atau bentuk yang tidak terdefinisi dengan jelas. Meskipun begitu, algoritma ini masih menjadi pilihan utama dalam banyak kasus Clustering karena kepraktisannya.

2. Hierarchical Clustering

Hierarchical Clustering adalah teknik pengelompokan data yang menciptakan struktur hirarkis dalam bentuk diagram, sehingga data yang serupa ditempatkan di dekat satu sama lain, bukan terpisah berdasarkan ukuran kesamaannya. Salah satu keuntungan dari algoritma ini adalah kemampuannya dalam mengenali grup dengan berbagai ukuran dan bentuk, dan memberikan dendrogram sebagai representasi visual dari pengelompokan. Namun, ada juga kekurangan dari metode ini, seperti membutuhkan daya komputer yang besar untuk data yang besar, kemungkinan hasil keliru jika terdapat noise atau outlier dalam data, dan sulit diterapkan pada data dengan dimensi atau fitur yang kompleks.

3. Density—Based Clustering

Density (kepadatan) merupakan Clustering yang mengelompokkan titik data berdasarkan seberapa padat mereka didistribusikan ke seluruh ruang data sehingga nantinya data akan divisualisasikan. Pendekatan ini sering digunakan dalam bidang-bidang seperti pemrosesan gambar dan visi komputer karena efektif dalam menemukan Cluster dalam berbagai bentuk atau ukuran. Kelebihan algoritma ini, yaitu dapat mengenali kelompok dengan berbagai ukuran dan bentuk, dapat secara efektif mengelola kebisingan dan outlier dan Jumlah Cluster (k) tidak perlu ditentukan sebelumnya. Selain kelebihan terdapat pula kekurangannya, yaitu membutuhkan banyak daya komputer (terutama untuk kumpulan data besar) dan dataset dengan banyak dimensi/fitur akan kurang cocok.

4.  Partitioning Around Medoids (PAM) Clustering

PAM Clustering adalah varian K means yang membuat Cluster menggunakan medoid (titik data dengan jarak rata-rata terpendek dari setiap titik lain dalam Cluster), bukan centroid. Kelebihan algoritma ini, yaitu lebih tahan terhadap outlier dibandingkan K means alias dapat efektif mengelola kebisingan dan outlier dan mampu menangani kumpulan data dengan geometri non-linier (data lebih kompleks). Selain kelebihan terdapat pula kekurangannya, yaitu membutuhkan banyak daya komputer (terutama untuk kumpulan data besar) dan relatif tidak cocok apabila kumpulan data memiliki banyak dimensi.

Bagaimana Cara Kerja Clustering?

Algoritma Clustering bekerja dengan membagi atau mengelompokkan titik data ke dalam kelompok berdasarkan ukuran kemiripan atau kedekatan dan tanpa mengetahui sebelumnya seperti apa kelompok tersebut alias data belum berlabel. Berikut gambaran lebih komprehensif mengenai langkah-langkah cara kerja Clustering!

1.  Preprocessing Data

Preprocessing yang berarti tahapan sebelum memproses data dengan tujuan mempersiapkan data untuk proses Clustering. Proses ini seperti penurunan dimensi data alias penyederhanaan data ketika terlalu kompleks, penskalaan atau normalisasi data, membuang atau mengisi (input) nilai yang hilang dan lain sebagainya.

2. Memilih Jumlah Cluster (k)

Memilih jumlah Cluster atau membagi data menjadi berapa kelompok merupakan salah satu prosedur Clustering yang paling penting. Salah satu cara populer menentukan k dengan Jumlah kuadrat dalam Cluster alias The within-Cluster sum of squares (WSS), ini bekerja dengan memberikan pertimbangan secara grafis antara jumlah Cluster dan jarak antar setiap observasi. Semakin kecil jarak antar setiap observasi maka semakin baik proses Clustering tetapi ini menimbulkan semakin besar jumlah Cluster yang relatif semakin sulit diinterpretasikan karena banyak kelompoknya.

3. Memilih Teknik Clustering

Langkah selanjutnya adalah memilih teknik Clustering yang sesuai dengan data dan permasalahan yang dihadapi. Teknik pengelompokan k-means, Hierarchical Clustering, dan Density—Based Clustering adalah yang paling sering digunakan.

4. Menjalankan Algoritma Clustering

Algoritma Clustering dilakukan pada data untuk mengalokasikan setiap titik data ke sebuah Cluster setelah algoritma dan jumlah Cluster ditetapkan. Proses ini dilakukan hingga memperoleh konvergensi (proses optimum), algoritma umumnya secara iteratif (berulang) mengalokasikan titik data ke Cluster dan memperbarui pusat Cluster.

5. Evaluasi Hasil

Hasil algoritma pengelompokan kemudian dinilai untuk melihat apakah klaster masuk akal dan dapat menawarkan wawasan yang bermanfaat bagi pemangku kepentingan. Umumnya dapat memanfaatkan proses visualisasi seperti plot scatter atau heat map untuk mempermudah menemukan wawasan dan performa Clustering.

Pengaplikasian Clustering

Clustering memiliki aplikasi dalam banyak bidang seperti Pemasaran, Kesehatan, Keuangan, Media sosial hingga Analisis Gambar dan Video.

1. Pemasaran

Clustering sering digunakan untuk membagi klien menjadi beberapa kelompok sesuai dengan preferensi, tindakan, dan demografi mereka. Misalnya, sebuah bisnis dapat menggunakan Clustering untuk mengkategorikan konsumen berdasarkan kebiasaan berbelanja mereka, seperti seberapa sering mereka datang, apa yang mereka beli, dan berapa banyak yang mereka belanjakan.

2. Kesehatan

Data medis dapat dikelompokkan untuk menemukan kelompok penyakit dan tren dalam industri perawatan kesehatan. Misalnya, menggunakan pengelompokan untuk mengkategorikan individu berdasarkan gejala, latar belakang medis, dan karakteristik kesehatan lainnya.

3. Keuangan

Dengan melihat pola ganjil atau outlier dalam data, pengelompokan dapat digunakan di sektor keuangan untuk menemukan kecurangan dalam transaksi keuangan. Misalnya transaksi kartu kredit yang dikelompokkan berdasarkan lokasi, waktu, dan karakteristik lainnya. Kemudian, setiap transaksi yang menyimpang dari standar dapat ditandai untuk pemeriksaan tambahan.

4. Media Sosial

Pengguna di media sosial dapat dikelompokkan menurut minat dan tindakan mereka menggunakan Clustering. Misalnya, pengelompokan dapat digunakan untuk mengklasifikasikan pengguna Twitter ke dalam grup berdasarkan akun yang mereka ikuti dan subjek yang mereka tweet.

5. Analisis Gambar dan Video

Pengelompokan dapat digunakan dalam analisis gambar dan video untuk mengelompokkan gambar atau video yang serupa. Misalnya, pengelompokan dapat digunakan untuk mengelompokkan foto binatang menurut spesies atau film menurut isinya.

Tantangan dan Keterbatasan Clustering

Meskipun pengelompokan merupakan metode yang efektif untuk menemukan pola dan korelasi dalam data, ada beberapa tantangan dan batasan yang harus diperhatikan.

1. Memilih Algoritma yang Tepat

Salah satu tantangan utama dalam pengelompokan adalah memilih algoritma yang tepat untuk data dan masalah yang sedang dipecahkan. Tidak ada satupun algoritma yang berfungsi paling baik dalam segala situasi, sebaliknya banyak algoritma memiliki kelebihan dan kekurangan yang bervariasi. Pemilihan algoritma yang tidak tepat dapat menghasilkan hasil pengelompokan di bawah standar dan wawasan yang keliru.

2. Menangani Data Noisy

Tantangan lain dalam pengelompokan adalah menangani data noisy yang dapat berupa kesalahan input, outlier hingga informasi yang tidak relevan. Data noisy relatif akan mendistorsi hasil Clustering dan menghasilkan wawasan yang keliru. Masalah ini dapat dikurangi dengan penggunaan teknik preprocessing termasuk pembersihan data, identifikasi outlier dan pemilihan fitur.

3. Menangani Data Dimensi Tinggi

Clustering data yang dimensi tinggi (memiliki fitur atau kolom yang banyak) dapat menjadi masalah karena sulit untuk mengenali pola yang signifikan ketika jumlah karakteristik atau dimensi melebihi jumlah titik data. Teknik untuk mengurangi jumlah dimensi dan meningkatkan efektivitas hasil Clustering meliputi analisis komponen utama alias Principal Component Analysis  (PCA) dan t-SNE, yang intinya kita berusaha mengurangi kolom tetapi tetap memperhatikan informasi di dalamnya.

4. Menemukan Jumlah Cluster yang Tepat

Menemukan jumlah Cluster yang tepat merupakan kesulitan dalam Clustering. Hal ini seringkali merupakan pilihan subyektif, dan teknik lain seperti pendekatan elbow atau analisis siluet. Pemilihan jumlah Cluster yang salah akan menimbulkan ketidakakuratan dan hasil pengelompokan di bawah standar sehingga berpotensi memberikan wawasan yang keliru.

5. Evaluasi

Mengevaluasi temuan Clustering bisa jadi sulit, terutama saat bekerja dengan data yang rumit atau berdimensi tinggi. Pola dan keterkaitan data dapat diungkap dengan Clustering, tetapi dapat menjadi tantangan untuk memahami pola ini dan memastikan relevansinya. Visualisasi dan pengetahuan domain seperti bisnis atau pengetahuan terkait dapat menjadi solusi dari tantangan evaluasi.

Kesimpulan

Kita telah mengenal Clustering data, proses mengelompokkan data tidak berlabel dengan mempertimbangkan kemiripan antar data. Kita juga sudah mengenal 4 jenis Clustering, yaitu K means Clustering, Hierarchical Clustering dan Density—Based Clustering serta Partitioning Around Medoids (PAM) Clustering.

Kita juga sudah mengenal 5 langkah proses Clustering, yaitu preprocessing data, memilih jumlah Cluster, memilih teknik Clustering, menjalankan algoritma Clustering, dan evaluasi Hasil. Selain itu, kita juga sudah mengetahui aplikasi Clustering dalam bidang Pemasaran, Kesehatan, Keuangan, Media sosial hingga Analisis Gambar dan Video.

Terakhir kita membahas tantangan dan keterbatasan Clustering, yaitu terkait memilih algoritma yang tepat, menangani data noisy, menangani data dimensi tinggi, menemukan jumlah Cluster yang tepat hingga evaluasi.Clustering sebagai salah satu bagian Machine Learning dapat memberikan benefit bagi berbagai bidang termasuk bidang perusahaan Anda.

Jika Anda tertarik mempelajari berbagai hal terkait Machine Learning, termasuk Clustering dan pemanfaatannya lebih lanjut hingga berkarir di dunia data menjadi seorang Data Scientist handal, Anda dapat mengikuti Bootcamp Algoritma Data Science yang memiliki serangkaian program yang dapat membantu Anda menguasai dunia data di industri yang Anda minati. Yuk, bergabung bersama Algoritma sekarang!

TONI ANDREAS SUSANTO


Jika Anda tertarik dengan artikel seputar Insight Data Science dan beragam topik menarik lainnya, jadilah orang pertama yang membacanya dengan melakukan subscribe blog dibawah ini!

Get Free Learning Resources

* indicates required


Insights