K Means Clustering: Cara Kerja dan Penggunaannya pada Bisnis

K Means Clustering adalah salah satu algoritma pembelajaran mesin yang bersifat tanpa pengawasan (unsupervised learning). Algoritma ini paling populer dan sederhana untuk mengelompokkan data ke dalam data cluster.

K Means Clustering tergolong sederhana sebab untuk mengelompokkan data ke dalam data cluster, ia hanya menggunakan vektor input untuk mengacu pada hasil yang diketahui atau diberi label. Untuk lebih tahu cara kerjanya, sekaligus penggunaannya pada bisnis, simak penjelasan berikut.

Pengertian K Means Clustering

K Means Clustering pada dasarnya adalah sebuah algoritma untuk mengelompokkan data  tidak berlabel alias data tanpa kategori maupun grup. Algoritma ini mengidentifikasi k jumlah centroid, kemudian mengalokasikan setiap titik data ke cluster terdekat. Sambil mengalokasikan setiap titik ke data cluster terdekat, algoritma ini menjaga centroid sekecil mungkin. ‘Means’ dalam algoritma ini mengacu pada rata-rata data, yakni menemukan centroid.

Cara Kerja K Means Clustering

Untuk mencapai tujuan mengelompokkan data tanpa label ke dalam data cluster, K Means Clustering mencari jumlah tetap (k) cluster dalam dataset. Adapun cluster yang dimaksudkan adalah kumpulan titik data yang dikumpulkan bersama karena mempunyai kesamaan tertentu.

Selanjutnya, Anda perlu menentukan nomor target k yang mengacu pada jumlah centroid yang dibutuhkan dalam dataset. Centroid adalah lokasi imajiner atau nyata yang mewakili pusat cluster. Nantinya, setiap titik data dialokasikan ke masing-masing cluster melalui pengurangan jumlah kuadrat dalam cluster.

Cara kerja K Means Clustering dalam memproses data pembelajaran dimulai dengan kelompok pertama dari centroid yang dipilih acak. Centroid yang dipilih pertama ini digunakan sebagai titik awal untuk setiap cluster. Setelah itu, algoritma ini melakukan perhitungan berulang (iteratif) untuk mengoptimalkan posisi centroid. K Means Clustering akan menghentikan pembuatan dan pengoptimalan cluster ketika centroid telah stabil atau jumlah iterasi yang ditentukan sudah tercapai.

Hal yang Perlu Dipertimbangkan

Sebelum menggunakan algoritma ini untuk mengelompokkan data tanpa label ke beberapa cluster terdekat, ada beberapa hal yang perlu Anda ketahui.

- Semakin Banyak Variabel, Semakin Jauh Titik Data

Saat sudah bekerja dengan data sungguhan, Anda akan menemukan berbagai variabel. Tidak cukup hanya dua variabel, ketika sudah berhadapan dengan data, Anda kemungkinan besar akan menemukan lebih banyak variabel.

Dalam algoritma K Means Clustering, semakin banyak variabel, maka akan semakin jauh titik datanya. Kalau hal ini terjadi, ada dua hal yang bisa dilakukan. Pertama, melakukan reduksi data agar variabel baru lebih kompak dengan data; atau kedua, melakukan beberapa seleksi variabel untuk membuang yang tidak penting.

- Nilai yang Lebih Tinggi Juga Lebih Berat

Dalam K Means Clustering, semakin tinggi nilai suatu data, maka akan semakin berat bobotnya. Dalam hal ini, data Anda tidak akan berada pada skala yang sama. Semakin tinggi nilainya, contohnya data harga pembelian terakhir, maka akan semakin berat bobotnya. Untuk mengatasi hal ini, Anda bisa melakukan normalisasi minmax atau normalisasi z-score.

- Bekerja Paling Baik pada Data Numerik

Pada dasarnya, K Means Clustering bekerja dengan menghitung jarak antara dua titik, sehingga Anda tidak bisa menggunakan pada variabel kategori. Algoritma ini bekerja optimal pada data numerik (angka). Namun, apabila Anda harus bekerja pada variabel kategori, maka perlu menghitung persentase kecocokan setiap variabel.

Penggunaan K Means Clustering pada Bisnis

K Means Clustering adalah algoritma yang sudah diterapkan pada banyak bisnis. Algoritma ini membantu pengelompokan data pada bisnis secara lebih cepat. Penggunaan K Means Clustering pada bisnis termasuk untuk:

  1. Membuat profil berdasarkan pemantauan aktivitas.
  2. Menentukan persona berdasarkan minat.
  3. Menciptakan segmen berdasarkan aktivitas pada website, aplikasi, maupun platform.
  4. Melakukan segmentasi berdasarkan riwayat pembelian.
  5. Mengelompokkan inventaris bisnis berdasarkan metrik manufaktur.
  6. Mengelompokkan inventaris bisnis menurut aktivitas penjualan produk jualan.
  7. Mengurutkan pengukuran sensor deteksi jenis aktivitas di sensor gerak.
  8. Mengurutkan pengukuran sensor gambar grup.
  9. Mengurutkan pengukuran sensor audio terpisah.
  10. Mengurutkan pengukuran sensor identifikasi kelompok dalam pemantauan kesehatan.
  11. Mendeteksi bot atau anomali dengan memisahkan grup aktivitas yang valid dari bot.
  12. Mendeteksi bot atau anomali dengan mengelompokkan aktivitas yang valid untuk membersihkan deteksi outlier.

Kesimpulan

K Means Clustering adalah algoritma yang digunakan untuk mengelompokkan data tanpa label ke cluster terdekat. Algoritma ini bekerja paling baik pada data numerik dibandingkan variabel. Perlu Anda ketahui bahwa semakin banyak variabel, akan semakin jauh titiknya, begitu pun dengan data yang nilainya tinggi akan berat bobotnya. Untuk mempelajari lebih lanjut penerapan algoritma ini pada bisnis, Anda bisa mengikuti kelas di Algoritma Data Science School. Informasi lebih lanjut, silakan klik di sini!

Referensi:

  • Oracle AI & Data Science Blog - Introduction to K-Means Clustering (diakses tanggal 19 Juli 2022)
  • Towards Data Science - Understanding K-Means Clustering in Machine Learning (diakses tanggal 19 Juli 2022).
  • Learn by Marketing - K Means Clustering (diakses tanggal 19 Juli 2022).

Get Free Learning Resources

* indicates required
Email Address *
First Name *