Algoritma Naive Bayes: Definisi dan Contoh Penerapannya

Mengenal apa itu algoritma Naive Bayes yang kerap digunakan dalam pelatihan data machine learning. Seperti apa contoh penerapannya?

Team Algoritma
Team Algoritma

Table of Contents

Naive Bayes adalah kumpulan algoritma yang disusun berdasarkan Teorema Bayes. Nah, Teorema Bayes sendiri merupakan model matematika dengan dasar statistik dan probabilitas. Meski bukan suatu hal yang baru, algoritma ini tetap relevan dengan machine learning (ML) yang berkembang belakangan ini, terutama yang masih berkaitan dengan masalah NLP atau natural language processing. Namun, sebenarnya apa itu algoritma Naive Bayes?

Apa Itu Naive Bayes?

Naive Bayes, atau kadang disebut Naïve Bayes Classifier, adalah algoritma machine learning probabilistik yang digunakan dalam berbagai macam tugas klasifikasi. Untuk bisa memahami algoritma ini, berikut rumus umum Teorema Bayes yang menjadi dasar dari Naive Bayes berikut:

Sederhananya, Teorema Bayes membantu Anda untuk bisa mengetahui sebuah probabilitas dengan menghitung probabilitas lain yang masih berkaitan. Setelah diterapkan pada algoritma Naive Bayes, rumus ini menghasilkan suatu asumsi dasar. Dalam melihat sebuah fitur, algoritma ini selalu berasumsi bahwa fitur tersebut mandiri, setara, dan memiliki kontribusi pada hasil.

Tujuan dan Contoh Penerapan Naive Bayes

Meski terkadang tampak terlalu disederhanakan, metode klasifikasi dengan Naive Bayes ini amat relevan dengan berbagai situasi di dunia nyata. Misalnya dalam hal klasifikasi dokumen atau penyaringan pesan sampah (spam). Ini karena Naive Bayes hanya membutuhkan sejumlah kecil data yang dilatih untuk bisa memperkirakan parameter yang dibutuhkan.

Contoh penerapannya pun sangat luas. Salah satu contoh yang kerap Anda nikmati hasilnya adalah prakiraan cuaca (weather forecasting). Dengan melihat probabilitas suhu, kelembapan, dan tekanan udara, maka institusi seperti BMKG dapat memprediksi cuaca pada tanggal tertentu, apakah cerah, berawan, atau justru hujan deras.

Selain itu, Naive Bayes juga diimplementasikan dalam analisis tindak penipuan internal perusahaan. Dari data tagihan yang diajukan oleh karyawan untuk penggantian pengeluaran (reimburse), perusahaan bisa memprediksi kemungkinan penipuan. Mereka mempelajari probabilitas reimburse yang sesuai untuk kemudian memprediksi probabilitas reimburse yang dilebih-lebihkan.

Tipe-tipe Naive Bayes Classifier

Ada tiga tipe Naive Bayes Classifier yang dapat diterapkan dalam data science, tepatnya dalam pelatihan machine learning. Berikut penjelasan untuk masing-masing tipe:

1. Multinomial Naive Bayes

Tipe yang pertama adalah Multinomial Naive Bayes. Tipe ini banyak digunakan untuk menyelesaikan masalah klasifikasi dokumen. Algoritma ini akan membantu Anda mengetahui kategori suatu dokumen, apakah termasuk dokumen penting, dokumen yang dapat dialihkan, atau justru dokumen sampah yang berbahaya. Selain itu, bisa juga digunakan untuk mengelompokkan dokumen berdasarkan tema tertentu seperti olahraga, gaya hidup, atau sosial-politik.

Fitur yang digunakan oleh classifier adalah frekuensi kata yang ada dalam dokumen. Misalnya, jika suatu dokumen terus menerus menampilkan kata “sepak bola”, “liga”, “pertandingan”, maka bisa dimasukkan dalam kategori olahraga.

2. Bernoulli Naive Bayes

Bernoulli Naive Bayes sebenarnya mirip dengan Multinomial Naive Bayes. Perbedaannya terletak pada fitur atau prediktornya. Alih-alih menggunakan frekuensi kata, algoritma ini menggunakan variabel boolean. Parameter yang kita gunakan untuk memprediksi variabel kelas hanya mengambil nilai ya atau tidak.

Misalnya, untuk menentukan suatu dokumen masuk dalam kategori olahraga, bisa dengan mengidentifikasi apakah kata “pertandingan” muncul atau tidak. Jika kata tersebut muncul, maka dokumen secara otomatis diklasifikasikan sebagai dokumen tentang olahraga. Begitu pun sebaliknya.

3. Gaussian Naive Bayes

Terakhir ada Gaussian Naive Bayes. Ciri khasnya adalah ketika fitur atau prediktor mengambil nilai yang kontinu (tidak diskrit). Tiap fitur diasumsikan telah tersalurkan menurut distribusi Gaussian. Saat data diplot, maka akan menampilkan sebuah kurva dengan bentuk lonceng yang simetris. Kurva tersebut menunjukkan rata-rata nilai fitur.

Kesimpulan

Algoritma Naive Bayes sebagian besar digunakan dalam penyaringan pesan spam, analisis sentimen, hingga sistem rekomendasi. Salah satu alasan utama penggunaan algoritma ini adalah karena implementasinya yang cepat dan mudah. Namun, sayangnya, Naive Bayes membutuhkan fitur atau prediktor independen. Padahal dalam kenyataannya, prediktor lebih sering bersifat dependen. Otomatis hal ini dapat menghambat kinerja.

Naive Bayes berhubungan erat dengan klasifikasi dan machine learning. Algoritma ini juga kerap digunakan dalam sistem rekomendasi karena dinilai efisien. Apakah Anda berniat merancang sistem rekomendasi untuk mengoptimalkan kinerja bisnis? Mempelajari data science adalah solusinya. Tidak perlu khawatir, kini telah tersedia kelas data science dengan berbagai tingkatan di Algoritma Data Science School. Kami juga menawarkan pelatihan untuk meningkatkan skill karyawan Anda. Untuk informasi mengenai pendaftaran, silakan klik di sini!

Referensi:

  • Geeks for Geeks – Naive Bayes Classifiers (diakses 29 Juli 2022)
  • Towards Data Science – Naive Bayes Classifiers (diakses 29 Juli 2022)
  • KDnuggets - Naïve Bayes Algorithm: Everything You Need to Know (diakses 29 Juli 2022)
  • Dataversity – What is Naive Bayes Classification? (diakses 29 Juli 2022)

Get Free Learning Resources

* indicates required
Insights