4 Jenis Exploratory Data Analysis dan Tools Terbaiknya

Data analyst perlu tahu jenis Exploratory Data Analysis dan tools terbaik dari berbagai metodenya agar dapat menjalankan pekerjaan dengan baik.

Bunga Dea Laraswati
Bunga Dea Laraswati

Table of Contents

Anda tertarik menjadi seorang data analyst? Jika ya, pertama-tama, Anda harus memahami apa itu EDA dan beragam jenis Exploratory Data Analysis. EDA adalah sebuah pendekatan untuk menganalisis data menggunakan teknik visual. Pendekatan ini merupakan bagian dari proses data science yang digunakan untuk menemukan tren, pola, atau mengecek hipotesis atau asumsi dengan bantuan ringkasan statistik dan representasi grafis.

Sekarang ini sudah banyak Exploratory Data Analysis tools untuk membantu analyst memahami data yang ada. Tools EDA yang paling sering digunakan adalah Phyton dan R. Bagi analyst, sangat penting untuk memilih Exploratory Data Analysis tools terbaik yang sesuai. Sebab, pemahaman konteks dan data menjadi hal yang harus dikuasai untuk menjawab berbagai masalah dasar sampai lanjutan yang ditemui.

Ragam Jenis EDA

EDA memiliki empat ragam, yaitu univariate grafis, multivariate grafis, univariate non grafis dan multivariate non grafis. Secara umum, ragam jenis atau teknik EDA terbagi menjadi dua, yaitu grafis atau kuantitatif (non grafis). Metode grafis melibatkan ringkasan data dalam bentuk diagram atau visual, sebaliknya dalam metode kuantitatif (non grafis). Metode kuantitatif melibatkan penghitungan dari ringkasan statistik. Keduanya kemudian dipecah kembali menjadi metode univariate dan multivariate.

Selain univariate dan multivariate, sebenarnya masih ada satu jenis Exploratory Data Analysis lagi, yaitu analisis bivariate, data yang digunakan adalah dua variabel. Analisis datanya berkaitan dengan sebab, akibat, dan hubungan di dalamnya. Tujuan utama analisis bivariate adalah untuk menemukan hubungan antara kedua variabel.

1. Univariate Non-Graphical

Univariate mempertimbangkan satu variabel atau kolom data satu waktu, sedangkan multivariate menggunakan lebih dari dua variabel sekaligus untuk menemukan berbagai relasi dalam data tersebut.  Salah satu bentuk analisis data paling sederhana dari empat jenis EDA adalah univariate non-graphical atau non grafis. Pasalnya, data yang dianalisis hanya terdiri dari satu variabel saja. Tujuan utama dari univariate non grafis adalah untuk menjelaskan data dan menemukan pola.

2. Multivariate Non-Graphical

Multivariate menggunakan dua atau lebih variabel untuk menemukan korelasi atau hubungan dalam data yang dikaji. Univariate non grafis bertujuan untuk menemukan pola dan menjelaskan data dengan satu variabel. Sementara itu, multivariate non grafis berfokus untuk menemukan hubungan antara berbagai variabel melalui cross tabulasi atau statistik.

3. Univariate Graphical

Jauh berbeda dari non grafis, metode grafis memberikan gambaran penuh dan lengkap. Di dalamnya, terdiri dari tiga metode utama untuk analisis, yaitu histogram, boxplot, stem, dan leaf plot. Histogram sendiri bentuk grafiknya mirip dengan bar chart, tapi sedikit berbeda seperti tidak ada gap antara bar atau bin. Tinggi bin umumnya nilai frekuensi dan area bin berbanding lurus dengan frekuensi.

Metode histogram menggambarkan jumlah total kasus untuk rentang nilai tertentu. Stem and leaf plots menggambarkan bentuk dari distribusi. Di sisi lain, boxplot secara grafis menggambarkan ringkasan dari minimum, median kuartil pertama, ketiga, dan maksimum.

4. Multivariate Graphical

Ketika data yang digunakan ada tiga atau lebih, berarti ini termasuk dalam kategori multivariate. Jenis EDA ini menunjukkan hubungan antara tiga atau lebih banyak data menggunakan bar chart. Di setiap grup menunjukkan level dari variabel dan dalam tiap bar dalam grup tersebut menggambarkan level atau variabel lain. Bentuk grafis lain yang biasanya digunakan untuk metode ini adalah scatterplot, run chart, heat map, dan bubble chart.

Exploratory Data Analysis (EDA) Tools

Python dan bahasa pemrograman R merupakan Exploratory Data Analysis tools yang paling sering digunakan oleh data analyst. Seorang analis data perlu memahami berbagai jenis Exploratory Data Analysis tools agar bisa memilih dan menggunakan alat yang tepat.

1. Python

Banyak yang mengatakan bahwa Python merupakan tools yang mudah dan memiliki daya tarik tersendiri lewat binding dan typing-nya yang dinamis. Selain itu, Python juga dapat digunakan untuk berbagai fungsi lainnya, mulai dari scripting, glue language, dan masih banyak lagi.

2. R

Di sisi lain, bahasa pemrograman R digunakan oleh data scientist dan ahli statistik untuk mengembangkan observasi statistik juga analisis data. R merupakan bahasa pemrograman yang terbuka untuk siapa saja dan menyediakan lingkungan bebas software untuk komputasi statistik dan grafik yang didukung oleh R foundation untuk statistical computing.

Kesimpulan

Seorang analis harus memilih metode EDA dan Exploratory Data Analysis tools yang sesuai sebelum melakukan pengkajian lebih dalam. Lakukan berbagai langkah maupun pendekatan yang sesuai dan dibutuhkan agar dapat benar-benar memahami data yang ada.  Selalu cek berbagai kesalahan, pelajari tentang distribusi variabel lebih dalam, dan juga hubungan berbagai variabel.

Tertarik menjadi data analyst? Sebelum terjun ke ranah tersebut, pelajari lebih dalam terkait data science dan Exploratory Data Analysis tools di Algoritma Data Science School. Tersedia berbagai macam kelas yang dapat disesuaikan dengan level kemampuan dan kebutuhan Anda.

Referensi:

  • geeksforgeeks - Exploratory Data Analysis (EDA) Types and Tools (diakses pada 12 June 2022)
  • Analyticsindiamag - Exploratory Data Analysis: Functions, Types, & Tools (diakses pada 12 June 2022)
  • geeksforgeeks - What is Exploratory Data Analysis? (diakses pada 12 June 2022)

Get Free Learning Resources

* indicates required

Insights

Bunga Dea Laraswati

Sr. Writer Algoritma Data Science School