8 Konsep Statistik yang Harus Dipahami Data Scientist
Terdapat beberapa konsep dasar yang menjadi pondasi utama dalam dunia data science. Salah satu konsep tersebut adalah statistik. Statistik tidak hanya menyediakan alat, metode, dan prinsip yang penting bagi seorang data scientist untuk menggali, menganalisis, dan mengungkap insight berharga dari data, tetapi juga membantu mereka untuk memiliki pemahaman yang lebih mendalam terhadap data tersebut. Pemahaman akan konsep statistik akan mendorong para data scientist untuk membuat keputusan yang sesuai untuk memecahkan masalah kompleks.
Pada blog ini, kita akan membahas 8 konsep statistik yang menjadi landasan penting bagi seorang data scientist. Kita akan menjelajahi bagaimana konsep-konsep tersebut berkontribusi dalam data science.
Descriptive Statistics
Statistik deskriptif merupakan cabang statistik yang berkaitan dengan pengumpulan dan penyajian suatu data. Tujuan utama dari statistik deskriptif adalah untuk memberikan gambaran data yang jelas dan ringkas sehingga mudah untuk melakukan interpretasi dan pemahaman terhadap data.
- Rata-rata: Mengukur nilai rata-rata dalam distribusi data numerik
- Median: Merupakan nilai tengah dari data
- Variansi: Mengukur sebaran data
- Standar Deviasi: Akar kuadrat dari variansi, memberikan ukuran yang lebih mudah diinterpretasikan tentang variasi data
- Persentil: Menunjukkan persentase titik data yang sama atau kurang dari nilai tertentu dalam kumpulan data
- IQR (Rentang Interkuartil): Mengukur jarak antara kuartil pertama dan kuartil ketiga yang membantu mengidentifikasi nilai tengah dari 50% data
- Skewness: Menggambarkan ketidaksimetrisan dalam distribusi data
- Kurtosis: Mengukur keberadaan ekor dalam distribusi data
- PDF (Fungsi Kerapatan Peluang): Menggambarkan kemungkinan bahwa variabel acak kontinu akan mengambil nilai tertentu dalam rentang tertentu.
- CDF (Fungsi Kerapatan Kumulatif): Menyatakan probabilitas kumulatif bahwa variabel acak kurang dari atau sama dengan nilai tertentu
Inferential Statistics
Statistik inferensial adalah cabang statistik yang melibatkan penggunaan data untuk membuat inferensi, prediksi, atau generalisasi tentang populasi berdasarkan data sampel. Statistik inferensial dapat membantu Anda untuk menyimpulkan atau membuat pernyataan tentang kelompok yang lebih besar (populasi) dengan menganalisis sub kelompok yang lebih kecil (sampel) yang merupakan representatif dari kelompok besar tersebut.
- Pengujian Hipotesis: Merumuskan hipotesis tentang parameter populasi (misalnya, rata-rata populasi) dan menggunakan data sampel untuk menguji apakah hipotesis ini didukung atau ditolak
- Estimasi: Mengestimasi parameter populasi berdasarkan data sampel
- Interval Kepercayaan: Menyediakan rentang nilai dimana kemungkinan di dalamnya terdapat parameter populasi
- Uji Statistik: Beberapa contoh uji statistik yang sering digunakan adalah uji t, uji chi-kuadrat, ANOVA, dan analisis regresi untuk membandingkan kelompok, menilai hubungan dan membuat prediksi
Regression Analysis
Analisis regresi adalah teknik statistik yang digunakan dalam data science yang mengukur hubungan antara satu atau lebih variabel independen (prediktor) dan variabel dependen (hasil) untuk membuat prediksi atau memahami dampak prediktor terhadap hasil.
- Regresi Linear: Menghitung hubungan antara variabel dependen dengan satu atau lebih variabel independen dengan memasangkan persamaan linear pada data
- Regresi Berganda: Memasukkan dua atau lebih variabel independen untuk memprediksi satu variabel dependen
- Regresi Polinomial: membuat hubungan antara variabel yang tidak linear, model ini sesuai dengan persamaan polinomial (misalnya, kuadrat atau kubik) pada data.
- Regresi Ridge dan Regresi Lasso: Merupakan variasi dari regresi linear yang menggabungkan teknik regularisasi untuk mengatasi multikolinearitas dan mencegah overfitting.
Data Sampling
Data sampling atau pemilihan sampel merupakan sebuah teknik statistik yang digunakan dalam ilmu data untuk memilih subset dari titik data dari kumpulan data yang lebih besar. Tujuan dari pengambilan sampel adalah untuk membuat analisis data menjadi lebih mudah dikelola, hemat biaya, dan praktis, terutama saat bekerja dengan kumpulan data yang besar atau ekstensif.
- Pengambilan Sampel Acak
Dalam metode ini, setiap item atau anggota dalam populasi memiliki peluang yang sama untuk dipilih sebagai sampel. Ini mengurangi bias dan memastikan bahwa sampel tersebut mewakili populasi.
- Pengambilan Sampel Berstrata
Dalam metode ini, populasi dibagi menjadi sub kelompok atau strata berdasarkan karakteristik tertentu (misalnya, usia, jenis kelamin, lokasi). Kemudian, pengambilan sampel acak dilakukan di dalam setiap stratum untuk memastikan representasi dari semua kelompok.
- Pengambilan Sampel Sistematik
Dalam metode ini, titik awal dipilih secara acak, dan kemudian setiap item "k" dimasukkan dalam sampel. Metode ini lebih sederhana dan seringkali lebih efisien daripada pengambilan sampel acak sederhana.
Dimension reduction
Reduksi dimensi adalah salah satu aspek kunci dalam analisis data yang melibatkan pengendalian dan pengurangan jumlah variabel acak yang ada dalam dataset. Tujuan utama dari reduksi dimensi adalah untuk mempermudah pemrosesan data dengan mengatur parameter dan fitur-fitur yang relevan dari dataset. Dengan cara ini, data scientist dapat menghilangkan variabel yang mungkin tidak memberikan kontribusi signifikan terhadap pemahaman atau prediksi data.
Salah satu teknik yang umum digunakan dalam reduksi dimensi adalah analisis faktor atau analisis komponen utama (PCA). Analisis faktor bertujuan untuk mengidentifikasi hubungan dan pola antara variabel-variabel dalam dataset, yang memungkinkan pemilihan variabel yang paling berpengaruh.
Feature Selection
Feature selection atau teknik seleksi fitur merupakan teknik statistik yang memandu dalam pemilihan fitur (variabel) yang relevan untuk pemodelan prediktif. Teknik-teknik seperti pentingnya fitur dan analisis korelasi membantu data scientist untuk memilih faktor-faktor yang paling berpengaruh terhadap variabel.
- Pentingnya Fitur Berdasarkan Pohon Keputusan (Tree-Based Feature Importance)
Pohon keputusan dan model ensemble, misalnya Random Forest dan Gradient Boosting dapat memberikan skor pentingnya fitur, yang dapat digunakan untuk memilih fitur yang paling penting.
- Seleksi Fitur Berdasarkan Korelasi (Correlation-Based Feature Selection)
Metode ini memilih fitur berdasarkan korelasinya dengan variabel target dan menghilangkan fitur yang redundan atau sangat berkorelasi.
Hypothesis testing
Pengujian hipotesis merupakan sebuah proses yang bertujuan untuk untuk memvalidasi atau menentukan apakah suatu asumsi atau hipotesis yang diajukan dapat diterima atau ditolak berdasarkan bukti data yang ada. Pengujian hipotesis dilakukan untuk mengevaluasi apakah perbedaan atau hubungan antara variabel-variabel tertentu dalam dataset memiliki makna statistik atau hanya terjadi secara kebetulan.
Uji A/B merupakan salah satu bentuk pengujian hipotesis yang umum digunakan. Dalam uji A/B, dua versi atau pendekatan yang berbeda (biasanya disebut sebagai A dan B) diimplementasikan dalam suatu percobaan, dan data yang dihasilkan digunakan untuk menjawab pertanyaan atau mengambil keputusan.
Statistical Evaluation on Model
Ketika membuat model, perlu dilakukan evaluasi untuk mengukur secara kualitatif seberapa baik model tersebut bekerja. Hal ini melibatkan berbagai metrik dan uji statistik.
- Akurasi: Mengukur proporsi instansi yang berhasil diklasifikasikan dengan benar dalam sebuah model klasifikasi
- Mean Absolute Error (MAE): Mengukur rata-rata selisih absolut antara nilai-nilai yang diprediksi dan nilai-nilai aktual
- Mean Squared Error (MSE): Menghitung rata-rata selisih kuadrat antara nilai-nilai yang diprediksi dan nilai-nilai aktual
- Root Mean Squared Error (RMSE): Merupakan akar kuadrat dari MSE, memberikan metrik yang dapat diinterpretasikan dalam unit yang sama dengan variabel target.
- R-squared (R²) atau Koefisien Determinasi: Mengukur proporsi varians dalam variabel dependen yang dijelaskan oleh variabel independen dalam model
- Area di Bawah Kurva Karakteristik Operasi Penerima (ROC AUC): Mengukur area di bawah kurva karakteristik operasi penerima, yang memplotkan trade-off antara tingkat positif benar (recall) dan tingkat positif palsu pada berbagai ambang batas
- Matriks Konfusi: Merupakan sebuah tabel yang menunjukkan jumlah positif benar, negatif benar, positif palsu, dan negatif palsu untuk memberikan wawasan detail tentang kinerja model klasifikasi
- Presisi: Mengukur rasio prediksi positif benar terhadap total prediksi positif, menekankan kemampuan model untuk menghindari positif palsu
- Recall: Mengukur rasio positif benar terhadap total positif aktual, menekankan kemampuan model untuk menemukan semua instansi yang relevan.
- Skor F1: Harmonik mean dari presisi dan recall, menawarkan keseimbangan antara kedua metrik tersebut
Kesimpulan
Konsep statistik memegang peranan penting dalam data science dengan memberikan fondasi yang kuat untuk memahami, menganalisis, dan mengekstraksi insight berharga dari data. Dalam era di mana data menjadi semakin dominan, pemahaman mendalam terhadap konsep-konsep statistik bukan hanya penting, melainkan juga menjadi kunci dalam mengambil keputusan yang cerdas dan efektif. Dengan penguasaan konsep statistik, para profesional data science memiliki kemampuan yang lebih kuat untuk menghadapi tantangan analisis data yang semakin kompleks dan mendalam, serta meraih kesuksesan dalam menguraikan makna dari setiap dataset yang mereka hadapi.
Jika Anda tertarik untuk mempelajari lebih jauh mengenai konsep statistik dalam data science, serta ingin menjelajahi lebih dalam tentang data science dan penerapannya dalam industri serta ingin mengubahnya menjadi karir yang cemerlang hingga menjadi #JadiTalentaData, maka Anda dapat mendaftar dalam Bootcamp Algoritma Data Science. Bootcamp ini menyajikan serangkaian program yang akan membimbing Anda untuk memahami seluruh aspek dunia data dalam industri yang Anda minati. Tunggu apa lagi, mari bergabung dengan Algoritma sekarang!
MICHELLE INTAN HANDA