8 Konsep Statistik yang Harus Dipahami Data Scientist

Konsep statistik memegang peranan penting dalam data science dengan memberikan fondasi yang kuat untuk memahami, menganalisis, dan mengekstraksi insight berharga dari data.

Bunga Dea Laraswati

15 Feb 2024

Terdapat beberapa konsep dasar yang menjadi pondasi utama dalam dunia data science. Salah satu konsep tersebut adalah statistik. Statistik tidak hanya menyediakan alat, metode, dan prinsip yang penting bagi seorang data scientist untuk menggali, menganalisis, dan mengungkap insight berharga dari data, tetapi juga membantu mereka untuk memiliki pemahaman yang lebih mendalam terhadap data tersebut. Pemahaman akan konsep statistik akan mendorong para data scientist untuk membuat keputusan yang sesuai untuk memecahkan masalah kompleks.

Pada blog ini, kita akan membahas 8 konsep statistik yang menjadi landasan penting bagi seorang data scientist. Kita akan menjelajahi bagaimana konsep-konsep tersebut berkontribusi dalam data science.

Descriptive Statistics

Statistik deskriptif merupakan cabang statistik yang berkaitan dengan pengumpulan dan penyajian suatu data. Tujuan utama dari statistik deskriptif adalah untuk memberikan gambaran data yang jelas dan ringkas sehingga mudah untuk melakukan interpretasi dan pemahaman terhadap data.

Rata-rata: Mengukur nilai rata-rata dalam distribusi data numerik
Median: Merupakan nilai tengah dari data
Variansi: Mengukur sebaran data
Standar Deviasi: Akar kuadrat dari variansi, memberikan ukuran yang lebih mudah diinterpretasikan tentang variasi data
Persentil: Menunjukkan persentase titik data yang sama atau kurang dari nilai tertentu dalam kumpulan data
IQR (Rentang Interkuartil): Mengukur jarak antara kuartil pertama dan kuartil ketiga yang membantu mengidentifikasi nilai tengah dari 50% data
Skewness: Menggambarkan ketidaksimetrisan dalam distribusi data
Kurtosis: Mengukur keberadaan ekor dalam distribusi data
PDF (Fungsi Kerapatan Peluang): Menggambarkan kemungkinan bahwa variabel acak kontinu akan mengambil nilai tertentu dalam rentang tertentu.
CDF (Fungsi Kerapatan Kumulatif): Menyatakan probabilitas kumulatif bahwa variabel acak kurang dari atau sama dengan nilai tertentu

Inferential Statistics

Statistik inferensial adalah cabang statistik yang melibatkan penggunaan data untuk membuat inferensi, prediksi, atau generalisasi tentang populasi berdasarkan data sampel. Statistik inferensial dapat membantu Anda untuk menyimpulkan atau membuat pernyataan tentang kelompok yang lebih besar (populasi) dengan menganalisis sub kelompok yang lebih kecil (sampel) yang merupakan representatif dari kelompok besar tersebut.

Pengujian Hipotesis: Merumuskan hipotesis tentang parameter populasi (misalnya, rata-rata populasi) dan menggunakan data sampel untuk menguji apakah hipotesis ini didukung atau ditolak
Estimasi: Mengestimasi parameter populasi berdasarkan data sampel
Interval Kepercayaan: Menyediakan rentang nilai dimana kemungkinan di dalamnya terdapat parameter populasi
Uji Statistik: Beberapa contoh uji statistik yang sering digunakan adalah uji t, uji chi-kuadrat, ANOVA, dan analisis regresi untuk membandingkan kelompok, menilai hubungan dan membuat prediksi

Regression Analysis

Analisis regresi adalah teknik statistik yang digunakan dalam data science yang mengukur hubungan antara satu atau lebih variabel independen (prediktor) dan variabel dependen (hasil) untuk membuat prediksi atau memahami dampak prediktor terhadap hasil.

Regresi Linear: Menghitung hubungan antara variabel dependen dengan satu atau lebih variabel independen dengan memasangkan persamaan linear pada data
Regresi Berganda: Memasukkan dua atau lebih variabel independen untuk memprediksi satu variabel dependen
Regresi Polinomial: membuat hubungan antara variabel yang tidak linear, model ini sesuai dengan persamaan polinomial (misalnya, kuadrat atau kubik) pada data.
Regresi Ridge dan Regresi Lasso: Merupakan variasi dari regresi linear yang menggabungkan teknik regularisasi untuk mengatasi multikolinearitas dan mencegah overfitting.

Data Sampling

Data sampling atau pemilihan sampel merupakan sebuah teknik statistik yang digunakan dalam ilmu data untuk memilih subset dari titik data dari kumpulan data yang lebih besar. Tujuan dari pengambilan sampel adalah untuk membuat analisis data menjadi lebih mudah dikelola, hemat biaya, dan praktis, terutama saat bekerja dengan kumpulan data yang besar atau ekstensif.

Pengambilan Sampel Acak

Dalam metode ini, setiap item atau anggota dalam populasi memiliki peluang yang sama untuk dipilih sebagai sampel. Ini mengurangi bias dan memastikan bahwa sampel tersebut mewakili populasi.

Pengambilan Sampel Berstrata

Dalam metode ini, populasi dibagi menjadi sub kelompok atau strata berdasarkan karakteristik tertentu (misalnya, usia, jenis kelamin, lokasi). Kemudian, pengambilan sampel acak dilakukan di dalam setiap stratum untuk memastikan representasi dari semua kelompok.

Pengambilan Sampel Sistematik

Dalam metode ini, titik awal dipilih secara acak, dan kemudian setiap item "k" dimasukkan dalam sampel. Metode ini lebih sederhana dan seringkali lebih efisien daripada pengambilan sampel acak sederhana.

Dimension reduction

Reduksi dimensi adalah salah satu aspek kunci dalam analisis data yang melibatkan pengendalian dan pengurangan jumlah variabel acak yang ada dalam dataset. Tujuan utama dari reduksi dimensi adalah untuk mempermudah pemrosesan data dengan mengatur parameter dan fitur-fitur yang relevan dari dataset. Dengan cara ini, data scientist dapat menghilangkan variabel yang mungkin tidak memberikan kontribusi signifikan terhadap pemahaman atau prediksi data.

Salah satu teknik yang umum digunakan dalam reduksi dimensi adalah analisis faktor atau analisis komponen utama (PCA). Analisis faktor bertujuan untuk mengidentifikasi hubungan dan pola antara variabel-variabel dalam dataset, yang memungkinkan pemilihan variabel yang paling berpengaruh.

Feature Selection

Feature selection atau teknik seleksi fitur merupakan teknik statistik yang memandu dalam pemilihan fitur (variabel) yang relevan untuk pemodelan prediktif. Teknik-teknik seperti pentingnya fitur dan analisis korelasi membantu data scientist untuk memilih faktor-faktor yang paling berpengaruh terhadap variabel.

Pentingnya Fitur Berdasarkan Pohon Keputusan (Tree-Based Feature Importance)

Pohon keputusan dan model ensemble, misalnya Random Forest dan Gradient Boosting dapat memberikan skor pentingnya fitur, yang dapat digunakan untuk memilih fitur yang paling penting.

Seleksi Fitur Berdasarkan Korelasi (Correlation-Based Feature Selection)

Metode ini memilih fitur berdasarkan korelasinya dengan variabel target dan menghilangkan fitur yang redundan atau sangat berkorelasi.

Hypothesis testing

Pengujian hipotesis merupakan sebuah proses yang bertujuan untuk untuk memvalidasi atau menentukan apakah suatu asumsi atau hipotesis yang diajukan dapat diterima atau ditolak berdasarkan bukti data yang ada. Pengujian hipotesis dilakukan untuk mengevaluasi apakah perbedaan atau hubungan antara variabel-variabel tertentu dalam dataset memiliki makna statistik atau hanya terjadi secara kebetulan.

Uji A/B merupakan salah satu bentuk pengujian hipotesis yang umum digunakan. Dalam uji A/B, dua versi atau pendekatan yang berbeda (biasanya disebut sebagai A dan B) diimplementasikan dalam suatu percobaan, dan data yang dihasilkan digunakan untuk menjawab pertanyaan atau mengambil keputusan.

Statistical Evaluation on Model

Ketika membuat model, perlu dilakukan evaluasi untuk mengukur secara kualitatif seberapa baik model tersebut bekerja. Hal ini melibatkan berbagai metrik dan uji statistik.

Akurasi: Mengukur proporsi instansi yang berhasil diklasifikasikan dengan benar dalam sebuah model klasifikasi
Mean Absolute Error (MAE): Mengukur rata-rata selisih absolut antara nilai-nilai yang diprediksi dan nilai-nilai aktual
Mean Squared Error (MSE): Menghitung rata-rata selisih kuadrat antara nilai-nilai yang diprediksi dan nilai-nilai aktual
Root Mean Squared Error (RMSE): Merupakan akar kuadrat dari MSE, memberikan metrik yang dapat diinterpretasikan dalam unit yang sama dengan variabel target.
R-squared (R²) atau Koefisien Determinasi: Mengukur proporsi varians dalam variabel dependen yang dijelaskan oleh variabel independen dalam model
Area di Bawah Kurva Karakteristik Operasi Penerima (ROC AUC): Mengukur area di bawah kurva karakteristik operasi penerima, yang memplotkan trade-off antara tingkat positif benar (recall) dan tingkat positif palsu pada berbagai ambang batas
Matriks Konfusi: Merupakan sebuah tabel yang menunjukkan jumlah positif benar, negatif benar, positif palsu, dan negatif palsu untuk memberikan wawasan detail tentang kinerja model klasifikasi
Presisi: Mengukur rasio prediksi positif benar terhadap total prediksi positif, menekankan kemampuan model untuk menghindari positif palsu
Recall: Mengukur rasio positif benar terhadap total positif aktual, menekankan kemampuan model untuk menemukan semua instansi yang relevan.
Skor F1: Harmonik mean dari presisi dan recall, menawarkan keseimbangan antara kedua metrik tersebut

Kesimpulan

Konsep statistik memegang peranan penting dalam data science dengan memberikan fondasi yang kuat untuk memahami, menganalisis, dan mengekstraksi insight berharga dari data. Dalam era di mana data menjadi semakin dominan, pemahaman mendalam terhadap konsep-konsep statistik bukan hanya penting, melainkan juga menjadi kunci dalam mengambil keputusan yang cerdas dan efektif. Dengan penguasaan konsep statistik, para profesional data science memiliki kemampuan yang lebih kuat untuk menghadapi tantangan analisis data yang semakin kompleks dan mendalam, serta meraih kesuksesan dalam menguraikan makna dari setiap dataset yang mereka hadapi.

Jika Anda tertarik untuk mempelajari lebih jauh mengenai konsep statistik dalam data science, serta ingin menjelajahi lebih dalam tentang data science dan penerapannya dalam industri serta ingin mengubahnya menjadi karir yang cemerlang hingga menjadi #JadiTalentaData, maka Anda dapat mendaftar dalam Bootcamp Algoritma Data Science. Bootcamp ini menyajikan serangkaian program yang akan membimbing Anda untuk memahami seluruh aspek dunia data dalam industri yang Anda minati. Tunggu apa lagi, mari bergabung dengan Algoritma sekarang!

MICHELLE INTAN HANDA

Insights

Bunga Dea Laraswati

Sr. Writer Algoritma Data Science School

8 Konsep Statistik yang Harus Dipahami Data Scientist

Table of Contents

Descriptive Statistics

Inferential Statistics

Regression Analysis

Data Sampling

Dimension reduction

Feature Selection

Hypothesis testing

Statistical Evaluation on Model

Kesimpulan

Bunga Dea Laraswati

Featured Posts

Davel’s Story: Ikut Beasiswa Algoritma, Kini Bekerja di BUMN

PT Taspen Tingkatkan Pengelolaan Asuransi Dana Pensiun dan Tabungan Hari Tua dengan Data Science

Program Beasiswa Algoritma Senilai Rp 8 Miliar untuk Mahasiswa Indonesia Kembali Dibuka

Table of Contents

Descriptive Statistics

Inferential Statistics

Regression Analysis

Data Sampling

Dimension reduction

Feature Selection

Hypothesis testing

Statistical Evaluation on Model

Kesimpulan

Get Free Learning Resources

Bunga Dea Laraswati

You might also like

Keunggulan TimeGPT dalam Time Series Analysis Paid Members Public

KNIME: Software Analytics Open-source Untuk Analisa Data Paid Members Public

Featured Posts

Davel’s Story: Ikut Beasiswa Algoritma, Kini Bekerja di BUMN

PT Taspen Tingkatkan Pengelolaan Asuransi Dana Pensiun dan Tabungan Hari Tua dengan Data Science

Program Beasiswa Algoritma Senilai Rp 8 Miliar untuk Mahasiswa Indonesia Kembali Dibuka