30 Public Dataset untuk Perbanyak Portofolio Data Science
Dataset dalam konteks portofolio data science adalah sekumpulan data yang digunakan untuk membuat model atau algoritma machine learning. Data tersebut bisa berupa tabel, teks, gambar, atau suara. Dataset yang baik harus relevan dengan masalah yang ingin dipecahkan. Data juga harus akurat, lengkap, dan tidak rusak. Jumlah data yang cukup besar juga penting agar hasil analisis atau model yang dibangun bisa lebih andal.
Ketika membangun portofolio data science, penting untuk mencantumkan sumber dataset yang digunakan agar memberikan kepercayaan dan kredibilitas analisis yang dilakukan. Sumber dataset dapat berasal dari Kaggle, Google Dataset Search, UCI Machine Learning Repository, VisualData, dan CMU Libraries, serta The Big Bad NLP Database.
Dengan memahami konsep dataset dalam portofolio data science, Anda dapat memilih dataset yang sesuai dan berkualitas tinggi untuk membangun model dan analisis yang kuat serta menunjukkan kemampuan data science Anda kepada calon pemberi kerja atau rekan kerja ataupun memberikan insight bermanfaat bagi orang lain. Oleh karena itu, tidak usah panjang lebar lagi kita akan memberikan berbagai referensi dataset !
Public Dataset untuk Machine Learning
1. IRIS Dataset
Dataset iris adalah dataset sederhana dan ramah pemula yang berisi informasi tentang kelopak bunga dan lebar sepal. Data dibagi menjadi tiga kelas, dengan 50 baris di setiap kelas. Data ini umumnya digunakan untuk pemodelan klasifikasi dan regresi.
2. MNIST Dataset
Ini adalah database digit tulisan tangan. Berisi 60.000 gambar pelatihan dan 10.000 gambar pengujian. Kumpulan data ini cocok diterapkan untuk klasifikasi gambar di mana Anda dapat mengklasifikasikan angka dari angka 0 hingga 9.
3. Boston Housing Dataset
Berisi informasi yang dikumpulkan oleh US Census Service mengenai perumahan di area Boston Mass.
4. Fake News Dataset
Ini adalah file CSV yang memiliki 7796 baris dengan lima kolom. Ada lima kolom: id (keterangan unik artikel), title (judul berita), author (penulis berita), text (isi berita) dan label (informasi keterangan apakah palsu atau tidak).
5. Wine Quality Dataset
Berisi berbagai informasi kimiawi tentang anggur. Dataset cocok untuk tugas klasifikasi dan regresi.
6. Data SOCR — Kumpulan Data Tinggi dan Berat
Berisi dataset tinggi dan berat 25.000 manusia berbeda yang berusia 18 tahun. Dataset ini dapat digunakan untuk membuat model yang memprediksi tinggi atau berat badan manusia.
7. Titanic Dataset
Berisi informasi seperti nama, umur, jenis kelamin, jumlah saudara kandung, dan informasi lain tentang 891 penumpang di set pelatihan dan 418 penumpang di set pengujian.
8. Credit Card Fraud Detection Dataset
Berisi transaksi kartu kredit yang dilabeli (penipuan atau asli). Dapat digunakan untuk membangun model pendeteksian aktivitas penipuan.
Public Dataset untuk Computer Vision
1. xView
Salah satu kumpulan data citra overhead paling masif yang tersedia untuk umum. Ini berisi gambar dari adegan kompleks di seluruh dunia, dianotasi menggunakan kotak pembatas.
2. ImageNet
Kumpulan data gambar terbesar untuk visi komputer. Ini menyediakan database gambar yang dapat diakses yang diatur secara hierarkis, menurut WordNet.
3. Kinetics-700
Dataset URL video berskala besar dari Youtube, termasuk tindakan yang berpusat pada manusia. Berisi lebih dari 700.000 video.
4. Google’s Open Images
Kumpulan data besar dari Google AI yang berisi lebih dari 10 juta gambar.
5. Cityscapes Dataset
Berisi anotasi tingkat piksel berkualitas tinggi dari urutan video yang diambil di 50 jalan kota yang berbeda. Kumpulan data ini berguna dalam segmentasi semantik dan melatih jaringan saraf dalam untuk memahami pemandangan perkotaan.
6. IMDB-Wiki Dataset
Salah satu kumpulan data sumber terbuka paling luas untuk gambar wajah dengan label jenis kelamin dan usia. Gambar dikumpulkan dari IMDB dan Wikipedia. Ini memiliki lebih dari lima juta gambar berlabel.
7. Color Detection Dataset
Kumpulan data berisi file CSV yang memiliki 865 nama warna dengan nilai warna RGB (merah, hijau, dan biru) yang sesuai. Ini juga memiliki nilai warna heksadesimal.
8. Stanford Dogs Dataset
Berisi 20.580 gambar dan 120 kategori ras anjing yang berbeda.
Public Dataset untuk Sentiment Analysis
1. Lexicoder Sentiment Dictionary
Kumpulan data ini khusus untuk analisis sentimen. Kumpulan data berisi lebih dari 3000 kata negatif dan lebih dari 2000 kata sentimen positif.
2. IMDB Reviews
Kumpulan data menarik dengan lebih dari 50.000 ulasan film dari Kaggle.
3. Stanford Sentiment Treebank
Kumpulan data sentimen standar dengan anotasi (keterangan) sentimen.
4. Twitter Sentimen Maskapai AS
Data Twitter tentang maskapai penerbangan AS dari Februari 2015, diklasifikasikan sebagai tweet positif, negatif, dan netral
Public Dataset untuk Natural Language Processing (NLP)
1. The Big Bad NLP Database
Daftar kumpulan data keren ini berisi kumpulan data untuk berbagai tugas pemrosesan bahasa alami, dibuat dan dikuratori oleh Quantum Stat.
2. HotspotQA Dataset
Kumpulan data penjawab pertanyaan yang menampilkan pertanyaan natural multi-hop, dengan pengawasan intensif untuk mendukung fakta guna mengaktifkan sistem penjawab pertanyaan yang lebih dapat dijelaskan.
3. Amazon Reviews
Kumpulan data yang sangat besar dari Amazon, berisi lebih dari 45 juta ulasan Amazon.
4. Review Rotten Tomatoes
Arsip lebih dari 480.000 ulasan kritikus (segar atau busuk).
5. UCI Spambase Dataset
Berisi email yang diklasifikasikan sebagai spam atau non-spam. Dengan 4601 email dan 57 meta-informasi tentang email. Anda dapat membuat model untuk memfilter spam.
6. Ulasan IMDB
Berisi ulasan film besar terdiri dari ulasan film dari situs web IMDB dengan lebih dari 25.000 ulasan untuk pelatihan dan 25.000 untuk set pengujian.
Public Dataset untuk Recommender Systems
1. MovieLens
Berisi kumpulan data peringkat film dari situs web MovieLens.
2. Jester
Ini berisi 4,1 Juta peringkat berkelanjutan (-10.00 hingga +10.00) dari 100 lelucon dari 73.421 pengguna. Dataset ini sebagian besar digunakan untuk filter kolaboratif.
3. Million Song Dataset
Berisi kumpulan lagu yang dapat digunakan untuk pemfilteran kolaboratif dan berbasis konten.
4. Recommender Systems Dataset
Ini berisi berbagai kumpulan data dari situs web populer seperti ulasan buku Goodreads, ulasan produk Amazon, data bartending, data dari media sosial, dan lainnya yang digunakan dalam membangun sistem pemberi rekomendasi.
Kesimpulan
Kita telah membahas 30 public dataset uang dapat digunakan untuk memperbanyak portofolio data science Anda. Portofolio menjadi faktor penting untuk memperbesar peluang keterima di bidang data dan dapat meningkatkan pengetahuan dan keterampilan terkait pengolahan data.
Jika Anda ingin menambah pengetahuan dan keterampilan dengan terstruktur dan diajarkan oleh profesionalnya langsung. Anda dapat mengikuti Bootcamp Algoritma Data Science yang memiliki serangkaian program yang dapat membantu Anda menguasai dunia data di industri yang Anda minati. Yuk, bergabung bersama Algoritma dan #JadiTalentaData paling hebat abad ini!