30 Public Dataset untuk Perbanyak Portofolio Data Science

Dataset dalam konteks portofolio data science adalah sekumpulan data yang digunakan untuk membuat model atau algoritma machine learning. Data tersebut bisa berupa tabel, teks, gambar, atau suara. Dataset yang baik harus relevan dengan masalah yang ingin dipecahkan. Data juga harus akurat, lengkap, dan tidak rusak. Jumlah data yang cukup besar juga penting agar hasil analisis atau model yang dibangun bisa lebih andal.

Ketika membangun portofolio data science, penting untuk mencantumkan sumber dataset yang digunakan agar memberikan kepercayaan dan kredibilitas analisis yang dilakukan. Sumber dataset dapat berasal dari Kaggle, Google Dataset Search, UCI Machine Learning Repository, VisualData, dan CMU Libraries, serta The Big Bad NLP Database.

Dengan memahami konsep dataset dalam portofolio data science, Anda dapat memilih dataset yang sesuai dan berkualitas tinggi untuk membangun model dan analisis yang kuat serta menunjukkan kemampuan data science Anda kepada calon pemberi kerja atau rekan kerja ataupun memberikan insight bermanfaat bagi orang lain. Oleh karena itu, tidak usah panjang lebar lagi kita akan memberikan berbagai referensi dataset !

Public Dataset untuk Machine Learning

1. IRIS Dataset

Dataset iris adalah dataset sederhana dan ramah pemula yang berisi informasi tentang kelopak bunga dan lebar sepal. Data dibagi menjadi tiga kelas, dengan 50 baris di setiap kelas. Data ini umumnya digunakan untuk pemodelan klasifikasi dan regresi.

2. MNIST Dataset

Ini adalah database digit tulisan tangan. Berisi 60.000 gambar pelatihan dan 10.000 gambar pengujian. Kumpulan data ini cocok diterapkan untuk klasifikasi gambar di mana Anda dapat mengklasifikasikan angka dari angka 0 hingga 9.

3. Boston Housing Dataset

Berisi informasi yang dikumpulkan oleh US Census Service mengenai perumahan di area Boston Mass.

4. Fake News Dataset

Ini adalah file CSV yang memiliki 7796 baris dengan lima kolom. Ada lima kolom: id (keterangan unik artikel), title (judul berita), author (penulis berita), text (isi berita) dan label (informasi keterangan apakah palsu atau tidak).

5. Wine Quality Dataset

Berisi berbagai informasi kimiawi tentang anggur. Dataset cocok untuk tugas klasifikasi dan regresi.

6. Data SOCR — Kumpulan Data Tinggi dan Berat

Berisi dataset tinggi dan berat 25.000 manusia berbeda yang berusia 18 tahun. Dataset ini dapat digunakan untuk membuat model yang memprediksi tinggi atau berat badan manusia.

7. Titanic Dataset

Berisi informasi seperti nama, umur, jenis kelamin, jumlah saudara kandung, dan informasi lain tentang 891 penumpang di set pelatihan dan 418 penumpang di set pengujian.

8. Credit Card Fraud Detection Dataset

Berisi transaksi kartu kredit yang dilabeli (penipuan atau asli). Dapat digunakan untuk membangun model pendeteksian aktivitas penipuan.

Public Dataset untuk Computer Vision

1. xView

Salah satu kumpulan data citra overhead paling masif yang tersedia untuk umum. Ini berisi gambar dari adegan kompleks di seluruh dunia, dianotasi menggunakan kotak pembatas.

2. ImageNet

Kumpulan data gambar terbesar untuk visi komputer. Ini menyediakan database gambar yang dapat diakses yang diatur secara hierarkis, menurut WordNet.

3. Kinetics-700

Dataset URL video berskala besar dari Youtube, termasuk tindakan yang berpusat pada manusia. Berisi lebih dari 700.000 video.

4. Google’s Open Images

Kumpulan data besar dari Google AI yang berisi lebih dari 10 juta gambar.

5. Cityscapes Dataset

Berisi anotasi tingkat piksel berkualitas tinggi dari urutan video yang diambil di 50 jalan kota yang berbeda. Kumpulan data ini berguna dalam segmentasi semantik dan melatih jaringan saraf dalam untuk memahami pemandangan perkotaan.

6. IMDB-Wiki Dataset

Salah satu kumpulan data sumber terbuka paling luas untuk gambar wajah dengan label jenis kelamin dan usia. Gambar dikumpulkan dari IMDB dan Wikipedia. Ini memiliki lebih dari lima juta gambar berlabel.

7. Color Detection Dataset

Kumpulan data berisi file CSV yang memiliki 865 nama warna dengan nilai warna RGB (merah, hijau, dan biru) yang sesuai. Ini juga memiliki nilai warna heksadesimal.

8. Stanford Dogs Dataset

Berisi 20.580 gambar dan 120 kategori ras anjing yang berbeda.

Public Dataset untuk Sentiment Analysis

1. Lexicoder Sentiment Dictionary

Kumpulan data ini khusus untuk analisis sentimen. Kumpulan data berisi lebih dari 3000 kata negatif dan lebih dari 2000 kata sentimen positif.

2. IMDB Reviews

Kumpulan data menarik dengan lebih dari 50.000 ulasan film dari Kaggle.

3. Stanford Sentiment Treebank

Kumpulan data sentimen standar dengan anotasi (keterangan) sentimen.

4. Twitter Sentimen Maskapai AS

Data Twitter tentang maskapai penerbangan AS dari Februari 2015, diklasifikasikan sebagai tweet positif, negatif, dan netral

Public Dataset untuk Natural Language Processing (NLP)

1. The Big Bad NLP Database

Daftar kumpulan data keren ini berisi kumpulan data untuk berbagai tugas pemrosesan bahasa alami, dibuat dan dikuratori oleh Quantum Stat.

2. HotspotQA Dataset

Kumpulan data penjawab pertanyaan yang menampilkan pertanyaan natural multi-hop, dengan pengawasan intensif untuk mendukung fakta guna mengaktifkan sistem penjawab pertanyaan yang lebih dapat dijelaskan.

3. Amazon Reviews

Kumpulan data yang sangat besar dari Amazon, berisi lebih dari 45 juta ulasan Amazon.

4. Review Rotten Tomatoes

Arsip lebih dari 480.000 ulasan kritikus (segar atau busuk).

5. UCI Spambase Dataset

Berisi email yang diklasifikasikan sebagai spam atau non-spam. Dengan 4601 email dan 57 meta-informasi tentang email. Anda dapat membuat model untuk memfilter spam.

6. Ulasan IMDB

Berisi ulasan film besar terdiri dari ulasan film dari situs web IMDB dengan lebih dari 25.000 ulasan untuk pelatihan dan 25.000 untuk set pengujian.

Public Dataset untuk Recommender Systems

1. MovieLens

Berisi kumpulan data peringkat film dari situs web MovieLens.

2. Jester

Ini berisi 4,1 Juta peringkat berkelanjutan (-10.00 hingga +10.00) dari 100 lelucon dari 73.421 pengguna. Dataset ini sebagian besar digunakan untuk filter kolaboratif.

3. Million Song Dataset

Berisi kumpulan lagu yang dapat digunakan untuk pemfilteran kolaboratif dan berbasis konten.

4. Recommender Systems Dataset

Ini berisi berbagai kumpulan data dari situs web populer seperti ulasan buku Goodreads, ulasan produk Amazon, data bartending, data dari media sosial, dan lainnya yang digunakan dalam membangun sistem pemberi rekomendasi.

Kesimpulan

Kita telah membahas 30 public dataset uang dapat digunakan untuk memperbanyak portofolio data science Anda. Portofolio menjadi faktor penting untuk memperbesar peluang keterima di bidang data dan dapat meningkatkan pengetahuan dan keterampilan terkait pengolahan data.

Jika Anda ingin menambah pengetahuan dan keterampilan dengan terstruktur dan diajarkan oleh profesionalnya langsung. Anda dapat mengikuti Bootcamp Algoritma Data Science yang memiliki serangkaian program yang dapat membantu Anda menguasai dunia data di industri yang Anda minati. Yuk, bergabung bersama Algoritma dan #JadiTalentaData paling hebat abad ini!

TONI ANDREAS SUSANTO

Jika Anda tertarik dengan artikel seputar Insight Data Science dan beragam topik menarik lainnya, jadilah orang pertama yang membacanya dengan melakukan subscribe blog dibawah ini!

Get Free Learning Resources

* indicates required

Email Address *

First Name *