3 Tipe Data: Structured, Semi-Structured, dan Unstructured Data
Mengenal tiga tipe data yang sering digunakan dalam Data Science: structured data, semi-structured data, dan unstructured data. Yuk, cari tahu perbedaannya dengan mudah!
Table of Contents
Ketika kita berbicara tentang data atau analitik, istilah structured, semi-structured, dan unstructured data akan sangat sering dibahas. Ini adalah tiga tipe data yang sekarang menjadi relevan untuk semua jenis aplikasi bisnis. Structured data telah umum digunakan dan diandalkan sejak lama. Beberapa tahun terakhir ini, data semakin berkembang dan muncul lah semi-structured data, dan unstructured data.
Tipe Data dalam Data Science
Ketiga tipe data tersebut memiliki karakteristiknya masing-masing. Perbedaan karakteristik tersebut membuat setiap data memiliki penanganan yang berbeda-beda. Mari simak penjelasan mengenai perbedaan antara structured data, semi-structured data, dan unstructured data berikut ini!
- Structured Data
Tipe data yang pertama adalah structured data. Dalam pengertian sederhana, structured data berarti kumpulan informasi yang telah diformat sehingga menjadi model data yang tersusun dengan baik. Untuk menghasilkan data yang terstruktur, data mentah dipetakan ke dalam sebuah bidang yang telah dirancang sebelumnya. Dengan begitu, data akan lebih mudah diekstraksi dan dibaca.
Salah satu contoh structured data adalah database relasional SQL. Sebab, database tersebut berupa tabel yang tersusun dari baris dan kolom. Hasilnya, data yang ada di dalamnya pun lebih mudah diekstraksi dan dibaca.
Perlu diingat, structured data tidak hanya bisa dihasilkan oleh mesin, tapi juga dengan tenaga manusia. Contoh data terstruktur yang dihasilkan mesin adalah data yang ada pada POS (point-of sale), seperti jumlah barang dan barcode. Sedangkan, contoh data terstruktur buatan manusia adalah data yang dibuat dengan spreadsheet atau tabel Excel.
- Semi-Structured Data
Tipe data berikutnya adalah semi-structured data. Sebuah data tak selalu terstruktur atau tidak terstruktur. Terkadang, ada juga data yang karakteristiknya berada di tengah-tengah. Data seperti ini dinamakan semi-structured data.
Jika dilihat dari sifatnya, data yang satu ini bersifat konsisten dan pasti. Walau begitu, strukturnya tidak selalu kaku (seperti database relasional). Biasanya, semi-structured data dilengkapi dengan metadata agar lebih mudah dikelola. Meski demikian, Anda masih bisa menemukan beberapa inkonsistensi di dalamnya.
Salah satu contoh dari semi-structured data adalah delimited file. Pada file tersebut, Anda bisa menemukan beberapa elemen yang dapat memecah data hingga menjadi beberapa hierarki terpisah.
Contoh lainnya adalah file foto digital. Pada jenis foto tersebut, tidak ada struktur yang sudah ditentukan sebelumnya. Namun, di dalamnya terdapat beberapa atribut struktural khusus. Katakanlah foto tersebut diambil dengan smartphone. Maka, foto tersebut pasti memiliki beberapa atribut yang menempel, seperti ID perangkat dan juga geotag.
- Unstructured Data
Tipe data yang terakhir adalah unstructured data. Unstructured data adalah jenis data yang masih mentah. Data jenis ini sangat sulit untuk diproses karena konfigurasinya sangat kompleks.
Pada jenis data ini, informasi diambil dalam berbagai bentuk dan tanpa disertai konteks yang jelas. Anda juga tidak akan bisa menemukan atribut struktural yang jelas. Bentuknya bisa berupa konten media sosial, bubble pada ruang chat aplikasi percakapan, citra satelit, hingga slide presentasi. Ini berbeda jauh dengan structured data yang tersusun rapi mengikuti suatu struktur tertentu.
Bagaimana dengan contoh unstructured data? Seperti yang telah disebutkan, tipe data yang satu ini sangat beragam. Bahkan bisa berupa apa saja yang tidak mengikuti struktur atau format tertentu. Misalnya, penggalan lirik lagu yang mengandung suatu informasi relevan. Ada juga unstructured data yang berupa file log (bentuk data ini sangat sulit dipisahkan).
Perbedaan Structured, Semi-Structured, dan Unstructured Data
Cara paling mudah untuk membedakan ketiga tipe data ini adalah dengan melihat susunannya. Structured data memiliki susunan yang paling rapi. Sedangkan, pada semi-structured, hanya beberapa data saja yang tersusun rapi. Di urutan terakhir, ada unstructured data yang tidak memiliki susunan.
Berikutnya dari segi fleksibilitas dan skalabilitas. Structured data mengikuti format tertentu sehingga kurang fleksibel dan sulit diskalakan. Sedangkan, semi-structured data masih dapat diskalakan dan cukup fleksibel. Unstructured data adalah kelompok yang paling fleksibel karena tidak memiliki skema khusus.
Kesimpulan
Dalam data analisis, ada tiga tipe data yang sering digunakan, yaitu structured, semi-structured, dan unstructured data. Dari beberapa tipe data yang sudah dibahas, structured data adalah tipe yang paling terorganisir karena memiliki susunan khusus. Sedangkan jika dilihat dari fleksibilitas, justru unstructured data yang berada di peringkat pertama.
Mempelajari tentang data memang tidak akan selesai dalam satu hari. Untuk menambah pengetahuan Anda seputar tipe data dan contoh penerapannya, Algoritma Data Science School membuka kelas data science dengan berbagai pilihan level keahlian, termasuk untuk pemula. Dapatkan informasi lengkap mengenai pendaftaran kelas Algoritma Data Science School di sini.