Silsilah Data: Mengapa Penting untuk Melacak Aliran Data?

Data dapat memberikan insight berharga bagi perusahaan! Bagaimana memastikan data berkualitas? Salah satunya dengan memahami silsilah data. Yuk, pahami bersama!

Team Algoritma
Team Algoritma

Table of Contents

Beberapa profesional melihat silsilah data sebagai GPS (penunjuk arah) mengenai data. Hal ini disebabkan silsilah data membantu pengguna mendapatkan ikhtisar visual tentang jalur dan transformasi data. Maka silsilah data dapat dikatakan mendokumentasikan bagaimana data diproses, diubah, dan ditransmisikan menjadi informasi yang berarti yang digunakan bisnis untuk menjalankan operasi mereka.

Silsilah data membantu bisnis mendapatkan tampilan terperinci tentang bagaimana data mengalir dari sumber ke tujuan. Banyak organisasi menggunakan perangkat lunak virtualisasi data dengan silsilah data untuk membantu mereka melacak data sambil memberikan informasi real-time kepada pengguna. Dengan demikian, silsilah data dapat membantu kita memahami data secara menyeluruh dan ini akan berdampak bagi pengambilan keputusan dengan lebih baik.

Apa itu Silsilah Data? Silsilah dan Tata Kelola Data!

Silsilah data adalah proses mengidentifikasi asal data, mencatat bagaimana data berubah dan berpindah dari waktu ke waktu, dan memvisualisasikan alirannya dari sumber data ke pengguna akhir (end-user). Ini membantu para Data Scientist mendapatkan visibilitas setiap bagian dari dinamika data dan memungkinkan mereka untuk melacak apabila terjadi kesalahan hingga ke akar penyebabnya. Harapannya dengan organisasi dapat melacak kesalahan maka dapat melakukan migrasi sistem dan menerapkan perubahan proses dengan risiko lebih kecil.

Keputusan bisnis strategis bergantung pada akurasi data. Tanpa silsilah data yang baik, menjadi sulit untuk melacak proses data dan memverifikasinya. Silsilah data memungkinkan pengguna untuk memvisualisasikan aliran lengkap informasi dari sumber ke tujuan, membuatnya lebih mudah untuk mendeteksi dan memperbaiki anomali. Dengan silsilah data, pengguna dapat memutar ulang bagian tertentu atau input aliran data untuk mengatasi bug atau hasil output yang hilang.

Tata kelola data adalah seperangkat aturan dan prosedur yang digunakan organisasi untuk memelihara dan mengontrol data. Silsilah data adalah bagian penting dari tata kelola data karena menginformasikan bagaimana data mengalir dari sumber ke tujuan. Bisnis menggunakan tingkatan silsilah data yang berbeda berdasarkan kebutuhan mereka.

Mengapa Silsilah Data Penting?

Silsilah data tidak hanya membantu Anda memperbaiki masalah atau melakukan migrasi sistem, tetapi juga memungkinkan Anda memastikan kerahasiaan dan integritas data dengan melacak perubahan, bagaimana perubahan dilakukan, dan siapa yang membuatnya.

Dengan silsilah data, tim Teknologi Informasi (TI) dapat memvisualisasikan perjalanan data ujung ke ujung dari awal hingga akhir. Hal ini membuat pekerjaan profesional TI lebih mudah dan memberi pengguna bisnis kepercayaan diri untuk membuat keputusan yang efektif.

Tools silsilah data membantu Anda menjawab pertanyaan-pertanyaan berikut:

  • Bagaimana data diubah dan dengan proses apa?
  • Siapa yang bertanggung jawab atas modifikasi data?
  • Kapan perubahan itu dilakukan?
  • Apa lokasi geografis dari orang yang melakukan modifikasi?
  • Mengapa perubahan dilakukan dan apa konteks di baliknya?

Dengan menjawab pertanyaan tersebut kita dapat melakukan pengambilan keputusan strategis dengan lebih baik dan lain sebagainya.

Kasus Penggunaan Silsilah Data

Silsilah data membantu organisasi melacak aliran data sepanjang siklus hidup, melihat ketergantungan, dan memahami transformasi. Tampilan terperinci dari aliran data ini akan digunakan  untuk berbagai tujuan.

1. Mengidentifikasi Akar Penyebab Kesalahan

Ada kebingungan dalam situasi di mana angka penjualan tidak cocok dengan catatan departemen keuangan, dan sulit untuk menentukan di mana letak kesalahan yang sebenarnya. Silsilah data memberikan penjelasan yang masuk akal untuk kejadian seperti itu. Manajer Business Intelligence (BI) dapat menggunakan silsilah data untuk melacak aliran data lengkap dan melihat setiap modifikasi yang dilakukan selama pemrosesan.

Terlepas dari apakah ada kesalahan, manajer BI dapat merasa yakin memberikan penjelasan yang masuk akal untuk situasi tersebut. Jika ada kesalahan, tim dapat memperbaiki di sumbernya, memungkinkan keseragaman data ketika digunakan oleh berbagai tim.

2. Peningkatan Sistem

Saat memutakhirkan atau bermigrasi ke sistem baru, penting untuk memahami kumpulan data mana yang relevan dan mana yang sudah usang atau tidak ada. Silsilah data membantu Anda mengetahui data yang benar-benar Anda gunakan untuk menjalankan operasi bisnis dan membatasi pengeluaran untuk menyimpan dan mengelola data yang tidak relevan. Dengan silsilah data, Anda dapat merencanakan dan menjalankan migrasi serta pembaruan sistem dengan lancar. Hal ini membantu Anda memvisualisasikan sumber data, dependensi, dan proses, memungkinkan Anda untuk mengetahui dengan tepat apa yang Anda butuhkan untuk bermigrasi.

3. Analisis Dampak

Setiap bisnis yang baik mengidentifikasi laporan, elemen data, dan pengguna akhir yang terpengaruh sebelum menerapkan perubahan. Perangkat lunak silsilah data membantu tim memvisualisasikan objek data hilir dan mengukur dampak perubahan.

Silsilah data memungkinkan Anda melihat bagaimana pengguna bisnis berinteraksi dengan data dan bagaimana perubahan akan memengaruhi mereka. Hal ini membantu bisnis memahami dampak dari modifikasi tertentu dan memungkinkan mereka untuk memutuskan apakah mereka harus menindaklanjutinya atau tidak.

Teknik Silsilah Data

Organisasi dapat melakukan silsilah data pada kumpulan data strategis menggunakan beberapa teknik standar. Teknik ini memastikan bahwa setiap transformasi atau pemrosesan data dilacak, memungkinkan Anda memetakan elemen data di setiap tahap sehingga nantinya digunakan untuk representasi silsilah data.

1. Silsilah dengan Parsing (Lineage by Parsing)

Silsilah dengan mem-parsing merupakan salah satu bentuk silsilah tercanggih. Hal ini bekerja dengan membaca logika yang digunakan untuk memproses data. Anda bisa mendapatkan ketertelusuran ujung ke ujung (end-to-end) yang komprehensif dengan merekayasa balik logika transformasi data.

Lineage dengan teknik parsing relatif rumit untuk diterapkan karena memerlukan pemahaman semua alat dan bahasa pemrograman yang digunakan untuk mengubah dan memproses data. Hal ini dapat mencakup logika ETL, solusi berbasis structured query language (SQL), solusi JAVA, solusi extensible markup language (XML), format data lama, dan banyak lagi.

2. Silsilah Berbasis Pola (Pattern-Based Lineage)

Silsilah berbasis pola menggunakan pola untuk menyediakan representasi silsilah, bukan membaca kode apa pun. Silsilah berbasis pola memanfaatkan metadata tentang tabel, laporan, dan kolom serta membuat profilnya untuk membuat silsilah berdasarkan kesamaan dan pola umum.

Keunggulan teknik ini adalah dalam memantau data dan memahami silsilah data dengan tidak harus memahami bahasa pemrograman dan alat yang digunakan untuk memproses data. Namun, tentunya banyak detail seperti logika transformasi dan detail teknis lainnya tidak tersedia. Teknik ini dapat  digunakan dengan cara yang sama di semua teknologi database seperti Oracle atau MySQL.

3. Silsilah Mandiri (Self-Contained Lineage)

Silsilah mandiri melacak setiap pergerakan dan transformasi data dalam lingkungan inklusif yang menyediakan logika pemrosesan data, manajemen data master, dan banyak lagi sehingga menjadi mudah untuk melacak aliran data dan siklus hidupnya.

Namun, solusi mandiri tetap eksklusif untuk satu lingkungan tertentu dan buta terhadap segala sesuatu di luarnya. Saat kebutuhan baru muncul dan alat baru digunakan untuk memproses data, solusi silsilah data mandiri dapat gagal memberikan hasil yang diharapkan.

4. Silsilah dengan Penandaan Data (Lineage by Data Tagging)

Dengan garis keturunan berdasarkan penandaan data, setiap bagian data yang bergerak atau berubah akan ditandai oleh mesin transformasi. Semua tag kemudian dibaca dari awal hingga akhir untuk menghasilkan representasi silsilah. Meskipun tampaknya menjadi teknik garis keturunan data yang efektif, ini hanya berfungsi jika ada mesin atau alat transformasi yang konsisten untuk mengontrol pergerakan data.

Teknik ini mengecualikan pergerakan data di luar mesin transformasi, sehingga cocok untuk melakukan silsilah data pada sistem data tertutup. Dalam beberapa kasus, ini mungkin bukan teknik silsilah data yang disukai. Misalnya, pengembang tidak menambahkan kolom data formal ke model solusi di setiap titik kontak untuk pergerakan data.

5. Silsilah Manual (Manual Lineage)

Silsilah manual melibatkan berbicara dengan orang-orang untuk memahami aliran data dalam suatu organisasi dan mendokumentasikannya. Anda dapat mewawancarai pemilik aplikasi, pakar integrasi data, pengurus data, dan lainnya yang terkait dengan siklus hidup data. Selanjutnya, Anda dapat menentukan garis keturunan menggunakan spreadsheet dengan teknik pemetaan sederhana.

Kadang-kadang, Anda mungkin menemukan informasi yang kontradiktif atau melewatkan wawancara dengan seseorang, yang menyebabkan silsilah data yang tidak tepat. Saat menelusuri kode, Anda juga harus meninjau tabel secara manual, membandingkan kolom, dan sebagainya, menjadikannya proses yang memakan waktu dan membosankan. Volume kode yang berkembang secara dinamis dan kompleksitasnya menambah komplikasi silsilah data manual.

Terlepas dari tantangan ini, pendekatan ini terbukti bermanfaat untuk memahami apa yang terjadi di suatu lingkungan. Silsilah data manual juga terbukti efektif ketika kode tidak tersedia atau tidak dapat diakses.

Bagaimana Menerapkan Silsilah Data

Menerapkan silsilah data sangat bergantung pada budaya data organisasi Anda. Pastikan Anda memiliki kerangka kerja manajemen data yang mapan dan bangun kolaborasi yang kuat dengan profesional manajemen data dan pemangku kepentingan lainnya untuk implementasi silsilah data yang sukses. Berikut tujuh langkah menerapkan silsilah data :

1. Identifikasi Pendorong Bisnis Utama

Diskusikan alasan untuk menerapkan silsilah data dan temukan apakah itu penting untuk memenuhi tujuan bisnis. Alasan ini dapat mencakup perubahan bisnis, inisiatif kualitas data dan persyaratan undang-undang.

2. Dukungan Manajemen Senior Pada Proyek

Menerapkan silsilah data membutuhkan banyak sumber daya (manusia dan keuangan) dan waktu. Pastikan Anda mendapat dukungan dari manajemen senior untuk menggerakkan proyek implementasi menuju penyelesaian. Anda dapat meyakinkan manajemen dengan menjelaskan manfaat silsilah data dan bagaimana hal itu membantu dalam mematuhi peraturan industri.

3. Lingkup Inisiatif

Setelah manajemen senior menyetujui proyek, putuskan cakupannya berdasarkan penggerak bisnis yang teridentifikasi dan elemen data penting (critical data elements). Elemen data penting memiliki dampak paling signifikan terhadap kinerja organisasi dan pengalaman pelanggan.

4. Tentukan Cakupan

Lingkup silsilah data dimulai dengan sumber data dan berakhir pada titik penggunaan akhir. Organisasi besar dapat memperbaiki silsilah data yang terbatas karena mereka memiliki banyak anak perusahaan untuk menghindari komplikasi (kerumitan).

5. Persiapkan Kebutuhan Bisnis

Mungkin terdapat pemangku kepentingan bisnis dan pemangku kepentingan teknis yang memiliki kepentingan berbeda. Pemangku kepentingan bisnis lebih tertarik pada nilai, silsilah data pada level model data konseptual, dan analisis akar masalah. Sebaliknya, pemangku kepentingan teknis memiliki kepentingan dalam analisis dampak, silsilah desain metadata, dan silsilah data pada tingkat fisik. Oleh karena itu, penting menyelaraskan kedua kepentingan ini karena tujuan akhirnya adalah kepentingan perusahaan ke depan.

6. Perbaiki Metode untuk Mendokumentasikan Silsilah Data

Anda dapat menggunakan dokumentasi silsilah data deskriptif atau otomatis. Nilai cara mana yang lebih cocok untuk organisasi Anda, dengan mempertimbangkan waktu dan sumber daya yang akan digunakannya.

7. Pilih Perangkat Lunak Silsilah Data yang Sesuai

Pilih solusi perangkat lunak silsilah data yang paling sesuai dengan tujuan dan harapan. Anda dapat menjelajahi perangkat lunak manajemen data master yang menawarkan kemampuan silsilah otomatis dan berbagai penawaran perangkat lunak lainnya.

Praktik Terbaik Silsilah Data

Silsilah membantu Anda mendapatkan data yang dapat dipercaya dan akurat untuk mendukung proses pengambilan keputusan perusahaan Anda. Merencanakan dan menerapkan adalah elemen penting dari tata kelola data (Anda harus yakin dari mana data Anda berasal dan kemana data itu membawa Anda). Ada beberapa praktik yang dapat Anda pertimbangkan saat merencanakan dan menerapkan silsilah data di organisasi Anda:

1. Mengotomatiskan Ekstraksi Silsilah Data

Data dan silsilahnya adalah entitas yang dinamis. Anda harus bergerak lebih dari sekadar menangkap silsilah data secara manual di spreadsheet, yaitu mengotomatiskan proses untuk bersaing di lingkungan yang semakin efisien dan efektif.

2. Sertakan Sumber Metadata (informasi data)

Sistem manajemen basis data, alat Big Data, perangkat lunak ETL, dan aplikasi khusus lainnya membuat data mereka sendiri (data tambahan disebut metadata) tentang data yang mereka proses sehingga dapat memahami aliran data dan modifikasi dengan lebih baik.

3. Verifikasi Sumber Metadata

Dorong pemilik aplikasi dan alat untuk memverifikasi masing-masing sumber metadata karena merekalah yang memahami dengan jelas keakuratan dan relevansi metadata.

4. Rencanakan Ekstraksi Progresif

Ekstrak (ambil inti) metadata dan silsilah dalam urutan yang sama di mana data mengalir melalui sistem Anda. Hal ini akan menyederhanakan koneksi pemetaan, hubungan, dan ketergantungan antara sistem dan data.

5. Validasi Silsilah Data End-to-End

Validasi silsilah secara progresif dengan memulai dari koneksi tingkat tinggi antar sistem dan kemudian mempelajari kumpulan data yang terhubung diikuti oleh elemen data sebelum memvalidasi dokumentasi transformasi (validasi secara keseluruhan).

6. Terapkan Perangkat Lunak Katalog Data

Gunakan perangkat lunak katalog data yang tepat dan otomatis untuk mengumpulkan data silsilah dari semua sumber. Perangkat lunak ini juga memungkinkan Anda untuk mengekstraksi dan menyimpulkan silsilah dari metadata.

Kesimpulan

Kita telah membahas banyak hal terkait Silsilah Data, sebuah proses mengidentifikasi asal data, mencatat bagaimana data berubah dan berpindah dari waktu ke waktu, dan memvisualisasikan alirannya. Silsilah data tidak hanya membantu Anda memperbaiki masalah atau melakukan migrasi sistem, tetapi juga memungkinkan Anda memastikan kerahasiaan dan integritas data dengan melacak perubahan, bagaimana perubahan dilakukan, dan siapa yang membuatnya.

Lebih lanjut kita juga sudah membahas panjang lebar terkait kasus penggunaan, teknik silsilah, cara menerapkan hingga praktik terbaik silsilah data.Penting untuk memastikan ketersediaan data berkualitas karena melalui datalah perusahaan dapat memperoleh insight yang berguna dalam membuat keputusan atau strategi bisnis. Selain memastikan data yang berkualitas, kita perlu menguasai teknik mengolah data agar dapat menghasilkan insight dari data.

Jika Anda tertarik mempelajari berbagai hal pengolahan data dan pemanfaatannya lebih lanjut hingga berkarir di dunia data menjadi seorang Data Scientist handal, Anda dapat mengikuti Bootcamp Algoritma Data Science yang memiliki serangkaian program yang dapat membantu Anda menguasai dunia data di industri yang Anda minati. Yuk, bergabung bersama Algoritma sekarang!

TONI ANDREAS SUSANTO


Jika Anda tertarik dengan artikel seputar Insight Data Science dan beragam topik menarik lainnya, jadilah orang pertama yang membacanya dengan melakukan subscribe blog dibawah ini!

Get Free Learning Resources

* indicates required
Insights