Evolusi Arsitektur Platform Data: Kompetitif atau Saling Melengkapi?
Tahukah kamu bagaimana perkembangan Evolusi Arsitektur Platform Data ? Apakah semakin Kompetitif atau Saling Melengkapi? Mari kita bahas satu per satu mulai dari Data Lakehouse, Data Fabric, dan Data Mesh.
Table of Contents
Sejarah perkembangan arsitektur platform data memiliki cerita yang menarik. Ketika menjelang pergantian milenium, perusahaan mulai menyadari bahwa beban kerja pelaporan dan intelijen bisnis memerlukan solusi baru terkait pengoptimalan proses mengintegrasikan data dari berbagai aplikasi, yaitu terkait gudang data.
Dalam dekade berikutnya, internet dan seluler mulai menghasilkan data dengan volume, variasi, dan kecepatan yang tidak terduga. Maka diperlukan solusi platform data contohnya Data Lake yang dapat menangani data tidak terstruktur dan terstruktur dengan volume besar. Satu dekade lagi berlalu, Data Lake dan Data Warehouse tidak lagi cukup untuk menangani kompleksitas bisnis dan beban kerja baru perusahaan.
Hal ini terlalu mahal sehingga nilai proyek data sulit diwujudkan dan sulit diubah. Maka dari itu, waktu menuntut solusi baru. Kali ini setidaknya ada tiga solusi platform data berbeda yang muncul: Data Lakehouse, Data Fabric, dan Data Mesh.
Data Lakehouse
Konsep Lakehouse dipopulerkan oleh Databricks. Mereka mendefinisikannya sebagai : “Data Lakehouse adalah arsitektur manajemen data terbuka baru yang menggabungkan fleksibilitas, efisiensi biaya, dan skala data lake dengan manajemen data dan transaksi ACID dari gudang data, memungkinkan kecerdasan bisnis (BI) dan mesin pembelajaran (ML) pada semua data.”
Sementara gudang data tradisional menggunakan proses Extract-Transform-Load (ETL) untuk menelan data, data lake malah mengandalkan proses Extract-Load-Transform (ELT). Data yang diekstraksi dari berbagai sumber dimuat ke dalam penyimpanan BLOB yang murah, kemudian diubah dan dipertahankan menjadi gudang data, yang menggunakan penyimpanan blok yang mahal. Jadinya melalui konsep ELT transformasi tidak harus dilakukan terus menerus sehingga menghemat biaya dan tidak memakan waktu berlebihan karena tidak melakukan transformasi berkelanjutan.
Selain itu, melalui Data Lakehouse dapat mendukung beban kerja seperti Artificial Intelligence (AI) atau Machine Learning (ML), yang memerlukan data dalam jumlah besar untuk pelatihan model. Untuk beban kerja ini, vendor data lake biasanya merekomendasikan untuk mengekstrak data ke dalam file datar untuk digunakan semata-mata untuk tujuan pelatihan dan pengujian model.
Data Fabric
Data Fabric mewakili generasi baru arsitektur platform data. Data Fabric dapat didefinisikan sebagai: Kumpulan layanan terdistribusi yang digabungkan secara longgar, yang memungkinkan data yang tepat tersedia dalam bentuk yang tepat, pada waktu dan tempat yang tepat, dari sumber heterogen yang bersifat transaksional dan analitis, di semua cloud dan platform lokal, biasanya melalui swalayan, sambil memenuhi persyaratan non-fungsional termasuk efektivitas biaya, kinerja, tata kelola, keamanan, dan kepatuhan.
Tujuan dari Data Fabric adalah untuk membuat data tersedia dimanapun dan kapanpun dibutuhkan, menghilangkan kerumitan teknologi yang terlibat dalam pergerakan, transformasi, dan integrasi data, sehingga siapapun dapat menggunakan data tersebut. Pada Data Fabric merekomendasikan arsitektur yang terdistribusi bukan terpusat.
Data Mesh
Data Mesh sebagai sebuah konsep diperkenalkan oleh Thoughtworks. Mereka mendefinisikannya sebagai : “ … Arsitektur data analitik dan model operasi di mana data diperlakukan sebagai produk dan dimiliki oleh tim yang paling mengetahui dan menggunakan data. ”
Konsep ini berdiri di atas empat prinsip: Kepemilikan domain, data sebagai produk, platform data swalayan, dan tata kelola komputasi federasi. Seperti pada Data Fabric yang menekankan pada arsitektur terdistribusi, Data Mesh juga merekomendasikan hal yang serupa. Hal ini berbeda dengan platform terpusat seperti Data Warehouse, data lake, dan Data Lakehouse. Jadinya Data Fabric ingin memunculkan ide produk data yang ditawarkan melalui marketplace sehingga lebih beragam (terdistribusi).
Hubungan Antara Data Lakehouse, Data Fabric dan Data Mesh
Ketiga konsep tentang data ini tentu memiliki fokus dan kekuatannya masing-masing. Secara konseptual Data Lakehouse berdiri terpisah dari kedua konsep lainnya. Konsep Data Lakehouse adalah teknologi baru, seperti pendahulunya yang dapat dikodifikasi (dihimpun atau digolongkan). Berikut adalah beberapa produk yang tersedia secara luar di pasar, yaitu Databricks, Azure Synapse, dan Amazon Athena.
Sedangkan, Data Mesh memiliki fokus, yaitu membutuhkan model operasi baru dan perubahan budaya. Seringkali perubahan budaya senantiasa membutuhkan perubahan pola pikir kolektif perusahaan alias secara keseluruhan. Akibatnya melalui Data Mesh cenderung akan bersifat revolusioner atau melakukan perubahan besar karena mengubah pola piker keseluruhan. Hal ini dapat terjadi dengan membangun berbagai perubahan kecil dari bawah ke atas kemudian nantinya akan menyebar ke bagian lain dalam organisasi.
Kemudian Data Fabric tidak memiliki prasyarat seperti Data Mesh yang mesti mengubah pola pikir keseluruhan. Hal ini tidak mengharapkan pergeseran budaya seperti itu. Data Fabric dapat dibangun dengan menggunakan aset yang ada (sudah dimiliki), di mana perusahaan telah berinvestasi selama bertahun-tahun. Jadi, pendekatannya bersifat evolusioner (perubahan kecil dan jangka panjang).
Ketika konsep di atas sejatinya dapat saling melengkapi dalam rangka memberikan nilai lebih bagi perusahaan.
Pertama, melalui Data Lakehouse kita dapat menjadi bagian dari perjalanan evolusi platform datanya. Misalnya, sebuah bank dapat menyingkirkan gudang datanya yang sudah berumur puluhan tahun dan mengirimkan semua kasus penggunaan BI dan AI dari satu platform data, dengan menerapkan Data Lakehouse.
Kedua, melalui Data Fabric dapat menyelesaikan tantangan kompleksitas data dengan cara membantu pengiriman data di berbagai bagian organisasi yang sulit.
Ketiga, melalui Data Mesh dapat menyelesaikan tantangan kompleksitas bisnis, seperti jika perusahaan memulai pergeseran budaya menuju kepemilikan data yang digerakkan oleh domain, mempromosikan swalayan dalam penemuan dan pengiriman data, dan mengadopsi tata kelola federasi. Jadi setiap konsep data dapat memberikan solusi bagi berbagai kendala dan tantangan yang dihadapi perusahaan.
Kesimpulan
Kita telah membahas banyak hal terkait Evolusi Arsitektur Platform Data. Mulai dari perusahaan yang sadar kebutuhan untuk mengintegrasikan data melalui Gudang Data, kemudian volume data yang dihasilkan hingga kompleksitas bisnis dan beban kerja baru perusahaan.
Berbagai hal telah berkembang untuk menawarkan berbagai solusi terkait Arsitektur Platform Data seperti Data Lakehouse, Data Fabric, dan Data Mesh. Ketiga konsep yang cukup populer ini memiliki keunikan atau karakteristiknya masing-masing yang telah kita bahas di atas. Selain itu, kita menyadari ketiga konsep ini sejatinya dapat saling melengkapi dan mendukung sebab merupakan solusi atau jawaban dari berbagai tantangan yang berbeda (tidak sama persis).
Sekarang kita menyadari Evolusi Arsitektur Platform Data mulai dan telah terjadi. Hal ini dilakukan oleh berbagai perusahaan sebab adanya nilai (value) yang dapat diterima perusahaan ketika dapat mengelola data tersebut dengan baik. Perusahaan dapat menghasilkan insight yang berguna dalam rangka menghasilkan berbagai keputusan dan strategi bisnis yang efektif.
Jika Anda tertarik mempelajari Data Science dan pemanfaatannya lebih lanjut hingga berkarir di dunia data menjadi seorang data scientist handal, Anda dapat mengikuti Bootcamp Algoritma DataScience yang memiliki serangkaian program yang dapat membantu Anda menguasai dunia data di industri yang Anda minati. Yuk, bergabung bersama Algoritma sekarang!