Masa Depan Produksi Musik di Tangan AudioGPT, Bisakah?
Industri musik mengalami perkembangan pesat akhir-akhir ini. Baru-baru ini, pada bulan Januari 2023, diluncurkan MusicLM, sebuah inovasi yang dapat dimengerti oleh musisi maupun Data Scientist, dengan potensi mengubah cara musik diproduksi. Namun, tidak lama setelah itu, muncul lagi sebuah terobosan besar dalam bentuk model AI audio bernama AudioGPT pada bulan April. Dalam artikel ini, kita akan menjelajahi bagaimana model ini memiliki potensi luar biasa untuk menjadi dasar dari revolusi teknologi dalam produksi musik. Apakah model ini mampu mengubah masa depan industri musik? Mari kita bahas bersama-sama!
Apa itu AudioGPT?
AudioGPT merupakan sebuah proyek penelitian oleh sekelompok peneliti dari China dan AS yang diterbitkan pada April 2023 kemarin. Audiogpt adalah suatu implementasi dari model bahasa AI yang menggunakan kemampuan generasi teks yang sama dengan ChatGPT, tetapi dengan fokus pada generasi dan pemrosesan audio. Audiogpt memungkinkan pengguna untuk menghasilkan dan berinteraksi dengan konten audio menggunakan input teks sebagai panduan.
Dengan Audiogpt, Anda dapat memberikan teks kepada model dan meminta untuk menghasilkan suara yang membacakan teks tersebut. Model akan menghasilkan file audio yang dapat didengarkan oleh pengguna. Audiogpt juga dapat digunakan untuk memproses dan memahami teks yang berkaitan dengan audio, seperti transkripsi audio, pengenalan ucapan, atau penerjemahan.
Audiogpt memanfaatkan teknologi Text-to-Speech (TTS) yang dilengkapi dengan kemampuan generasi teks yang canggih untuk menghasilkan suara yang lebih alami dan terdengar manusiawi. Meskipun demikian, Audiogpt masih merupakan implementasi awal, dan perkembangan selanjutnya mungkin menghasilkan peningkatan kualitas suara dan kemampuan pemrosesan audio yang lebih baik.
1. AudioGPT adalah Asisten Dialog
Seperti yang Anda lihat dari gambar di atas AudioGPT dapat digunakan dalam antarmuka chatbot yang mirip dengan ChatGPT, menuliskan sebuah keyword dan AudioGPT akan memberikan respon. Faktanya, ini berfungsi seperti ChatGPT untuk sebagian besar aplikasi percakapan tetapi tetap memiliki satu fitur unik yaitu, selain teks chatbot dapat menangani ucapan sebagai input dengan mentranskripsikan audio ke teks terlebih dahulu. Oleh karena itu, AudioGPT adalah asisten dialog nyata yang dapat Anda ajak bicara atau menulis tergantung pada kebutuhan Anda.
2. AudioGPT dapat Melakukan Berbagai Tugas Audio
Apabila anda mulai berpikir bahwa AudioGPT hanya berbeda sedikit dengan ChatGPT karena kemampuan dialognya. Mungkin kurang tepat pernyataan tersebut sebab tujuan sebenarnya adalah untuk memberikan pengalaman terpadu untuk menyelesaikan banyak tugas di bidang analisis dan pembuatan audio. Berikut ini beberapa contoh tugas yang dapat ditangani AudioGPT:
- Audio Captioning : menjelaskan isi sinyal audio menggunakan teks
- Pemisahan Sumber: membagi sinyal audio menjadi peristiwa yang berbeda (suara, derau, dan sebagainya)
- Gambar-ke-Audio: menghasilkan audio yang sesuai dengan konten gambar.
- Skor-ke-Audio: menghasilkan suara nyanyian yang diberikan teks, catatan, dan durasi catatan.
Kerennya, AudioGPT berbeda dengan ChatGPT karena dapat menerima dan mengirim file audio. Misalnya, ketika saya meminta AudioGPT untuk menghasilkan suara tertentu untuk saya maka AudioGPT akan membuat suara, mengekspornya ke file wav dan mengirimi lokasi file yang diekspor.
Bagaimana Cara Kerja AudioGPT?
Meskipun AudioGPT mungkin tampak seperti chatbot AI biasa bagi pengguna, sebenarnya ada lebih banyak hal yang terjadi di baliknya. Faktanya, AI chatbot (AudioGPT) hanya digunakan sebagai penerjemah antara permintaan pengguna dan model AI lainnya. Pendekatan semacam itu sudah ada untuk domain lain seperti gambar (TaskMatrix) atau teks (LangChain).
Seperti yang Anda lihat, alur kerja dibagi menjadi empat langkah berbeda. Mari kita telusuri semuanya, secara umum.
1. Transformasi Modalitas (Modality Transformation)
AudioGPT dibangun untuk menangani input ucapan dan teks. Oleh karena itu, langkah pertama adalah memeriksa apakah pengguna mengirim SMS atau berbicara ke sistem. Jika masukannya adalah ucapan, itu akan ditranskripsi dan diubah terlebih dahulu menjadi teks oleh sistem pengenalan suara yang mirip dengan Alexa atau Siri. Bagi pengguna, langkah konversi ini seharusnya terasa mulus.
2. Analisis Tugas (Task Analysis)
Dengan input teks ini, AudioGPT mengambil alih dan mencoba memahami permintaan pengguna. Apakah Anda mengatakan "Hasilkan file wav dari efek suara guntur" atau "Beri saya suara guntur"; AudioGPT hebat dalam memahami formulasi berbeda dari masalah yang sama dan memetakan permintaan ke tugas tertentu. Dalam hal ini, dari teks yang sudah dikonversi oleh sistem akan diubah menjadi suara karena permintaan, yaitu terkait suara guntur (text to audio).
3. Penetapan Model (Model Assignment)
Setelah AudioGPT memahami permintaan tersebut, AudioGPT akan memilih model AI yang sesuai dari 17 model yang saat ini disertakan dalam sistem. Masing-masing dari 17 ini menangani satu tugas khusus dengan cara yang sangat spesifik. Oleh karena itu, sangat penting bagi AudioGPT untuk memahami permintaan tersebut, menemukan model yang benar, dan menyajikan permintaan pengguna dengan cara yang dapat diproses oleh model tersebut.
4. Pembuatan Respons (Response Generation)
Setelah model yang sesuai ditemukan dan dijalankan, ini akan menghasilkan output. Output ini dapat memiliki segala macam modalitas yang berbeda (audio, teks, dsb). Di situlah AudioGPT masuk lagi untuk mengumpulkan output model dan menyajikannya kepada pengguna dengan cara yang dapat mereka pahami dan interpretasikan. Misalnya, keluaran teks dapat langsung diteruskan ke pengguna, sedangkan keluaran audio akan diekspor dan pengguna akan menerima jalur file yang terhubung ke audio yang diekspor.
Apa yang Dapat Dilakukan AudioGPT?
1. Image to Audio Generation
Contoh Pembuatan Gambar ke Audio dari Huang, Li, Yang, Shit et a. (2023).
Dalam contoh ini, AudioGPT diminta untuk menghasilkan audio yang sesuai dengan gambar kucing. Sistem kemudian merespons dengan lokasi file audio yang diekspor dan visualisasi bentuk gelombang audio. Responsnya kemungkinan besar adalah suara kucing seperti desisan atau dengkuran. Hal ini bisa sangat membantu musisi untuk membuat sampel musik mereka hanya dengan memasukkan gambar dari apa yang mereka cari.
2. Singing Voice Generation
Contoh Pembuatan Suara Bernyanyi dari Huang, Li, Yang, Shit et a. (2023).
Nah, yang ini relevan untuk musisi banget! Jika kami memberikan model teks beserta informasi tentang not dan durasi not, model ini akan memberikan suara nyanyian dan mengirimkan audionya kembali kepada Anda. Bayangkan bagaimana teknologi semacam ini dapat diimplementasikan di studio musik, misalnya untuk membuat sampel nyanyian, ketukan hip-hop atau bahkan vokal latar.
3. Sound Extraction
Contoh Ekstraksi Suara dari Huang, Li, Yang, Shit et a. (2023).
Berdasarkan prompt teks, AudioGPT mengidentifikasi dimana peristiwa tertentu terjadi dalam sinyal audio dan memotong bagian audio yang tidak relevan untuk pengguna. Memotong sampel atau suara hanya menggunakan petunjuk verbal terbukti sangat berguna bagi musisi. Misalnya kita ingin mengambil bagian paling emosional dari sampel di atas dan memotongnya untuk keperluan lain tanpa mesti melakukan sendiri pekerjaan teknis tersebut.
4. Source Separation
Pemisahan Sumber Contoh dari Huang, Li, Yang, Shit et a. (2023).
Di sini, AudioGPT diminta untuk memisahkan dua speaker dalam satu sinyal audio dan mengembalikan kedua speaker yang diekstraksi secara terpisah. Melalui ini kita dapat segera mengekstrak instrument atau grup instrumen tertentu dari sinyal audio langsung untuk digunakan segera.
Kelemahan AudioGPT
Kita sudah melihat banyak kehebatan AudioGPT, namun kurang lengkap apabila kita tidak membahas kelemahan AudioGPT
1. AudioGPT Tidak Dibangun untuk Musik
Dalam konteks posting ini, penting untuk dicatat bahwa AudioGPT belum menjadi alat yang hebat untuk analisis atau pembuatan musik. Satu-satunya model musik khusus yang nyata adalah model sintesis suara nyanyian. Beberapa model lain dapat menghasilkan suara musik, tetapi model tersebut dibuat terutama untuk ucapan dan suara, bukan spesifik untuk musik. Dengan status AudioGPT saat ini sebagai fondasi, dimungkinkan untuk memasukkan lebih banyak model audio dalam sistem ini atau untuk membangun sistem khusus musik yang terpisah, intinya keterbatasan ini dapat teratasi seiring pengembangan lebih lanjut.
2. AudioGPT Masih dalam On-Progress
Dari pengalaman pengguna yang mungkin terbatas menggunakan AudioGPT, merasa bahwa proses penetapan tugas tidak berjalan sebaik yang diinginkan. Seringkali, permintaan pengguna disalahpahami dan berdampak model yang salah dipanggil sehingga menghasilkan keluaran yang sama sekali tidak berguna. Tampaknya masih perlu dilakukan optimasi agar sistem ini semakin mampu memahami kebutuhan pengguna.
Selain itu, kondisi AI audio secara keseluruhan masih jauh tertinggal dari kondisi AI teks. Sebagian besar dari 17 model yang termasuk dalam AudioGPT berfungsi cukup baik tetapi memiliki batasan jumlah. Oleh karena itu, meskipun nantinya penetapan tugas AudioGPT (memahami permintaan pengguna) bekerja dengan sempurna, sistem masih akan dibatasi oleh kemampuan model yang mendasarinya.
Bagaimana Cara Menggunakan AudioGPT?
Sebagai Programmer
Sebagai programmer, Anda cukup mengkloning repositori Github AudioGPT, menginstal semua model yang digunakan, memasukkan kunci OpenAI API Anda, dan memulai. Ini akan memungkinkan Anda menggunakan semua fitur yang disajikan di paper.
Sebagai Non-Teknisi
Jika Anda bukan seorang programmer, Anda masih dapat menggunakan AudioGPT, meskipun secara terbatas, di aplikasi web HuggingFace ini. Untuk menggunakan sistem, Anda memerlukan kunci OpenAI API, tutorial mendapatkannya. Penggunaan AudioGPT bergantung pada persyaratan penggunaan OpenAI saat ini, Anda mungkin perlu memasukkan informasi kartu kredit agar dapat menggunakan token, berikut informasi detail terkait harga - dokumentasi. Namun, jika Anda memutuskan untuk menggunakan ini untuk AudioGPT, saya sarankan untuk memantau biaya yang diminta oleh sistem di akun OpenAI Anda.
Berdasarkan pengalaman seorang pengguna aplikasi web HuggingFace mengatakan AudioGPT belum berfungsi dengan baik. Saat ia upload file, biasanya ada error ataupun keluaran (output) audio yang benar-benar salah, meskipun secara deskripsi permintaan tampaknya telah dipahamin model. Jika Anda sudah memiliki kunci OpenAI API, Anda harus mencobanya sendiri untuk membuktikannya, bisa jadi berbeda dengan pengalaman orang lain.
Kesimpulan
Kita telah membahas banyak hal terkait AudioGPT yang dapat dikatakan pengembangan lebih lanjut dari ChatGPT sebab bukan hanya dapat mengolah teks melainkan audio. AudioGPT bekerja dengan mempersiapkan modal informasi, kemudian memahami permintaan pengguna, memilih dan menggunakan model dan terakhir memberikan respon terhadap permintaan pengguna. AudioGPT dapat digunakan untuk berbagai hal, yaitu memberikan suara bagi sebuah gambar, bernyanyi, mengekstrak suara hingga memisahkan suara yang mungkin tumpang tindih. Namun, tentu saja AudioGPT juga memiliki keterbatasan saat ini, yakni bukan dibangun spesifik untuk dunia musik dan dapat dikatakan masih dalam tahap pengembangan lebih lanjut.
Saat ini Anda dapat menggunakan AudioGPT sebagai programmer maupun non-teknisi. Seiring perkembangan lebih lanjut dapat dikatakan AudioGPT berpotensi besar mendisrupsi masa depan produksi musik.Intinya dapat kita katakan AudioGPT telah menampilkan hal yang luar biasa bagi perkembangan teknologi. Kehebatan AudioGPT tentunya tidak terlepas dari pemanfaatan data dalam menghasilkan model hebat.
Sejatinya memang data dapat memberikan benefit bagi berbagai pihak yang dapat memanfaatkannya dengan tepat dan efisien. Jika Anda tertarik mempelajari berbagai hal pengolahan data dan pemanfaatannya lebih lanjut hingga berkarir di #JadiTalentaData handal, Anda dapat mengikuti Bootcamp Algoritma Data Science yang memiliki serangkaian program yang dapat membantu Anda menguasai dunia data di industri yang Anda minati. Yuk, bergabung bersama Algoritma sekarang!