Bisakah AI menjadi sumber terbuka? Itu sulit

Konsep data AI

zf L/Getty Gambar

Tanpa open source, tidak ada kecerdasan buatan (AI). Waktu. Akhir kalimat.

Awal mula AI tidak hanya berasal dari bahasa open source Lisp tahun 1960-an; Pengembang AI terkemuka, seperti ChatGPT, Llama 2, dan DALL-E, dibangun di atas fondasi sumber terbuka yang kokoh. Namun, model dan programnya bukan open source.

Juga: Ilmuwan AI: ‘Kita perlu berpikir di luar batasan bahasa’

Oh, saya tahu ketika CEO Meta Mark Zuckerberg meluncurkan Llama 3.1 di postingan Threads, dia berkata, “AI sumber terbuka adalah jalan ke depan,” dan bahwa Meta “mengambil langkah selanjutnya menuju AI sumber terbuka sebagai bagian dari industri.”

Saat menjadi pembicara utama di SIGGRAPH bersama CEO Nvidia Jensen Huang, Zuckerberg mengakui bahwa:

Kami tidak mengikuti (open source) demi komitmen, meskipun saya yakin ini akan membantu lingkungan. Kami melakukan ini karena kami pikir hal ini dapat meningkatkan penawaran kami dengan menciptakan ekosistem yang lebih kuat. … Ini mungkin terdengar egois, namun setelah membangun perusahaan ini selama beberapa waktu, salah satu tujuan saya dalam 10 atau 15 tahun ke depan adalah memastikan kami dapat menciptakan teknologi yang penting bagi pengalaman kami.

Zuckerberg serius dengan open source. Seperti yang telah kita lihat berkali-kali, open source adalah cara untuk menghubungkan teknologi. Misalnya, kami sekarang menggunakan Linux yang kompatibel daripada beberapa versi Unix yang tidak kompatibel karena Linus Torvalds Linux adalah open source di bawah GPLv2.

Juga: Laporan baru Gedung Putih mencakup AI open source

Tapi saya juga membaca lisensi Llama 2 Meta dan Perjanjian Pengguna Llama. Ini bukan sumber terbuka. Itu tidak dekat.

Zuck tidak sendirian, ia bermain cepat dan longgar dengan open source. Dari namanya mungkin Anda mengira OpenAI merupakan open source. Itu juga terbuka ketika GPT-1 dan GPT-2 berada pada puncaknya. Itu sudah lama sekali — dan miliaran dolar — yang lalu. Dimulai dengan GPL-3, OpenAI menutup pintunya.

Seperti yang dikatakan Mark Dingemanse, seorang ilmuwan linguistik di Universitas Radboud di Nijmegen, Belanda, dalam sebuah artikel di Nature, “Beberapa perusahaan besar mendapatkan keuntungan dengan mengklaim memiliki model terbuka sambil mencoba untuk” menghindari pengungkapan sesedikit mungkin. “

Memang benar, Dingemanse dan rekannya Andreas Liesenfeld hanya menemukan satu chatbot AI yang dapat digambarkan sebagai open source: The Hugging Face-hosted Large-Language Model (LLM) BigScience/BloomZ.

LLM lain yang memenuhi syarat termasuk Falcon, FastChat-T5, dan OpenLLaMA. Namun banyak LLM yang memiliki kepemilikan eksklusif, terakreditasi, atau tidak jelas yang tidak akan diberitahukan pemiliknya kepada Anda. Seperti yang diamati oleh Electronic Frontier Foundation (EFF), “Sampah Masuk, Injil Keluar.”

Saat ini, sebagian besar perangkat lunak berbasis AI bersifat open source. TensorFlow adalah algoritma pembelajaran dinamis yang mendukung berbagai bahasa pemrograman dan digunakan dalam pembelajaran mesin. PyTorch terkenal dengan grafiknya yang fleksibel dan kemudahan penggunaan untuk pembelajaran mendalam yang cepat dalam memori.

Juga: Bagaimana open source menarik beberapa insinyur terbaik dunia

LLM dan program yang dibangun di atasnya adalah masalah lain. Semua chatbot dan perangkat lunak AI yang populer adalah hak milik.

Jadi, mengapa perusahaan mengatakan bahwa proyek mereka bersifat open source? Dengan “membersihkan” upaya mereka, dunia usaha berharap dapat menanamkan cita-cita transparansi, kolaborasi, dan inovasi dalam program mereka. Mereka juga berharap dapat mengelabui pemrogram agar membantu memajukan proyek mereka. Ini semua tentang pemasaran.

Tentu saja, kita perlu membuat definisi terbuka yang kompatibel dengan perangkat lunak AI untuk menghentikan upaya palsu ini. Sayangnya, hal itu lebih mudah diucapkan daripada dilakukan.

Ketika orang-orang terus memperdebatkan rincian tentang apa yang open source dan apa yang tidak, Open Source Initiative (OSI) telah memberikan definisi, Open Source Definition (OSD), selama hampir dua dekade. Koneksi open source dan AI sangatlah kompleks.

Faktanya, Joseph Jacks, pendiri Venture Capitalist (VC) FOSS Capital, mengatakan “tidak ada yang namanya AI open source” karena “open source jelas dirancang untuk membuat perangkat lunak.”

Itu benar. Selain itu, landasan hukum Open-source adalah undang-undang hak cipta. Seperti yang diamati Jacks, “Neural Net Weights (NNWs) (yang penting dalam AI) bukanlah kode sumber – mereka tidak dapat dibaca oleh manusia, juga tidak dapat dikontrol.”

Seperti yang dikatakan Stefano Maffulli, direktur eksekutif OSI kepada saya, perangkat lunak dan data dicampur dalam AI, dan izin yang ada dilanggar. Secara khusus, masalah muncul ketika semua data dan kode diintegrasikan ke dalam objek AI/ML tradisional – seperti kumpulan data, model, dan bobot. Oleh karena itu, kita perlu membuat definisi baru tentang AI terbuka,” kata Mafulli.

Juga: Pemerintah federal Swiss ingin merilis perangkat lunaknya sebagai open source

Namun, untuk mencapainya tidaklah mudah. Perdebatan utama adalah seberapa besar fleksibilitas yang dibutuhkan, terutama dalam hal pendidikan. Meskipun beberapa orang berpendapat bahwa merilis model yang telah dilatih sebelumnya tanpa data pelatihan sudah cukup, ada pula yang berpendapat bahwa AI open source yang sebenarnya juga harus menyertakan akses ke data pelatihan.

Seperti Julia Ferraioli (Stet: mengeja namanya dengan huruf kecil)Ahli Strategi AI/ML Sumber Terbuka Amazon Web Services (AWS), seperti yang terlihat dalam postingan blog, adalah definisi terbaru dari draf AI 0,08 sumber terbuka OSI, “satu-satunya bagian yang sistem ingin diberi label sebagai ‘sumber terbuka. AI’ mungkin perlu mempublikasikan dengan: metode bahan pengajaran dan metode pengajaran data dan nilai;

Ferraioli melanjutkan, tidak ada satupun yang memberikan prospek untuk mengadopsi sistem AI untuk mengenali data yang digunakan untuk melatih sistem. Tanpa data ini, apakah AI bisa diaktifkan? Ferraioli berpendapat hal itu tidak mungkin.

Dia bukan satu-satunya yang mempunyai tanggung jawab itu. Dia mengutip rekannya, Pakar Strategi Teknis Sumber Terbuka Utama AWS, Tom Callaway, yang menulis, “Tanpa persyaratan bahwa data harus terbuka, tidak mungkin bagi siapa pun tanpa pengetahuan untuk mempelajari atau memodifikasi LLM, atau mendistribusikan semua sumbernya. Anda dapat menggunakan itu, panggil / ubah sedikit” ya, tetapi Anda tidak bisa memahaminya untuk memahami mengapa ia melakukan apa yang dilakukannya.”

Juga: Lebih dari sekadar uang, pekerja lepas menginginkan dua hal ini dari pekerjaan mereka yang lain

Dia ada benarnya. Pada intinya, open source adalah tentang memahami kode. Dalam kasus AI, hal ini juga berarti data. Seperti yang dikatakan Maffulli pada Konferensi OSPO untuk Kebaikan PBB baru-baru ini, “Meskipun ada kesepakatan luas mengenai prinsip-prinsip utama, jelas bahwa ada masalah besar dalam rinciannya.” Anda bisa mengatakannya lagi.

Pada konferensi yang sama, Sasha Luccioni, AI dan direktur iklim Hugging Face, berkata, “Anda tidak bisa mengharapkan semua perusahaan 100% terbuka seperti yang ditentukan oleh lisensi terbuka. Anda tidak bisa mengharapkan perusahaan menyerahkan semua yang mereka buat. uang untuk itu dan melakukannya dengan cara yang mereka sukai.” .”

Namun, Luccioni percaya bahwa “lisensi AI yang andal bisa ada” – yang bersifat open source – di mana Anda dapat mengekspresikan kata-kata terbuka Anda. Dengan sedikit mengubah bahasanya, Anda dapat bergerak maju dengan cara yang membuat perusahaan, pemerintah, dan pendidikan semuanya terbuka, alih-alih mengatakan bahwa proyek atau izinnya tidak terbuka.

Juga: Mengapa kebanyakan orang tidak menggunakan Linux untuk desktop? Saya punya teori yang mungkin tidak Anda sukai

Penyedia sumber terbuka tidak setuju dengan mereka. Saya menduga perdebatan ini akan berlanjut selama bertahun-tahun yang akan datang.

OSI, dengan dukungan 70 orang lainnya, terdiri dari peneliti, pengacara, pembuat kebijakan, aktivis, dan perwakilan perusahaan teknologi besar seperti Meta, Google, dan Amazon serta kelompok seperti Linux Foundation dan Alfred P. Sloan Foundation, sedang berkelahi. untuk menghasilkan definisi kerja. Tujuannya adalah untuk menyajikan versi formal Definisi AI Open Source pada konferensi All Things Open berikutnya di Raleigh, North Carolina, pada tanggal 27 hingga 29 Oktober.

Aku akan kesana. Jadi tetap bersatu, semuanya. Kombinasi data terbuka dan pengembangan AI mendorong kemajuannya. Hal ini juga memungkinkan inovasi yang cepat, mendorong kolaborasi, dan mendemokratisasi akses terhadap alat AI yang canggih. Namun, evolusinya menjanjikan perjalanan yang panjang dan sulit.

Baca juga:  Salah satu jam tangan pintar Android terbaik yang pernah saya coba bukan buatan Google atau Samsung

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *