Indeks

Ilmuwan AI: ‘Kita perlu berpikir di luar batasan bahasa’

Foto PM/Gambar Getty

Pengembang kecerdasan buatan (Gen AI) terus-menerus mendorong batasan dari apa yang mungkin dilakukan, seperti Google Gemini 1.5, yang dapat memproses jutaan informasi sekaligus.

Namun, tingkat perkembangan ini pun tidak cukup untuk membuat kemajuan nyata dalam AI, kata para pesaing yang bersaing ketat dengan Google.

Juga: 3 mode Meta Llama 3.1 ditingkatkan untuk Gen AI

“Kita harus berpikir di luar kebiasaan LLM,” kata Yoav Shoham, salah satu pendiri dan Co-CEO AI21 Labs, dalam sebuah wawancara dengan ZDNET.

AI21 Labs, sebuah startup swasta, bersaing dengan Google di LLM, jenis bahasa utama yang menjadi dasar Gen AI. Shoham, mantan ilmuwan senior di Google, adalah profesor emeritus di Universitas Stanford.

Juga: AI21 dan Databricks menunjukkan bahwa open source dapat mengurangi AI secara signifikan

“Mereka luar biasa dengan apa yang mereka hasilkan, namun mereka tidak memahami apa yang mereka lakukan,” kata LLM. “Saya pikir bahkan banyak orang di jaringan saraf tidak berpikir bahwa Anda dapat membangun model bahasa yang besar, dan itu akan menyelesaikan segalanya.”

Peneliti AI21 Labs menyoroti kesalahan dasar GPT-3 OpenAI sebagai contoh bagaimana model tersandung pada pertanyaan dasar. Jawabannya, menurut perusahaan, adalah melengkapi LLM dengan hal lain, seperti modul yang dapat bekerja penuh waktu.

laboratorium AI21

Perusahaan Shoham telah memelopori metode Gen AI yang melampaui “transformator” tradisional, yang merupakan elemen kunci dari banyak LLM. Misalnya, perusahaan pada bulan April meluncurkan model yang disebut Jamba, kombinasi menarik antara transformator dengan jaringan saraf orde kedua yang disebut model ruang negara (SSM).

Kombinasi ini memungkinkan Jamba meningkatkan model AI lainnya pada metrik utama.

Shoham meminta ZDNET untuk menguraikan satu metrik utama: panjang cerita.

Panjang sebuah cerita adalah jumlah masukan – dalam bentuk simbol, biasanya kata-kata – yang dapat ditangani oleh suatu program. Llama 3.1 Meta menawarkan total 128.000 token di layar. Jamba AI21 Labs, yang juga open source, memiliki jumlah dua kali lipat – jendela berisi 256.000 gambar.

Shoham. “Bahkan banyak orang di jaringan saraf tidak berpikir Anda bisa membuat bahasa besar, dan mereka menyelesaikan semuanya.”

Gambar Roei Shor

Dalam pengujian head-to-head, dengan menggunakan pengujian benchmark Nvidia, Shoham mengatakan model Jamba adalah satu-satunya model selain Gemini yang dapat mempertahankan jendela 256K “dalam praktiknya”. Panjang cerita dapat dilacak sebagai satu item, namun dapat dihilangkan sebagai tampilan sub-item seiring bertambahnya panjang cerita.

Juga: 3 mode Meta Llama 3.1 ditingkatkan untuk Gen AI

“Hanya kami yang mengetahui kebenaran dalam periklanan,” dalam hal panjang cerita, kata Shoham. “Semua contoh lain terbuang sia-sia karena panjangnya cerita.”

Gemini Google tidak dapat ditingkatkan melebihi 128K, kata Shoham, mengingat batasan yang diberikan pada antarmuka pemrograman aplikasi Gemini oleh Google. “Mereka memiliki jendela yang sangat bagus, setidaknya 128K,” katanya.

Jamba lebih murah dari Gemini untuk jendela 128K yang sama, kata Shoham. “Harganya sekitar 10 kali lebih mahal dari harga kita,” menurut perkiraan harga dari Gemini versus Jamba, sebuah praktik pembandingan, katanya.

Semua ini, tegas Shoham, berasal dari keputusan “arsitektur” untuk melakukan sesuatu yang berbeda, menghubungkan trafo ke SSM. “Anda dapat menunjukkan berapa banyak panggilan (API) yang dilakukan” ke model tersebut, katanya kepada ZDNET. “Bukan hanya biayanya, tapi latensinya, tapi sifat infrastrukturnya.”

Shoham menjelaskan temuannya dalam postingan blog.

Namun, semua itu tidak berarti kecuali Jamba melakukan sesuatu yang hebat. Manfaat dari memiliki jendela informasi yang lebih besar menjadi jelas, kata Shoham, ketika dunia bergerak menuju hal-hal seperti retrieval-augmented generation (RAG), sebuah cara yang semakin umum untuk menghubungkan LLM ke sumber informasi eksternal, seperti database.

Juga: Ciptakan lingkungan RAG: Bagaimana kekuatan Gen AI berubah

Jendela informasi utama memungkinkan LLM mengakses dan mengedit informasi dari sumber RAG untuk mendapatkan solusi.

“Pada akhirnya, dapatkan sebanyak yang Anda bisa (dari database), tapi jangan terlalu banyak,” adalah pendekatan yang tepat untuk RAG, kata Shoham. “Sekarang, Anda bisa mendapatkan lebih dari sebelumnya, jika Anda memiliki jendela yang lebih panjang, dan sekarang model bahasa memiliki lebih banyak hal untuk digunakan.”

Ketika ditanya apakah ada contoh praktis dari upaya ini, Shoham mengatakan kepada ZDNET: “Masih terlalu dini bagi kami untuk menunjukkan rencana percontohan. Saya dapat memberitahu Anda bahwa kami memiliki beberapa pelanggan, yang kecewa dengan solusi RAG, yang bekerja dengan kami sekarang. . Dan saya yakin kami akan dapat menunjukkan hasilnya secara publik, tetapi itu tidak bertahan lama.”

Jamba, yang telah diunduh sebanyak 180.000 kali sejak diposting di HuggingFace, tersedia di layanan inferensi Bedrock AWS Amazon dan Microsoft Azure, dan “orang-orang melakukan hal-hal menarik dengannya,” kata Shoham.

Namun, bahkan RAG yang ditingkatkan pun tidak menyelamatkan berbagai kekurangan Gen AI, mulai dari observasi hingga risiko generasi teknologi menjadi omong kosong.

“Saya pikir kita akan melihat orang-orang yang mencari lebih banyak, sistem yang tidak ingin menjadi bodoh, dan memiliki sesuatu yang tampak seperti pemahaman nyata, memiliki jawaban yang sempurna,” kata Shoham, “dan ini bukan LLM murni. “

Juga: Waspadai ‘runtuhnya paradigma’ AI: Bagaimana studi pemrosesan data mencemari generasi berikutnya

Dalam sebuah artikel yang diposting bulan lalu di server penerbitan arXiv, bersama rekannya Kevin Leyton-Brown, berjudul ‘Pemahaman Pemahaman: Kerangka Pragmatis yang Terinspirasi oleh Multilingualisme’, Shoham menunjukkan bagaimana, dalam banyak operasi, seperti manipulasi data aritmatika dan tabel, LLM menghasilkan “penjelasan masuk akal yang tidak sesuai dengan makalah simbolis yang menjadi dasar penulisannya.”

“Kami menunjukkan cara menggunakan (LLM) di atas meja secara acak, bahwa operasi meja akan menang 70% atau 80%,” kata Shoham kepada ZDNET. “Itu biasanya menyenangkan karena Anda mendapatkan sesuatu secara cuma-cuma, tapi jika itu pekerjaan penting, Anda tidak bisa melakukan itu.”

Kegagalan seperti itu, kata Shoham, berarti bahwa “seluruh sistem kecerdasan buatan akan mengatakan bahwa LLM mempunyai pekerjaan, namun mereka adalah bagian dari sistem AI yang lebih besar yang menghadirkan hal-hal yang tidak dapat Anda lakukan dengan LLM.”

Beberapa hal yang perlu melampaui LLM adalah berbagai alat yang telah muncul dalam beberapa tahun terakhir, kata Shoham. Fitur seperti panggilan telepon memungkinkan LLM menetapkan aplikasi ke jenis perangkat lunak tertentu yang dirancang untuk aplikasi tertentu.

“Jika Anda ingin menambahkan, bahasa menambahkan, tetapi mereka melakukannya dengan buruk,” kata Shoham. “Hewlett-Packard memberi kami kalkulator pada tahun 1970, mengapa mereka menemukan kembali roda? Itulah lambang sebuah alat.”

Penggunaan LLM gabungan secara luas diklasifikasikan oleh Shoham dan lainnya di bawah rubrik “sistem AI gabungan”. Dengan bantuan perusahaan manajemen data Databricks, Shoham baru-baru ini menyelenggarakan lokakarya tentang cara membuat sistem tersebut.

Contoh penggunaan alat tersebut adalah untuk menampilkan LLM dan “pandangan semantik” dari konten dalam tabel, kata Shoham. “Sekarang, Anda mendekati seratus persen” dari LLM, katanya, “dan Anda tidak bisa mendapatkannya jika Anda menggunakan model bahasa tanpa tambahan apa pun.

Selain alat, Shoham mendorong penelitian ilmiah ke arah lain di luar pendekatan pembelajaran mendalam yang telah mendominasi AI selama lebih dari satu dekade.

“Anda tidak bisa memiliki ide yang kuat hanya dengan melakukan propagasi di latar belakang dan berharap yang terbaik,” kata Shoham, mengacu pada propagasi latar belakang, sebuah aturan pembelajaran yang banyak diajarkan pada AI saat ini.

Juga: Anthropic menghadirkan Penggunaan Alat ke Claude dari versi beta, menjanjikan dukungan yang luar biasa

Shoham berhati-hati untuk tidak membahas konsekuensinya. Namun, ia mengatakan bahwa apa yang dibutuhkan tersebut terwakili – secara cerdas – dalam sistem yang ia dan rekan-rekannya perkenalkan pada tahun 2022 yang disebut Sistem MRKL (Modular Reasoning, Knowledge, and Language).

Makalah ini menggambarkan sistem MRKL sebagai “Neural, termasuk modul bahasa besar dan beberapa LM yang lebih kecil,” dan, “Simbolis, misalnya, kalkulator, pengonversi mata uang, atau panggilan API. ke database.”

Nafas itu adalah proses neuro-simbolis AI. Dengan cara ini, Shoham bergabung dengan para pemikir arus utama yang mengkhawatirkan dominasi Gen AI. Kritikus AI Gary Marcus, misalnya, berpendapat bahwa AI tidak akan pernah mencapai kecerdasan tingkat manusia tanpa kemampuan untuk mengendalikannya.

MRKL telah diluncurkan sebagai program yang disebut Jurassic-X, yang diuji oleh perusahaan bersama mitranya.

Juga: OpenAI sedang melatih penerus GPT-4. Berikut tiga peningkatan besar yang dapat Anda harapkan dari GPT-5

Sistem MRKL harus menggunakan LLM untuk memecahkan masalah yang melibatkan pernyataan sederhana, seperti, “Sembilan puluh sembilan botol bir di dinding, satu jatuh, berapa botol bir di dinding?” Perhitungan sebenarnya ditangani oleh jaringan saraf kedua dengan akses ke rumus matematika, menggunakan informasi yang diperoleh dari teks dan contoh pertama.

“Router” di antara keduanya mempunyai tugas yang sulit untuk memilih apa yang akan dihapus dari teks yang disediakan oleh LLM dan memilih “modul” agar hasilnya masuk akal.

Proyek ini berarti bahwa “tidak ada makan siang gratis, namun makan siang sering kali murah,” tulis Shoham dan timnya.

Dari sudut pandang produk dan bisnis, “kami ingin terus menyediakan fitur tambahan bagi orang-orang untuk membangun sesuatu,” kata Shoham.

Intinya adalah sistem seperti MRKL tidak harus melakukan segalanya agar bisa efektif, katanya. “Jika Anda mencoba untuk mengambil LLM internasional yang memahami soal matematika dan cara menggambar keledai di bulan, dan menulis puisi, dan melakukan semua itu, biayanya bisa mahal,” katanya.

“Tetapi 80% konten bisnis adalah teks – Anda punya tabel, Anda punya grafik, tapi keledai di bulan bukanlah bagian terpenting dari pekerjaan itu.”

Mengingat skeptisisme Shoham terhadap LLM itu sendiri, adakah bahaya bahwa Gen AI saat ini dapat menyebabkan apa yang disebut musim dingin AI, yaitu hilangnya lapangan kerja secara tiba-tiba seperti bunga dan uang, hingga benar-benar kering?

“Itu pertanyaan yang wajar, dan saya tidak tahu jawabannya,” katanya. “Saya pikir kali ini berbeda, di tahun 1980-an,” di musim dingin AI yang lalu, “tidak ada cukup nilai yang diciptakan oleh AI untuk menimbulkan kebisingan. Jadi, cukup banyak nilai yang diciptakan untuk membantu kita melewatinya.”

Exit mobile version