GenAI Meta beralih dari prediksi sederhana ke permainan catur

meta-2024-multi-token-prediksi.png

Plot metode Meta disebut prediksi multi-token. Dalam pelatihan model AI, masukan diberikan seperti biasa, tetapi alih-alih model AI dilatih untuk menghasilkan satu sinyal sebagai jawaban – katakanlah – model dilatih untuk menghasilkan empat atau lebih secara bersamaan. tanda-tanda mungkin.

Ukuran

Model AI generatif seperti GPT-4 telah mengejutkan kita semua dengan kemampuannya menghasilkan kalimat yang mirip dengan pemikiran, seperti jawaban atas pertanyaan pilihan ganda. Namun, sampai pada kesimpulan yang “benar”, dalam menjawab pertanyaan ini, masih merupakan masalah besar, seperti yang ditunjukkan oleh fenomena “kecerdasan”, di mana model AI akan mengkonfirmasi – dengan keyakinan yang jelas – klaim yang salah.

Dalam sebuah proyek baru, para ilmuwan di Meta telah memodifikasi model linguistik skala besar (LLM) untuk menghasilkan keluaran yang benar dalam situasi tertentu, dengan memperkenalkan konsep hukuman untuk jawaban yang salah.

Juga: Meta ‘Cut’ versi Llama 2 menunjukkan cara untuk memperlambat AI

Metode ini, yang dikenal sebagai “prediksi multi-token”, bertujuan untuk menetapkan nilai respons redundan pada model AI. Dalam hal ini, ini mirip dengan metode terkenal dalam membangun mekanisme keamanan di AI seperti “memperkuat pembelajaran dari umpan balik manusia”, atau RLHF, sebuah metode OpenAI yang dikenal untuk mengurangi dampak ChatGPT.

(“Model AI” adalah bagian dari program AI yang terdiri dari beberapa jaringan saraf dan fungsi aktivasi yang penting untuk pengoperasian program AI.)

“Keuntungan ini terutama terlihat pada tolok ukur buatan seperti codec, di mana model kami selalu mengungguli tolok ukur keras hingga beberapa persen,” tulis penulis “Model Bahasa Besar Lebih Baik & Lebih Cepat melalui Prediksi Multi-token.” Penulis utama Fabian Gloeckle, bersama dengan rekan-rekannya di Facebook AI Research dan lembaga mitra CERMICS École des Ponts ParisTech dan LISN Université Paris-Saclay, memposting makalah tersebut bulan lalu di server penerbitan arXiv.

Kekhawatiran utama penulis adalah bahwa LLM – meskipun prestasinya mengesankan – tidak mencapai hal-hal seperti pemikiran atau perencanaan. Metode populer ChatGPT dan metode lainnya, yang disebut “prediksi berikutnya,” tulisnya, “tetap menjadi cara untuk memperoleh bahasa, pengetahuan dunia, dan keterampilan penalaran.”

Alih-alih prediksi satu per satu, di mana model AI dilatih untuk memprediksi satu “token”, seperti kata atau bentuk dalam daftar token – katakanlah, kata berikutnya dalam sebuah kalimat – kelas Meta- versi token dilatih untuk memprediksi beberapa token sekaligus, apa pun dia bisa menjadi kesimpulan yang benar dari proses tersebut.

Secara teknis, tim Gloeckle memodifikasi desain LLM mereka, yang disebut Transformer, sehingga memiliki empat “kepala” yang menghasilkan suara atau bentuk atau sinyal lain, bukan hanya satu kepala.

Keuntungan dari metode ini adalah dapat lebih mengingat model AI saat itu, dan membuat prediksi bagi pengguna, yang disebut dengan komponen AI. Karena banyak rangkaian rilis yang dapat bekerja di belakang layar untuk menguji berbagai kemungkinan, banyak paralelisme yang dapat terjadi. Jenis “pencitraan simulasi” ini berarti metode multidimensi “dapat mempercepat interpretasi sebanyak 3×” dibandingkan memprediksi satu hal dalam satu waktu.

Juga: Meta mengungkapkan pembelajaran AI generasi kedua dan inferensi chip

Ada juga wawasan yang mendalam. Jenis AI umum yang memilih satu sinyal dalam satu waktu adalah — dalam arti tertentu — lancar: Mereka tidak menganggap satu prediksi lebih penting daripada prediksi sebelumnya, selama prediksi tersebut benar.

Faktanya, tim melihat ada perbedaan besar antara beberapa tanda di kata tersebut. Dalam frasa yang disebutkan berulang kali – “berhenti gemetar, segel anak-anak” – ada tidaknya koma di antara kata tengahnya merupakan pembeda antara permintaan cepat tentang hak-hak binatang dan gambar lucu. Humor dalam kata-kata bermain di pikiran karena rasa mengubah nada kata-kata.

Intinya, seperti dicatat oleh orang lain, adalah bahwa “tidak semua opsi mesin sama pentingnya untuk menghasilkan teks yang berguna dari sampel bahasa,” tulis tim Gloeckle. “Meskipun beberapa token mengizinkan variasi gaya yang tidak memaksakan keseluruhan kata, ada pula yang memaksanya. poin keputusan yang terkait dengan struktur semantik kata yang lebih tinggi dan dapat memutuskan apakah jawabannya dianggap berguna atau tidak untuk ikut campur.”

Juga: Otomatisasi hafalan terjadi tahun lalu: AI mendorong lebih banyak kecerdasan ke dalam pengembangan perangkat lunak

Pendekatan multi-subjek dan multi-kelompok, tulis tim, memungkinkan validitas setiap prediksi didasarkan pada prediksi lain pada waktu yang sama. “Secara umum, kami percaya bahwa kualitas pembuatan kata bergantung pada pemilihan keputusan yang tepat, dan prediksi n-token mendorong hal ini,” tulis tim tersebut.

“Pilihan” mengacu pada saat-saat ketika satu prediksi mempengaruhi prediksi lain yang dapat menentukan keseluruhan kata. “Prediktor multivariat menetapkan bobot pelatihan berdasarkan kecocokan relatifnya terhadap pengganti,” tulis tim tersebut.

Secara metaforis, tim Gloeckle membandingkan memilih kata berikutnya dengan menempuh jalan: Setiap pilihan bisa menjadi jalan menuju hadiah, atau jalan menuju bencana tertentu.

Dia menggunakan diagram labirin untuk menggambarkan “tugas prediksi berurutan” (begitu dia menyebut memprediksi kata berikutnya). Hasil yang benar dapat menjadi faktor kunci yang mengarahkan model AI ke jalur yang benar atau salah – “keputusan berikutnya”, begitu mereka menyebutnya.

meta-2024-poin-pilihan-dalam-bahasa-model.png

Memilih simbol berikutnya di sebelah kanan adalah seperti berjalan di garis, tulis penulisnya: terkadang, pilihannya adalah “hasil” yang akan mengirim program menuju kemenangan (piala) atau kekalahan (tengkorak dan tulang bersilang.)

Ukuran

Dalam kombinasi teknologi yang menarik, penulis menghubungkan pendekatan multi-dimensi dengan metode RLHF, mencoba memprediksi imbalan dalam jarak terjauh: “Bayangkan bahwa bahasa ini digunakan untuk mengajarkan penguatan dan mendorong pembelajaran dari umpan balik manusia. .. . (dimana) perbuatan adalah tanda-tanda tunggal (…) yang harus dilakukan.”

Menghubungkan prediksi tekstual dengan hadiah dengan cara ini membawa semua area di mana fungsi hadiah telah maju ke dalam permainan. Fungsi penghargaan digunakan dalam semua jenis masalah AI yang disebut pembelajaran penguatan, bukan hanya RLHF.

Misalnya, unit DeepMind Google menggunakan pembelajaran penguatan untuk membuat AlphaZero, sebuah program yang dapat mengalahkan orang dalam catur dan Go. Itu juga digunakan dalam program AlphaStar untuk berkompetisi dalam kompetisi keterampilan video game melawan manusia di game StarCraft II di kehidupan nyata.

Juga: Snowflake mengatakan LLM barunya mengungguli Llama 3 Meta di separuh kursus

Gamifikasi ini mempunyai efek langsung dalam menciptakan solusi yang lebih “ideal” dari proses multi-level. Para penulis memberikan hasil perbandingan yang berbeda. Salah satunya, membandingkan bagaimana model AI dengan 7 miliar parameter saraf, atau bobot, meningkatkan kinerja saat beralih dari prediksi tunggal ke multivariat.

Dalam pengujian yang disebut “Mostly Basic Programming Problems,” atau MBPP, yang dikembangkan di Google pada tahun 2021, model AI harus menghasilkan kode seperti baris Python untuk tugas tertentu. Pada tolok ukur tersebut, perangkat lunak selalu mencapai akurasi tertinggi dan prediksi multivariat.

Ada juga titik manisnya. Model AI tampaknya bekerja paling baik pada empat token sekaligus, dan memprediksi lebih dari itu – enam atau delapan – menghasilkan hasil yang buruk.

meta-2024-hasil-benchmark-untuk-prediksi-multi-token.png

Dalam pengujian standar seperti “Masalah Pemrograman Berganda”, di mana LLM harus menghasilkan kode, model AI yang sama, yang memiliki 7 miliar parameter saraf, atau bobot, mencapai akurasi tinggi ketika banyak token dihasilkan, seperti yang ditunjukkan. “n,” jumlah simbol yang dihasilkan pada satu waktu.

Memangkas

Seperti banyak hal di jaringan saraf, tidak jelas mengapa prediksi multi-sinyal harus lebih baik daripada prediksi sinyal tunggal. Saran penulis adalah dengan melatih model untuk prediksi banyak indikator, model berikut menghindari inkonsistensi yang terjadi ketika model AI membuat prediksi langsung dengan masukan nyata dari pengguna. Itulah yang disebut dengan “perbedaan distribusi antara wajib belajar guru dan generasi mandiri”.

Selain itu: Anda dapat menghasilkan banyak uang dari AI – tetapi hanya jika orang memercayai data Anda

Ada banyak faktor yang perlu dipertimbangkan, tulis Gloeckle dan rekannya. Salah satu tujuannya adalah untuk menetapkan cara menciptakan sweet spot, jumlah indikator yang tepat yang menghasilkan akurasi tinggi. Cara lainnya adalah bagaimana menentukan jumlah data yang tepat yang diperlukan untuk melatih model AI, karena “ukuran kata optimal dari prediksi banyak sinyal berbeda dengan prediksi masa depan, dan mengoreksinya dapat memberikan hasil yang lebih baik.”

Terlebih lagi, studi motivasi budaya mungkin menawarkan lebih banyak manfaat dari AI buatan daripada yang diperkirakan banyak orang sejauh ini, yang berarti akan ada konvergensi kedua pendekatan ini.

Baca juga:  Ponsel terbaik untuk dibeli pada tahun 2024

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *