Dunia sedang menantikan apa yang akan dilakukan Apple untuk menantang dominasi Microsoft dan Google dalam pengembangan AI. Banyak yang mengira inovasi raksasa tersebut akan berupa jaringan saraf di iPhone dan perangkat iOS lainnya. Tanda-tanda kecil muncul di sana-sini.
Juga: Bagaimana kemajuan AI Apple dapat membuat atau menghancurkan iPhone 16
Apple baru saja meluncurkan bahasa “terintegrasi” (LLM) terbesarnya untuk aplikasi seluler, OpenELM, terutama dengan menggabungkan pencapaian beberapa organisasi penelitian, termasuk pakar pembelajaran mendalam di Google dan mahasiswa di Stanford dan tempat lain.
Semua kode perangkat lunak OpenELM diposting di GitHub, bersama dengan berbagai dokumentasi untuk tutorialnya.
Karya Apple, dijelaskan dalam makalah oleh Sachin Mehta dan tim, “OpenELM: Keluarga Model Bahasa yang Efisien dengan Pelatihan Sumber Terbuka dan Kerangka Inferensi”, yang diposting di server publikasi arXiv, berfokus pada perangkat seluler sebagai ukurannya. Jaringan saraf yang mereka gunakan hanya memiliki 1,3 miliar skala atau lapisan saraf.
Jumlah ini kurang dari ratusan miliar partisi yang digunakan oleh model seperti GPT-4 OpenAI atau Gemini Google. Semakin banyak lapisan meningkatkan jumlah memori komputer yang dibutuhkan, sehingga jaringan saraf kecil dapat dengan mudah masuk ke dalam perangkat seluler.
Perpaduan Mehta dan tim tidak akan begitu mengesankan tanpa katalis utama: kinerja. Para peneliti memodifikasi lapisan jaringan saraf dalam sehingga model AI lebih efisien dibandingkan model sebelumnya di mana data harus dihitung untuk melatih jaringan saraf.
Juga: Tahun 2024 bisa menjadi tahun dimana AI belajar dari tangan Anda
Secara khusus, mereka dapat memenuhi atau mengalahkan hasil beberapa jaringan saraf pada komputer seluler “dengan memerlukan setidaknya 2 × token pelatihan”, di mana token adalah huruf, kata, atau fragmen kalimat dalam data pelatihan.
Apple memulai dari jalur yang sama seperti kebanyakan LLM: peralihan. Transformer adalah jaringan saraf khas untuk pemahaman bahasa, yang diperkenalkan oleh ilmuwan Google pada tahun 2017. Sejak saat itu, setiap bahasa utama, termasuk rangkaian model BERT Google dan rangkaian model GPT OpenAI, telah mengadopsi transformator.
Apple unggul dalam menggabungkan transformator dengan metode yang diperkenalkan pada tahun 2021 oleh para peneliti di Universitas Washington, Facebook AI Research, dan Allen Institute for AI, yang disebut DeLighT. Pekerjaan ini berbeda dari metode konvensional di mana semua bobot saraf adalah sama untuk setiap “bagian” jaringan, urutan matematis yang dilalui data.
Sebaliknya, para peneliti secara selektif mengubah setiap bagian agar memiliki jumlah bagian yang berbeda. Karena beberapa komponen memiliki bagian yang lebih sedikit, mereka menyebut metodenya sebagai “transformator dalam dan ringan”, maka dinamakan DeLighT.
Juga: Snowflake mengatakan LLM barunya mengungguli Llama 3 Meta di separuh kursus
Para peneliti mengatakan: “DeLight menyamai atau membuat Transformers asli rata-rata 2 hingga 3 kali lebih kecil.”
Apple, menggunakan DeLighT, menciptakan OpenELM, di mana setiap jaringan saraf memiliki jumlah parameter saraf yang berbeda, sebuah pendekatan non-parametrik.
“LLM yang ada menggunakan konfigurasi yang sama untuk setiap bagian transformator dalam model, sehingga menghasilkan konfigurasi yang sama di seluruh bagian,” tulis Mehta dan tim. “Berbeda dengan model ini, setiap bagian transformator di OpenELM memiliki konfigurasi yang berbeda (misalnya, jumlah head dan jaringan feed forward), yang menghasilkan parameter berbeda untuk setiap bagian model.”
Pendekatan tanpa fitur, tulisnya, “memungkinkan OpenELM memanfaatkan anggaran yang tersedia dengan lebih baik untuk mencapai akurasi yang lebih tinggi.”
Juga tidak! Microsoft Copilot gagal dalam setiap upaya yang saya lakukan
Persaingan Apple membandingkan dirinya dengan penggunaan jaringan saraf. Pesaingnya termasuk MobiLlama dari Mohamed bin Zayed University of AI dan institusi terkait, serta OLMo, yang diluncurkan tahun ini oleh para peneliti dari Allen Institute for Artificial Intelligence dan para ahli dari University of Washington, Yale University, New York University, dan Carnegie Mellon. Universitas.
Eksperimen Apple tidak dilakukan di perangkat seluler. Sebagai gantinya, perusahaan menggunakan workstation Intel dengan satu GPU Nvidia dan Ubuntu Linux.
Dalam beberapa tolok ukur, perangkat lunak OpenELM berkinerja baik, meskipun lebih kecil dan/atau menggunakan lebih sedikit token. Misalnya, dalam enam dari tujuh pengujian, OpenELM mengalahkan OLMo meskipun memiliki lebih sedikit saham – 1,08 miliar berbanding 1,18 miliar – dan hanya 1,5 triliun token pelatihan dibandingkan OLMo yang berjumlah 3 triliun.
Juga: Bagaimana menghindari sakit kepala dalam pengembangan keterampilan AI
Meskipun OpenELM mungkin lebih akurat daripada model terbaiknya, penulis mencatat area penelitian di mana OpenELM terkadang lambat dalam membuat prediksi.
Pertanyaan terbuka mengenai proyek AI iOS Apple adalah apakah raksasa teknologi itu akan mengizinkan teknologi dari Google atau pihak lain yang memimpin pengembangan AI. Investasi Apple pada perangkat lunak sumber terbuka menghadirkan peluang luar biasa bagi Apple untuk mencoba mengembangkan ekosistem yang dapat dimanfaatkan oleh perangkatnya.