TIDAK! Microsoft Copilot gagal dalam setiap upaya yang saya lakukan

Ikon Microsoft Copilot di kaca pembesar

Rafael Henrique/Gambar SOPA/LightRocket melalui Getty Images

Baru-baru ini, kolega saya di ZDNET dan sesama peneliti AI Sabrina Ortiz menulis artikel, 7 Alasan Saya Menggunakan Copilot Daripada ChatGPT. Saya tidak pernah terkesan dengan Copilot, apalagi karena gagal dalam tes review yang saya lalui tahun lalu. Namun Sabrina menyampaikan beberapa poin bagus tentang kualitas penawaran Microsoft, jadi saya pikir saya akan mencobanya lagi.

Juga: Apa itu Copilot (sebelumnya Bing Chat)? Inilah semua yang perlu Anda ketahui

Untuk lebih jelasnya, karena Microsoft menyebut segalanya sebagai Copilot, Copilot yang saya uji adalah chatbot serba guna. Ada Copilot versi GitHub, tetapi dijalankan sebagai add-on dalam Visual Studio Code dan tersedia bulanan atau tahunan. Saya belum menguji GitHub Copilot.

Sebagai gantinya, saya mengunggah empat pengujian saya dan memasukkannya ke dalam chatbot Copilot.

Singkatnya, berikut deskripsi tes yang saya gunakan:

  1. Untuk menulis plugin WordPress: Ini menguji pengembangan web dasar, menggunakan bahasa PHP, di dalam WordPress. Ini juga memerlukan sedikit antarmuka pengguna. Jika AI chatbot lolos tes ini, maka dapat membantu membuat kode primitif sebagai asisten pengembang web. Saya awalnya menulis tes ini di “Saya meminta ChatGPT untuk menulis plugin WordPress yang saya perlukan. Tes ini berhasil dalam waktu kurang dari 5 menit.”
  2. Untuk menulis ulang fungsi string: Tes ini mengevaluasi seberapa baik chatbot AI dapat meningkatkan pengalaman pengguna. Jika chatbot AI lulus tes ini, ini dapat membantu membangun alat untuk pemrogram. Jika tidak berhasil, siswa tahun pertama dapat melakukan pekerjaan yang lebih baik. Saya menulis tes ini di “ChatGPT, jadi ChatGPT baru saja menghapus kode saya. Benar.”
  3. Mendapatkan kesalahan yang mengganggu: Tes ini memerlukan pemahaman yang baik tentang cara kerja WordPress karena jawaban yang jelas salah. Jika chatbot AI dapat menjawab pertanyaan ini dengan benar, maka basis pengetahuannya telah lengkap, bahkan dengan sistem seperti WordPress. Saya awalnya menulis tes ini di “ChatGPT, lalu ChatGPT baru saja menghapus kode saya. Benar.”
  4. Untuk menulis skrip: Pengujian tersebut meminta chatbot AI untuk menggunakan dua alat unik yang tidak diketahui oleh sebagian besar pengguna. Ini menguji pengetahuan chatbot AI lebih dari bahasa utama. Saya awalnya memposting tes ini di “Google memperkenalkan Gemini Code Assist dan saya berharap ini akan membantu pengembang.”

Mari kita analisis hasil setiap pengujian dan melihat perbandingannya dengan pengujian sebelumnya menggunakan Meta AI, Meta Code Llama, Google Gemini Advanced, dan ChatGPT.

1. Menulis plugin WordPress

Berikut hasil Copilot sebelah kiri dan hasil ChatGPT sebelah kanan.

kopilot-vs-chatgpt

Foto oleh David Gewirtz/ZDNET

Tidak seperti ChatGPT, yang membuat bidang tampak seragam, Copilot membiarkan ini sebagai latihan bagi pengguna, dengan mengatakan “Ingatlah untuk mengubah gaya dan perilaku jika perlu.”

Untuk mengujinya, saya menambahkan daftar nama. Ketika saya mengklik Baris Default, saya tidak mendapatkan hasil apa pun.

Melihat kode tersebut mengungkapkan beberapa kesalahan menarik, yang menunjukkan bahwa Copilot tidak tahu cara menulis kode WordPress. Misalnya, disediakan pengait yang ingin memproses formulir ke tindakan admin_init. Itu bukan yang bisa menyebabkan tampilan berubah, melainkan yang menyebabkan tampilan admin.

Juga: Cara menggunakan ChatGPT untuk menulis kode

Itu juga tidak memiliki kode untuk menampilkan baris default. Ia menyimpannya di pohon, tetapi tidak mengambilnya dan menampilkannya. Pemeriksaan duplikat sedikit lebih akurat karena mengurutkan nama bersama-sama, namun tidak cocok dengan nama, sehingga duplikat masih diperbolehkan.

Tampaknya Copilot menggunakan LLM (GPT-4) yang lebih canggih daripada versi gratis bahasa utama yang saya uji dengan ChatGPT gratis (GPT-3.5), tetapi hasil ChatGPT tampaknya lebih baik. Menurut saya itu luar biasa.

Berikut semua hasil tes ini dan tes sebelumnya:

  • Kopilot Microsoft: Bahasa: lengkap, fungsi: gagal
  • Meta AI: Bahasa: lengkap, fungsi: gagal
  • Panggilan Kode Meta: Kegagalan total
  • Google Gemini Tingkat Lanjut: Bahasa: bagus, kinerja: gagal
  • Obrolan GPT: Bahasa: bagus, kinerja: bagus

2. Menulis ulang fungsi string

Tes ini dirancang untuk menguji konversi dolar dan sen. Meskipun kode yang dihasilkan oleh Copilot menampilkan kesalahan jika nilai yang berisi satu huruf atau lebih dari satu nilai diteruskan ke kode tersebut, hal tersebut tidak sepenuhnya menjamin hal tersebut.

Misalnya, mereka mengizinkan nol di depan. Ini juga mengizinkan lebih dari dua digit di sebelah kanan koma desimal.

Juga: Bagaimana saya menggunakan ChatGPT untuk menulis skrip JavaScript

Meskipun hal ini menciptakan entri yang rawan kesalahan, membiarkannya menjadi benar dapat menyebabkan transaksi berikutnya gagal, jika mereka mengharapkan nilai tetap dalam dolar dan sen.

Jika ada siswa yang mengirimkan ini sebagai bagian, saya boleh mengirimkan C. Namun jika programmer di dunia nyata mengandalkan Copilot untuk menghasilkan kode yang tidak akan menyebabkan kegagalan, apa yang dihasilkan Copilot tidaklah cukup. Saya harus gagal.

Berikut semua hasil tes ini dan tes sebelumnya:

  • Kopilot Microsoft: Itu telah gagal
  • Meta AI: Itu telah gagal
  • Panggilan Kode Meta: Ia memenangkan
  • Google Gemini Tingkat Lanjut: Itu telah gagal
  • Obrolan GPT: Ia memenangkan

3. Menemukan bug yang mengganggu

Ini baru. Pertama-tama, izinkan saya memastikan dan menempatkan tes ini ke dalam konteksnya. Ini menguji kemampuan AI dalam menebak beberapa gerakan catur. Jawaban yang tampak jelas bukanlah jawaban yang benar. Saya mengalami hal ini ketika saya sedang mengerjakan soal yang akhirnya menjadi ujian ini.

ChatGPT, yang luar biasa pada saat itu, melihat “trik” masalahnya dan mengetahui dengan tepat kesalahan apa yang dilakukan kode tersebut. Untuk melakukan ini, Anda tidak perlu melihat apa yang dikatakan kode itu sendiri, tetapi bagaimana hal itu didasarkan pada cara kerja API WordPress. Seperti yang saya katakan, saya terkejut ChatGPT bisa setinggi itu.

Juga: Bagaimana ChatGPT dapat menulis ulang dan meningkatkan kode Anda yang sudah ada

Kopilot, ya, tidak terlalu banyak. Copilot menyarankan agar saya memeriksa ejaan nama fungsi dan nama kait WordPress saya. Hook WordPress adalah item yang diterbitkan, jadi harus diverifikasi, seperti yang saya lakukan, bahwa itu ditulis dengan benar. Dan karya saya adalah karya saya, jadi saya bisa menulisnya sesuka saya. Jika saya salah mengetiknya di suatu tempat di kode, IDE akan memperjelasnya.

Ia dengan senang hati mengulangi kata-kata masalahnya kepada saya, artinya menyelesaikannya. Itulah yang saya minta agar dilakukan, dan ia kembali kepada saya, memberi tahu saya masalahnya, saya menceritakannya, dan kemudian memberi tahu saya bahwa itu akan berhasil jika saya menghapusnya. Kemudian, diakhiri dengan “saran bantuan dari pengembang plugin atau forum komunitas. 😊” — dan ya, emoji itu adalah bagian dari respons AI.

Berikut semua hasil tes ini dan tes sebelumnya:

  • Kopilot Microsoft: Itu telah gagal. Menariknya. Dengan cepat. Luar biasa.
  • Meta AI: Ia memenangkan
  • Panggilan Kode Meta: Itu telah gagal
  • Google Gemini Tingkat Lanjut: Itu telah gagal
  • Obrolan GPT: Ia memenangkan

4. Menulis naskah

Saya tidak akan mencoba eksperimen ini pada AI, tetapi saya mencobanya pada Lark dengan ChatGPT dan saya menemukan jawabannya. Begitu juga Gemini Tingkat Lanjut.

Ide di balik pengujian ini adalah untuk menanyakan tentang alat pengetikan Mac yang tidak dikenal yang disebut Keyboard Maestro, serta bahasa skrip AppleScript Apple, dan sistem skrip Chrome. Sebagai catatan, Keyboard Maestro adalah salah satu alasan utama saya menggunakan Mac melalui Windows untuk produksi saya sehari-hari, karena memungkinkan seluruh OS dan berbagai program disesuaikan dengan kebutuhan saya. Itu adalah kekuatan itu.

Juga: Saya menggunakan ChatGPT untuk menulis rutinitas yang sama dalam 12 bahasa pemrograman utama. Ternyata begini

Bagaimanapun, untuk dapat mengujinya, AI harus menjelaskan cara menyelesaikan masalah menggunakan kombinasi fungsi Keyboard Maestro, kode AppleScript, dan Chrome API. Melanjutkan perilakunya, Kopilot tidak berjalan dengan baik. Itu sepenuhnya mengabaikan Keyboard Maestro (menurut saya itu tidak ada dalam kumpulan datanya).

Di AppleScript yang dibuat, ketika saya meminta untuk memeriksa hanya jendela saat ini, Copilot mengulangi proses untuk semua jendela, mengembalikan hasil dari jendela yang salah (yang terakhir dalam rangkaian).

Berikut semua hasil tes ini dan tes sebelumnya:

  • Kopilot Microsoft: Itu telah gagal
  • Meta AI: Itu telah gagal
  • Panggilan Kode Meta: Itu telah gagal
  • Google Gemini Tingkat Lanjut: Ia memenangkan
  • Obrolan GPT: Ia memenangkan

Semua hasil

Berikut hasil lengkap dari kelima tes tersebut:

Hasil di sini sungguh mengejutkan saya. Sudah lima bulan sejak terakhir kali saya menguji Copilot terhadap AI lain. Saya sepenuhnya berharap Microsoft memperbaiki bug tersebut. Saya berharap Copilot bisa melakukan hal yang sama, atau mungkin lebih baik, dibandingkan ChatGPT. Selain itu, Microsoft adalah investor besar di OpenAI (pembuat ChatGPT) dan Copilot didasarkan pada bahasa yang sama dengan ChatGPT.

Juga: Microsoft diam-diam meningkatkan versi gratis Copilot ke GPT-4 Turbo. Inilah mengapa ini penting

Namun, ia gagal secara spektakuler, menghasilkan beberapa AI terburuk yang pernah saya coba tanpa lulus satu tes pun. Tidak ada satu pun. Terakhir kali saya menguji Copilot, saya mencoba pencarian real-time menggunakan semua AI. Semua AI lainnya menjawab pertanyaan tersebut dan memberikan hasil yang dapat ditindaklanjuti. Kopilot mengembalikan informasi yang saya minta untuk diverifikasi, yang sama dengan yang saya temukan pada Tes 3 di atas.

Saya tidak senang. Faktanya, menurut saya hasil dari penawaran AI andalan Microsoft agak mengkhawatirkan. Pasti sangat bagus. Ah, Microsoft mengubah produknya dari waktu ke waktu. Mungkin tahun depan.

Sudahkah Anda mencoba mengunduh Copilot, Meta AI, Gemini, atau ChatGPT? Apa yang kamu alami? Beritahu kami di komentar di bawah.


Anda dapat mengikuti pembaruan harian saya di media sosial. Pastikan untuk berlangganan pembaruan mingguan saya, dan ikuti saya di Twitter/X di @DavidGewirtzdi Facebook di Facebook.com/DavidGewirtz, di Instagram di Instagram.com/DavidGewirtz, dan di YouTube di YouTube.com/DavidGewirtzTV.

Baca juga:  Lampu pengganti terbaik di tahun 2024: Telah diuji oleh para ahli

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *