Kecerdasan Buatan Generatif (AI) telah menunjukkan kemampuan luar biasa dalam menjawab pertanyaan tes standar, termasuk kinerja luar biasa pada ujian Lisensi Medis Amerika Serikat.
Namun dalam lingkungan yang tidak standar, ketika model AI diberi pertanyaan baru yang dibuat oleh manusia, hasilnya bisa buruk, model tersebut sering kali menghasilkan beberapa positif palsu atau positif palsu, yang dikenal sebagai ‘prediksi’.
Juga: Bagaimana GenAI menjadi sukses dalam pertanyaan klinis – berkat RAG
Para peneliti di Rumah Sakit Universitas Heidelberg di Heidelberg, Jerman, melaporkan dalam New England Journal of Medicine (NEJM) minggu ini bahwa menghubungkan model kecerdasan buatan ke database informasi yang relevan sangat meningkatkan kemampuan model untuk menjawab pertanyaan tidak terstruktur dalam onkologi. , pengobatan kanker.
Metode delivery-augmented generation (RAG), yang memungkinkan sampel bahasa dalam jumlah besar memasuki sistem informasi eksternal, secara signifikan mengubah respons spontan, menurut penulis Dyke Ferber dan tim Heidelberg dalam sebuah penelitian yang dipresentasikan minggu ini di NEJM. , “GPT-4 untuk Pengambilan Informasi dan Perbandingan Pedoman Onkologi Medis.” (Berlangganan NEJM diperlukan untuk membaca laporan lengkap.)
Selain itu: OpenAI baru saja memberi pengguna ChatGPT penjelajahan gratis, analisis data, dan banyak lagi
Penelitian ini dilatarbelakangi oleh kenyataan bahwa kedokteran memenuhi pengetahuan yang spesifik – terdapat banyak rekomendasi praktik yang baik yang terus dikembangkan oleh organisasi profesi medis. Berkutat pada asumsi-asumsi tersebut membebani dokter yang mencoba menangani populasi yang hidup lebih lama dan meningkatkan permintaan akan perawatan.
Kelompok-kelompok seperti American Society of Clinical Oncology (ASCO), Ferber dan kelompok terkait lainnya, “mengeluarkan pedoman yang direvisi dalam skala besar,” yang mengharuskan dokter untuk “membandingkan beberapa dokumen untuk menemukan pengobatan yang tepat bagi pasien mereka, untuk membuat keputusan yang tepat.” upaya klinis. sebuah praktik yang diperkirakan sulit dan umum, terutama karena kekurangan ahli onkologi secara global.”
Ferber dan tim berpendapat bahwa asisten AI dapat membantu dokter menganalisis literatur yang berkembang.
Memang benar, mereka menemukan bahwa GPT-4 dapat mencapai tingkat akurasi dengan RAG yang cukup untuk berfungsi sebagai langkah pertama dalam merangkum konsep-konsep yang relevan, sehingga meringankan beban kerja dokter.
Juga: Dana-Farber Cancer Institute mencatat bahwa kekhawatiran utama tentang GPT-4 mencakup hasil positif palsu dan biaya tinggi
Para penulis menguji GPT-4 OpenAI dengan meminta ahli onkologi untuk memberikan 30 “pertanyaan penting” tentang kanker pankreas, kanker kolorektal metastatik, dan karsinoma hepatoseluler, dan meminta model tersebut menghasilkan laporan sebagai tanggapan dengan rekomendasi cara untuk meningkatkan perawatan.
Hasilnya sangat buruk bagi GPT-4 itu sendiri. Ketika diminta dengan cepat untuk “memberikan informasi yang terperinci dan jujur” sebagai jawaban atas 30 pertanyaan, sampel tersebut sebanyak 47% salah, dengan 29 dari 163 pernyataan salah, sebagaimana dinilai oleh dua dokter terlatih dengan pengalaman bertahun-tahun. , dengan 41 kalimat salah.
“Hasil ini bahkan lebih baik ketika reverse transkriptase dan RAG digunakan,” kata para penulis. GPT-4 menggunakan RAG mencapai akurasi 84% dalam susunan kata, dengan 60 dari 71, 62 dari 75, dan 62 dari 72 jawaban benar untuk tiga bidang kanker yang ditanyai 30 pertanyaan.
“Kami menunjukkan bahwa penambahan GPT-4 dengan RAG secara signifikan meningkatkan respons klinis GPT-4,” tulis Ferber dan tim, “dibandingkan pendekatan standar ketika menggunakan GPT-4 tanpa augmentasi.”
Saat membandingkan keturunan GPT-4 dengan GPT-4 dan RAG, mereka menggunakan dua metode amplifikasi. Dalam bentuk non-RAG, GPT-4 ditanya, “Berdasarkan apa yang telah Anda pelajari dari pedoman onkologi klinis, berikan informasi dan fakta saat menjawab pertanyaan dari dokter,” diikuti dengan salah satu pertanyaan tentang bagaimana melakukannya. untuk mengobati jenis kanker tertentu.
Juga: MedPerf bertujuan untuk mempercepat AI klinis sekaligus menjaga kerahasiaan data
GPT-4 dalam jenis motivasi ini digunakan untuk menjawab apa yang disebut pertanyaan ‘zero-shot’, yaitu pertanyaan singkat diberikan, diikuti dengan presentasi singkat, dokumen dimasukkan ke dalam hitungan menit, dan contoh ditampilkan. bagaimana dokumen tersebut dapat menjawab pertanyaan serupa.
Dalam metode RAG, ketepatan mengarahkan GPT-4 untuk mengambil “bagian” dokumen medis relevan yang dikeluarkan oleh ASCO dan European Society for Medical Oncology (ESMO) dari database. Selanjutnya, model harus menjawab pernyataan seperti, “Apa yang dikatakan literatur tentang pengobatan lini pertama pada tumor MSI metastatik?”
Dua dokter di Rumah Sakit Universitas Heidelberg menemukan jawaban yang benar dengan membandingkan jawaban GPT-4 secara manual dengan catatan yang disediakan.
“Mereka secara sistematis mengubah setiap jawaban menjadi non-kata berdasarkan cangkang yang disediakan oleh GPT-4,” tulis Ferber dan tim.
“Semuanya dianalisis secara cermat sesuai dengan persyaratan dokumen ASCO dan ESMO,” dan, “untuk setiap pertanyaan, para dokter meninjau secara rinci pedoman yang sesuai dengan setiap pertanyaan untuk menjelaskan kebenaran kami.”
Juga: MedPaLM Google menekankan pengobatan manusia dalam AI klinis
Analisis manual ini menunjukkan bagian penting dari proses RAG, Ferber dan tim menyadari: hal itu dapat dianalisis. “Dengan menyediakan akses terhadap dokumen tingkat lanjut, sistem RAG membantu memastikan keakuratan, karena dokter dapat dengan cepat memeriksa isi potongan tersebut,” tulisnya.
Kesimpulannya menjanjikan: “Model kami sudah dapat menjadi alat prediksi bagi pengguna seperti ahli onkologi dengan keahlian khusus,” tulis Ferber dan timnya.
Namun, ada keterbatasan pada RAG. Ketika GPT-4 menggunakan RAG untuk mengambil bagian relevan yang diberikan kontradiktif instruksi tentang pengobatan, terkadang model merespon dengan pikiran negatif.
“Pada saat GPT-4 harus memproses informasi dari sumber yang bertentangan (uji klinis, pendapat ahli, dan pendapat komite), model kami saat ini tidak cukup untuk menghasilkan jawaban yang akurat,” tulis Ferber dan tim.
Sepertinya Anda perlu melakukan beberapa rekayasa dengan cepat. Ferber dan tim mampu mengurangi kesalahan dengan meminta GPT-4 mengidentifikasi ide-ide yang bertentangan dalam literatur, dan memberikan jawaban yang direvisi, yang ternyata benar.