Kecerdasan buatan (AI) semakin canggih, namun sebuah penelitian terbaru justru mengungkap peningkatan tingkat halusinasi pada model-model AI termutakhir. Halusinasi dalam konteks ini merujuk pada penyampaian informasi yang tidak akurat atau tidak sesuai dengan realita oleh model AI. Temuan ini menimbulkan kekhawatiran tentang keandalan AI, terutama dalam aplikasi yang membutuhkan informasi akurat dan terpercaya.
Penelitian yang dilakukan oleh OpenAI, perusahaan terkemuka di bidang AI, menguji beberapa model AI terbaru mereka. Hasilnya menunjukkan korelasi antara kecanggihan AI dan peningkatan potensi halusinasi. Temuan ini penting untuk dipahami dan diantisipasi agar pengembangan AI tetap berjalan seiring dengan peningkatan akurasi dan keandalannya.
Tingkat Halusinasi pada Model AI OpenAI
OpenAI menguji model AI terbaru mereka, o3 dan o4-mini, dalam dua skenario berbeda: PersonQA dan SimpleQA. PersonQA melibatkan pertanyaan tentang tokoh publik, sementara SimpleQA berfokus pada pertanyaan faktual singkat.
Pada pengujian PersonQA, model o3 menghasilkan jawaban “halu” sebesar 33 persen, sedangkan o4-mini menunjukkan tingkat halusinasi lebih tinggi, yaitu 41 persen. Perbedaan ini menunjukkan bahwa meskipun lebih canggih, o4-mini cenderung lebih rentan terhadap halusinasi dalam konteks ini.
Hasil pengujian SimpleQA bahkan lebih mencolok. Model o3 menghasilkan informasi yang salah sebesar 51 persen, sementara o4-mini mencapai tingkat halusinasi yang mengkhawatirkan, yaitu 79 persen.
OpenAI menjelaskan bahwa tingkat halusinasi yang tinggi pada o4-mini mungkin disebabkan oleh desainnya yang memprioritaskan kecepatan respons dibandingkan akurasi. Ini menjadi pertimbangan penting dalam pengembangan model AI di masa depan, di mana perlu dicari keseimbangan antara kecepatan dan ketepatan informasi.
Model AI lainnya yang diuji, GPT-4.5, menunjukkan tingkat halusinasi yang lebih rendah pada pengujian SimpleQA, yaitu 37,1 persen. Hal ini menunjukkan bahwa meskipun masih terdapat potensi halusinasi, upaya peningkatan akurasi telah menunjukkan hasil positif.
Pengujian Halusinasi oleh Pihak Ketiga
Selain pengujian internal OpenAI, platform agen dan asisten AI Vectara juga melakukan serangkaian pengujian untuk mengukur tingkat halusinasi pada berbagai model AI. Pengujian ini melibatkan meringkas artikel berita dan membandingkan ringkasan dengan isi artikel aslinya.
Hasil pengujian Vectara menunjukkan beberapa temuan yang menarik. Model AI berbasis penalaran, yang diharapkan memiliki kemampuan untuk menyaring informasi yang tidak akurat, justru menunjukkan kinerja yang lebih buruk dibandingkan model tradisional dalam beberapa kasus.
Model o3, misalnya, mencatat tingkat halusinasi sebesar 6,8 persen dalam pengujian ini. Namun, model R1 dari DeepSeek menunjukkan performa yang jauh lebih buruk, dengan tingkat halusinasi mencapai 14,3 persen.
Sebagai perbandingan, model DeepSeek-V2.5 hanya mencatat tingkat halusinasi sebesar 2,4 persen. Perbedaan ini menyoroti pentingnya arsitektur dan metode pelatihan dalam meminimalkan potensi halusinasi pada model AI.
Model AI Granite 3.2 dari IBM juga diuji, dengan versi 8B menunjukkan tingkat halusinasi sekitar 8,7 persen, sedangkan versi 2B mencapai 16,5 persen. Ukuran model tampaknya juga berpengaruh pada tingkat halusinasi.
Implikasi dan Tantangan Ke Depan
Temuan dari berbagai pengujian ini menunjukkan bahwa meskipun kecerdasan buatan terus berkembang, tantangan dalam meminimalisir halusinasi masih signifikan. Tingkat akurasi dan keandalan informasi yang dihasilkan oleh AI sangat penting, terutama dalam aplikasi yang berdampak langsung pada kehidupan manusia.
Penelitian lebih lanjut diperlukan untuk memahami faktor-faktor yang berkontribusi pada halusinasi AI dan untuk mengembangkan teknik yang lebih efektif dalam mengatasinya. Perkembangan teknologi yang bertanggung jawab dan etis sangat penting untuk memastikan bahwa AI digunakan secara aman dan bermanfaat bagi masyarakat.
Pengembangan model AI yang lebih akurat dan andal membutuhkan kolaborasi antar peneliti, pengembang, dan pemangku kepentingan lainnya. Prioritas utama harus diberikan pada pengembangan metode yang dapat mengidentifikasi dan mengurangi potensi kesalahan dan halusinasi, memastikan informasi yang diberikan oleh AI selalu dapat diandalkan dan terpercaya.
Kesimpulannya, perjalanan pengembangan AI masih panjang dan penuh tantangan. Memahami dan mengatasi permasalahan seperti halusinasi menjadi kunci penting dalam memastikan bahwa AI dapat memberikan manfaat yang optimal bagi masyarakat tanpa menimbulkan risiko yang signifikan.