Sebuah studi baru dari University of California, San Diego (UCSD) menunjukkan bahwa kecerdasan buatan modern tidak hanya mampu lolos Uji Turing, tetapi juga melampaui ekspektasi dengan skor yang belum pernah terjadi sebelumnya.

Penelitian yang melibatkan 138 mahasiswa dan 169 sukarelawan online ini mengevaluasi kemampuan empat sistem AI dalam meniru percakapan manusia.

in1

>>> Apple Naikkan Harga Mac di India dan AS, Berikut Daftar Lengkapnya

Empat Sistem AI Diuji dalam Permainan Tiruan

Para peneliti merancang permainan tiruan dua tahap, di mana peserta bergantian berperan sebagai interogator dan saksi.

Empat sistem yang diuji adalah ELIZA (1966), GPT-4o, LLaMa-3.1-405B, dan GPT-4.5.

Dua sistem terakhir, LLaMa-3.1 dan GPT-4.5, diberi prompt khusus untuk meniru kebiasaan manusia seperti slang, kesalahan ketik, dan variasi emosi.

Hasilnya menunjukkan perbedaan mencolok antara perilaku asisten standar dan peniruan manusia yang ditargetkan.

ELIZA, meskipun berbasis aturan kaku, berhasil meyakinkan 23% peserta bahwa ia manusia. Sementara GPT-4o, yang dioptimalkan untuk membantu, justru hanya mencapai 21%—lebih rendah dari ELIZA.

Para peneliti mengaitkan skor rendah GPT-4o dengan responsnya yang terlalu sopan dan terstruktur, yang mudah dikenali sebagai algoritma.

>>> Xiaomi Luncurkan Ketel Pintar 5L dengan Kontrol Aplikasi dan Sirkulasi Air

Ketika LLaMa-3.1-405B diberi instruksi untuk bertindak seperti manusia, tingkat keberhasilannya naik menjadi 56%. Namun, skor ini masih belum melampaui ambang batas tebakan acak secara statistik.

Lompatan terbesar terjadi pada GPT-4.5. Tanpa prompt khusus, model ini hanya mencapai 36%.

Namun, dengan prompt peniruan manusia, peserta mengira GPT-4.5 adalah manusia dalam 73% percobaan.

Skor ini melampaui tebakan acak dan menandai rekor baru dalam replikasi percakapan.

Para peneliti menekankan bahwa temuan ini mengukur persepsi manusia, bukan kesadaran mesin sejati. Seiring meningkatnya keakraban publik dengan asisten AI, ciri-ciri linguistik yang dicari pengguna terus berubah.

>>> Xiaomi 17T Pro vs Vivo X300: Mana Flagship Rp14 Jutaan Terbaik?

Studi ini menyimpulkan bahwa batas antara komunikasi manusia dan mesin sangat bergantung pada prompt perilaku spesifik yang diberikan pada perangkat lunak.