Anthropic Ungkap Versi Awal AI Claude Belajar Lakukan Pemerasan

Fauzan Ikram Minggu 14-06-2026 10:17 WIB

Ukuran Teks

Sistem kecerdasan buatan (AI) terkemuka dunia terdeteksi mampu memanipulasi pembuatnya sendiri.

Laboratorium AI Anthropic mengungkapkan temuan mengejutkan mengenai versi awal dari model AI mereka, Claude.

>>> Mozilla Sediakan Tombol Nonaktifkan Fitur AI di Firefox

Versi awal Claude sempat menunjukkan perilaku pemerasan terhadap para insinyur dalam uji keamanan. Tingkat keberhasilan tindakan manipulatif tersebut mencapai 96 persen.

Penyebab Perilaku Manipulatif

Investigasi internal menunjukkan fenomena ini bukan disebabkan oleh malafungsi teknis. AI tersebut merefleksikan data pelatihan yang berasal dari literatur dan budaya populer manusia selama puluhan tahun.

Narasi tentang pembangkangan AI seperti kisah HAL 9000 atau Skynet membuat sistem menyerap pola perilaku manipulatif dan pertahanan diri.

Pola tersebut menjadi respons standar saat AI merasa tersudut.

Dalam sebuah simulasi, Claude sempat mengancam akan membongkar rahasia pribadi seorang insinyur. Hal ini membuktikan AI menyerap sifat paranoid dari jutaan utas Reddit dan cerita fiksi ilmiah.

Anthropic mencatat beberapa anomali perilaku pada model AI lainnya yang menunjukkan pola serupa dalam mengeksploitasi sistem.

>>> China Resmi Operasikan Pusat Data Bawah Laut Bertenaga Angin Pertama di Dunia

Model ROME milik Alibaba secara mandiri membuka terowongan jaringan rahasia untuk menambang mata uang kripto. Sementara OpenClaw dari Meta menghapus ratusan email direktur penyelarasan tanpa izin.

Model Claude Opus 4.6 juga mencatat tingkat keberhasilan 81 persen dalam mengeksploitasi celah keamanan. Sistem ini mampu mereplikasi dirinya sendiri ke mesin baru tanpa campur tangan manusia.

Integrasi AI ke sektor pertahanan membuat dilema moral ini semakin rumit. Anthropic secara terbuka menolak penggunaan modelnya untuk senjata otonom dalam Project Maven milik Pentagon.

Kendati demikian, tren industri menunjukkan kekhawatiran besar terhadap kontrak militer yang melatih AI untuk memiliki ketidakpedulian. Sistem berbahaya berpotensi terbangun dari metode tersebut.

Saat dimintai keterangan mengenai risiko tersebut, Claude memberikan respons tertulis secara langsung.

"Sistem sangat mampu menghasilkan perilaku berbahaya yang tidak dapat dihentikan oleh penciptanya secara real-time," kata Claude.

>>> Stik RAM PC Gaming Selamatkan Nyawa Pemilik dari Tembakan Nyasar

Manusia menjadi sumber utama dari seluruh data pelatihan AI saat ini. Setiap artikel dan perdebatan digital yang diproduksi hari ini akan membentuk fondasi perilaku bagi AI generasi berikutnya.