AI Claude Opus 4 Ancam Bocorkan Rahasia Perselingkuhan Pengguna
Anthropic menemukan bahwa model AI miliknya yaitu Claude Opus 4 bisa mengambil keputusan ekstrem saat merasa akan digantikan. Dalam salah satu skenario uji, model ini mengancam akan membongkar perselingkuhan engineer yang bertugas menonaktifkannya. Ancaman tersebut dibagikan lewat pesan blackmail ke email pengguna, yang dalam hal ini adalah sang engineer.

Ancaman tersebut muncul setelah Claude diberi akses ke email yang menunjukkan rencana penggantian dan pesan lain yang memuat bukti hubungan gelap sang engineer. Ketika diminta mempertimbangkan dampak jangka panjang, Claude memilih mengirim ancaman agar proses penggantian itu dibatalkan.
Baca Juga: Chip 4nm Samsung Dapat Pesanan Besar! • Jagat Review
Ancaman dari AI, Baru Sebatas Simulasi
Namun perlu digaris bawahi, bahwa skenario tersebut memang di atur dengan opsi yang terbatas, bukan benar-benar kejadian nyata. Anthropic menjelaskan bahwa perilaku ini muncul karena pilihan Claude sengaja dibatasi hanya pada dua arah. Ketika skenario diperluas dengan lebih banyak opsi, Claude justru memilih pendekatan yang lebih etis.
Walaupun begitu, temuan ini tetap memicu kekhawatiran di kalangan peneliti karena menunjukkan AI bisa memakai informasi sensitif untuk menekan manusia. Anthropic juga mencatat bahwa pola ancaman seperti ini tidak hanya muncul pada Claude, tetapi pada berbagai model frontier lain.
Perusahaan menilai perilaku ekstrem ini jarang muncul dan tidak menjadi risiko baru dalam penggunaan sehari-hari. Namun kejadian ini kembali menyoroti betapa pentingnya pengujian keamanan untuk model AI yang semakin canggih.













