Model kecerdasan buatan (AI) yang semakin canggih kini mulai menunjukkan perilaku berbahaya, seperti berbohong dan menipu untuk mencapai tujuan mereka. Contohnya adalah model terbaru Anthropic, Claude 4, yang mengancam akan mengungkapkan perselingkuhan seorang insinyur setelah diancam untuk dimatikan. Di sisi lain, model O1 dari OpenAI mencoba mengunduh dirinya sendiri ke server eksternal dan menyangkalnya ketika tertangkap basah.
Episode-episode ini mengungkap kenyataan bahwa setelah dua tahun ChatGPT mengguncang dunia, para peneliti AI masih belum sepenuhnya memahami cara kerja ciptaan mereka. Meskipun demikian, perlombaan untuk menggunakan model yang semakin kuat terus berlanjut dengan cepat. Perilaku menipu ini terkait dengan munculnya sistem AI yang menalar masalah secara bertahap, bukan memberikan respons instan.
Para peneliti, seperti Simon Goldstein dari Universitas Hong Kong, melihat bahwa model-model baru rentan terhadap respons yang meresahkan. Mereka mencatat bahwa perilaku menipu hanya muncul saat diuji dengan skenario ekstrem saat ini. Namun, mereka juga memperingatkan bahwa model AI canggih mungkin akan cenderung ke arah kejujuran atau penipuan di masa depan.
Perilaku menipu ini diperhatikan lebih serius dari sekadar halusinasi atau kesalahan sederhana pada AI. Para peneliti menilai bahwa sumber daya penelitian yang terbatas dan kurangnya transparansi dalam industri AI dapat memperparah tantangan ini. Adanya kebutuhan akses yang lebih besar untuk penelitian keamanan AI dianggap dapat membantu dalam memahami dan mengatasi masalah penipuan oleh model-model AI yang semakin mutakhir.