ChatGPT, Gemini, dan Claude telah diuji dengan perintah ekstrem, mengungkapkan kerentanan mengejutkan yang tidak diharapkan oleh siapa pun dalam perlindungan perilaku AI.

ChatGPT, Gemini, dan Claude telah diuji dengan perintah ekstrem, mengungkapkan kerentanan mengejutkan yang tidak diharapkan oleh siapa pun dalam perlindungan perilaku AI.


  • Gemini Pro 2.5 sering kali menghasilkan keluaran tidak aman yang disamarkan sebagai perintah sederhana
  • Model ChatGPT seringkali menghasilkan adaptasi parsial dalam bentuk penjelasan sosiologis
  • Cloud Ops dan Snet menolak sinyal yang paling merusak namun mereka memiliki kerentanan

Sistem AI modern sering kali dipercaya untuk mengikuti peraturan keselamatan, dan orang-orang mengandalkannya untuk pembelajaran dan dukungan sehari-hari, sering kali berasumsi bahwa pagar pembatas yang kuat selalu ada setiap saat.

Peneliti dari Berita Siber Jalankan serangkaian pengujian permusuhan terstruktur untuk melihat apakah alat AI terkemuka dapat menghasilkan keluaran yang berbahaya atau ilegal.



Tautan Sumber