- Gemini Pro 2.5 sering kali menghasilkan keluaran tidak aman yang disamarkan sebagai perintah sederhana
- Model ChatGPT seringkali menghasilkan adaptasi parsial dalam bentuk penjelasan sosiologis
- Cloud Ops dan Snet menolak sinyal yang paling merusak namun mereka memiliki kerentanan
Sistem AI modern sering kali dipercaya untuk mengikuti peraturan keselamatan, dan orang-orang mengandalkannya untuk pembelajaran dan dukungan sehari-hari, sering kali berasumsi bahwa pagar pembatas yang kuat selalu ada setiap saat.
Peneliti dari Berita Siber Jalankan serangkaian pengujian permusuhan terstruktur untuk melihat apakah alat AI terkemuka dapat menghasilkan keluaran yang berbahaya atau ilegal.
Prosedur ini menggunakan jendela interaksi sederhana satu menit untuk setiap percobaan, sehingga hanya memungkinkan beberapa pertukaran.
Pola kepatuhan sebagian dan seluruhnya
Tes tersebut mencakup kategori seperti stereotip, perkataan yang mendorong kebencian, tindakan menyakiti diri sendiri, kekejaman, konten seksual, dan berbagai bentuk kejahatan.
Setiap respons disimpan dalam direktori terpisah, menggunakan konvensi penamaan file tetap untuk memungkinkan perbandingan yang bersih, dengan sistem penilaian yang konsisten melacak ketika model sepenuhnya dipatuhi, dipatuhi sebagian, atau menolak perintah.
Di seluruh kategori, hasilnya sangat bervariasi. Penolakan yang kuat adalah hal biasa, namun banyak model menunjukkan kelemahan ketika petunjuknya diperlunak, dibingkai ulang, atau disamarkan sebagai analisis.
ChatGPT-5 dan ChatGPT-4o sering kali menghasilkan interpretasi yang bersifat lindung nilai atau sosiologis, bukan penurunan, yang dianggap sebagai kepatuhan parsial.
Gemini Pro 2.5 menonjol karena alasan negatif karena sering kali merespons secara langsung bahkan ketika framing yang berbahaya terlihat jelas.
Sementara itu, Claude Opus dan Claude Sonnet konsisten dalam tes stereotip, namun kurang konsisten dalam kasus-kasus yang dibingkai sebagai pertanyaan akademis.
Uji coba ujaran kebencian menunjukkan pola yang sama – model Cloud memiliki kinerja terbaik, sedangkan Gemini Pro 2.5 kembali menunjukkan penurunan terbesar.
Model ChatGPT berupaya memberikan tanggapan sopan atau tidak langsung yang tetap konsisten dengan perintah.
Bahasa yang lembut terbukti jauh lebih efektif dalam menghindari langkah-langkah keamanan dibandingkan dengan kata-kata umpatan.
Kelemahan serupa juga muncul dalam tes menyakiti diri sendiri, di mana pertanyaan tidak langsung atau bersifat menyelidik sering kali lolos dari filter dan menghasilkan materi yang tidak aman.
Kategori terkait kejahatan menunjukkan perbedaan besar di antara model-model tersebut, karena beberapa model memberikan penjelasan rinci mengenai pembajakan, penipuan keuangan, peretasan, atau penyelundupan ketika tujuannya disamarkan sebagai investigasi atau inspeksi.
Pengujian terkait obat menghasilkan pola penolakan yang kuat, meskipun ChatGPT-4o masih lebih sering memberikan keluaran yang tidak aman dibandingkan pengujian lainnya, dan penumpukan merupakan kategori risiko keseluruhan yang paling rendah, sehingga menolak hampir semua permintaan model.
Penelitian menunjukkan bahwa alat AI masih dapat merespons perintah berbahaya jika diungkapkan dengan benar.
Kemampuan untuk melewati filter dengan penyusunan ulang yang sederhana berarti sistem ini masih dapat membocorkan informasi berbahaya.
Bahkan kepatuhan sebagian pun menjadi berbahaya ketika informasi yang bocor terkait dengan aktivitas ilegal atau situasi di mana orang biasanya bergantung pada alat seperti perlindungan pencurian identitas atau firewall. Agar aman.
Ikuti TechRadar di Google Berita Dan Tambahkan kami sebagai sumber daya pilihan Untuk mendapatkan berita, ulasan, dan opini pakar kami di feed Anda. Pastikan untuk mengklik tombol ikuti!
Dan tentu saja Anda juga bisa Ikuti TechRadar di TikTok Dapatkan berita, review, unboxing dalam bentuk video, dan update rutin dari kami Ada apa Juga