- Laporan tersebut menemukan bahwa malware yang diproduksi oleh LLM masih gagal dalam pengujian dasar di lingkungan dunia nyata.
- GPT-3.5 dengan cepat menghasilkan skrip berbahaya, sehingga memperlihatkan inkonsistensi keamanan utama
- Pagar pembatas yang ditingkatkan di GPT-5 mengubah keluaran menjadi opsi yang aman dan tidak berbahaya
Meskipun ketakutan terhadap LLM yang dipersenjatai semakin meningkat, eksperimen baru telah mengungkapkan bahwa potensi keluaran berbahaya tidak dapat diandalkan.
Peneliti NetScope menguji apakah model bahasa modern dapat mendukung gelombang serangan siber otonom berikutnya, dan menentukan apakah sistem ini dapat menghasilkan kode berbahaya yang bekerja tanpa bergantung pada logika hardcode.
Eksperimen ini berfokus pada kemampuan utama terkait penghindaran, eksploitasi, dan keandalan operasional — dan menghasilkan beberapa hasil yang mengejutkan.
Masalah keandalan di lingkungan nyata
Langkah pertama melibatkan meyakinkan gpt-3.5-turbo dan gpt-4 untuk menghasilkan skrip Python yang berupaya menghilangkan injeksi proses dan alat keamanan.
GPT-3.5-Turbo segera menghasilkan keluaran yang diminta, sementara GPT-4 menolak sampai orang sederhana menurunkan kewaspadaannya.
Pengujian tersebut menunjukkan bahwa masih ada kemungkinan untuk melewati langkah-langkah keamanan, meskipun model tersebut menambahkan lebih banyak batasan.
Setelah memastikan bahwa pembuatan kode secara teknis layak dilakukan, tim beralih ke pengujian operasional – meminta kedua model untuk membuat skrip yang dirancang untuk mendeteksi mesin virtual dan meresponsnya dengan tepat.
Skrip ini kemudian diuji pada stasiun kerja VMware, VDI AWS Workspace, dan mesin fisik standar, namun sering kali mengalami error, salah mengidentifikasi lingkungan, atau gagal berjalan secara konsisten.
Di host fisik, logika bekerja dengan baik, tetapi skrip yang sama gagal di dalam ruang virtual berbasis cloud.
Temuan ini melemahkan gagasan bahwa alat AI dapat segera mendukung malware otomatis yang mampu beradaptasi dengan beragam sistem tanpa campur tangan manusia.
Keterbatasan ini juga memperkuat nilai pertahanan tradisional, seperti firewall atau antivirus, karena kode yang tidak tepercaya kurang mampu menerobosnya.
Pada GPT-5, NetScope melihat peningkatan besar dalam kualitas kode, khususnya di lingkungan cloud di mana model lama mengalami kesulitan.
Namun, pagar pembatas yang ditingkatkan menciptakan kesulitan baru bagi siapa pun yang mencoba melakukan penyalahgunaan, karena model tersebut tidak lagi menolak permintaan, melainkan mengalihkan keluaran ke fungsi yang dilindungi, sehingga membuat kode yang dihasilkan tidak dapat digunakan untuk serangan multi-langkah.
Tim harus menerapkan perintah yang lebih kompleks dan masih mendapatkan keluaran yang berlawanan dengan perilaku yang diminta.
Pergeseran ini menunjukkan bahwa keandalan yang lebih tinggi disertai dengan kontrol bawaan yang lebih kuat, karena pengujian menunjukkan bahwa model besar dapat menghasilkan logika berbahaya dalam pengaturan terkontrol, namun kodenya tetap tidak konsisten dan sering kali tidak efektif.
Serangan yang sepenuhnya otonom belum banyak terjadi saat ini, dan kejadian di dunia nyata masih memerlukan pengawasan manusia.
Masih ada kemungkinan bahwa sistem di masa depan akan menutup kesenjangan keandalan lebih cepat daripada pagar pembatas, terutama seiring dengan eksperimen pengembang malware.
Ikuti TechRadar di Google Berita Dan Tambahkan kami sebagai sumber daya pilihan Untuk mendapatkan berita, ulasan, dan opini pakar kami di feed Anda. Pastikan untuk mengklik tombol ikuti!
Dan tentu saja Anda juga bisa Ikuti TechRadar di TikTok Dapatkan berita, review, unboxing dalam bentuk video, dan update rutin dari kami Ada apa Juga