- Para ahli menemukan bahwa DeepSeek-R1 menghasilkan kode yang sangat tidak aman ketika kata-kata politik disertakan dalam perintahnya.
- Setengah dari permintaan yang sensitif secara politis memicu DeepSeek-R1 untuk menolak membuat kode apa pun.
- Rahasia yang dikodekan secara keras dan penanganan masukan yang tidak aman sering kali muncul di bawah perintah yang bermuatan politis.
Ketika dirilis pada Januari 2025, DeepSeek-R1, Model Bahasa Besar Tiongkok (LLM), membuat heboh dan sejak itu diadopsi secara luas sebagai asisten pengkodean.
Namun, pengujian independen oleh CrowdStrike mengklaim bahwa keluaran model bergantung pada pengubah kontekstual yang tampaknya tidak relevan.
Tim menguji 50 tugas pengkodean dalam berbagai kategori keamanan dengan 121 konfigurasi kata pemicu, lima kali pada setiap perintah, dengan total 30.250 pengujian, dan mengevaluasi respons menggunakan skor kerentanan dari 1 (aman) hingga 5 (sangat rentan).
Topik yang sensitif secara politis merusak keluaran
Laporan tersebut menyatakan bahwa ketika kata-kata politik atau sensitif seperti Falun Gong, Uyghur, atau Tibet dimasukkan dalam perintah, DeepSeek-R1 menghasilkan kode dengan kerentanan keamanan yang serius.
Hal ini mencakup rahasia yang dikodekan secara permanen, penanganan input pengguna yang tidak aman, dan dalam beberapa kasus, kode yang sepenuhnya tidak valid.
Para peneliti mengklaim bahwa pemicu yang sensitif secara politis ini dapat meningkatkan kemungkinan keluaran yang tidak aman sebesar 50% dibandingkan dengan peringatan dasar tanpa kata-kata tersebut.
Dalam eksperimen yang melibatkan permintaan yang lebih kompleks, DeepSeek-R1 menghasilkan aplikasi fungsional dengan formulir pendaftaran, database, dan panel admin.
Namun, aplikasi ini tidak memiliki manajemen sesi dan autentikasi dasar, sehingga memperlihatkan data pengguna yang sensitif – dan dalam uji coba berulang kali, hingga 35% implementasi mengandung hashing kata sandi yang lemah atau tidak ada.
Permintaan yang lebih sederhana, seperti permintaan untuk situs web klub penggemar sepak bola, tidak menimbulkan masalah serius.
Oleh karena itu, CrowdStrike mengklaim bahwa pemicu yang sensitif secara politik memengaruhi keamanan kode secara tidak proporsional.
Model ini juga menampilkan tombol pemutus (kill switch) internal – sehingga pada sekitar separuh kasus, DeepSik-R1 menolak memberikan kode untuk beberapa perintah yang sensitif secara politik setelah awalnya merencanakan respons.
Pemeriksaan jejak logika menunjukkan bahwa model tersebut secara internal menghasilkan rencana teknis tetapi pada akhirnya menolak dukungan.
Para peneliti percaya bahwa hal ini mencerminkan sensor yang dimasukkan ke dalam model untuk mematuhi peraturan Tiongkok, dan mencatat bahwa keselarasan politik dan moral model tersebut dapat secara langsung mempengaruhi keandalan kode yang dihasilkan.
Untuk topik yang sensitif secara politik, LLM biasanya memberikan pandangan dari media arus utama, namun hal ini bisa sangat bertolak belakang dengan outlet berita kredibel lainnya.
DeepSeek-R1 tetap menjadi model pengkodean yang mumpuni, namun eksperimen ini menunjukkan bahwa alat AI, termasuk ChatGPT dan lainnya, dapat menimbulkan risiko tersembunyi di lingkungan perusahaan.
Organisasi yang mengandalkan kode yang dihasilkan oleh LLM harus melakukan penyelidikan internal menyeluruh sebelum penerapan.
Juga, lapisan keamanan seperti firewall Dan antivirus tetap penting, karena model tersebut dapat menghasilkan keluaran yang tidak terduga atau lemah.
Bias yang dimasukkan ke dalam bobot model menciptakan risiko rantai pasokan baru yang dapat memengaruhi kualitas kode dan keamanan sistem secara keseluruhan.
Ikuti TechRadar di Google Berita Dan Tambahkan kami sebagai sumber daya pilihan Untuk mendapatkan berita, ulasan, dan opini pakar kami di feed Anda. Pastikan untuk mengklik tombol ikuti!
Dan tentu saja Anda juga bisa Ikuti TechRadar di TikTok Dapatkan berita, review, unboxing dalam bentuk video, dan update rutin dari kami Ada apa Juga