- SUBSUNG SUBBNCH SUBYEK AI CHATBOTS UNTUK aturan ketat tanpa kredit parsial
- Samsung menggunakan 2.485 tes antar bahasa untuk meniru beban kerja kantor
- Tiket berkisar dari arah pendek hingga dokumen lebih dari dua puluh ribu karakter
Mengadopsi alat AI dalam pekerjaan telah berkembang pesat, meningkatkan kekhawatiran tidak hanya pada otomatisasi, tetapi juga tentang bagaimana sistem ini dinilai.
Sampai saat ini, sebagian besar titik referensi lebih sempit, mencoba penulis AI dan sistem chatbot AI dengan arahan sederhana yang jarang menyerupai kehidupan kantor.
Samsung telah memasuki debat ini dengan TrueBench, kerangka baru yang mengatakan itu dirancang untuk melacak apakah model AI dapat mengelola tugas yang menyerupai pekerjaan nyata.
Tes dan di tempat kerja
TrueBench, kependekan dari evaluasi dunia nyata dari dunia nyata, berisi 2.485 set tes yang didistribusikan dalam sepuluh kategori dan dua belas bahasa.
Tidak seperti titik referensi konvensional yang berfokus pada pertanyaan bahasa Inggris yang unik, itu memperkenalkan tugas yang lebih kompleks dan lebih kompleks, seperti ringkasan dokumen dalam berbagai langkah dan terjemahan ke dalam beberapa bahasa.
Samsung mengatakan bahwa kontribusi bervariasi dari beberapa karakter hingga lebih dari dua puluh ribu, upaya untuk mencerminkan aplikasi cepat dan laporan panjang.
Perusahaan berpendapat bahwa tes -tes ini menetapkan batas -batas platform chatbot AI ketika mereka menghadapi kondisi dunia nyata alih -alih konsultasi kelas.
Setiap tes memiliki persyaratan yang ketat: kecuali semua kondisi yang ditentukan terpenuhi, model kegagalan: ini menghasilkan hasil yang menuntut dan lebih sedikit pengampunan daripada banyak titik referensi yang ada, yang sering membuktikan respons parsial.
“Samsung Research membawa pengalaman yang mendalam dan keunggulan kompetitif melalui pengalaman dunia nyata,” kata Paul (Kyungwoon) Cheun, CTO dari Divisi DX di Samsung Electronics dan Samsung Research.
“Kami berharap bahwa TrueBench akan menetapkan standar evaluasi untuk produktivitas dan memperkuat kepemimpinan teknologi Samsung.”
Samsung Research menjelaskan proses di mana manusia dan AI bekerja sama dalam desain kriteria evaluasi.
Pencetak gol manusia pertama -tama menetapkan kondisi, dan mereka ditinjau untuk mendeteksi kontradiksi atau pembatasan yang tidak perlu.
Kriteria disempurnakan berulang kali sampai konsisten dan tepat.
Skor otomatis kemudian diterapkan pada model AI, meminimalkan penilaian subyektif dan membuat perbandingan lebih transparan.
Salah satu aspek TrueBnch yang tidak biasa adalah publikasi tentang memeluk wajah, di mana tabel klasifikasi memungkinkan perbandingan langsung hingga lima model.
Selain skor kinerja, Samsung juga mengungkapkan panjang respons rata -rata, metrik yang membantu menimbang efisiensi di sebelah akurasi.
Keputusan untuk membuka bagian sistem menunjukkan dorongan untuk kredibilitas, tetapi juga memperlihatkan pendekatan Samsung untuk memeriksa.
Sejak kedatangan AI, banyak pekerja sudah bertanya -tanya bagaimana produktivitas akan diukur ketika sistem AI menerima tanggung jawab yang sama.
Dengan TrueBench, manajer mungkin memiliki cara untuk menilai jika obrolan AI dapat menggantikan atau melengkapi staf.
Namun, terlepas dari ambisi mereka, titik referensi, betapapun luasnya, masih merupakan langkah -langkah sintetis dan tidak dapat sepenuhnya menangkap gangguan komunikasi atau pengambilan keputusan kerja.
TrueBench dapat menetapkan standar yang lebih tinggi untuk evaluasi, tetapi jika Anda dapat menyelesaikan ketakutan perpindahan pekerjaan Anda, atau hanya mempertajamnya, itu masih merupakan masalah terbuka.
Ikuti TechRadar di Google News Dan Tambahkan -US sebagai sumber favorit Untuk mendapatkan berita, ulasan, dan pendapat ahli kami di feed Anda. Pastikan -Klik pada Segu tetapi tombol!
Dan tentu saja Anda juga bisa Ikuti TechRadar di Tiktok Untuk mendapatkan berita, ulasan, turun dalam bentuk video dan mendapatkan pembaruan rutin Whatsapp Juga.