Mengapa data sintetis akan menjadi dasar dalam pembuatan generasi baru dan teknologi otomatis

Dalam perlombaan untuk membangun kecerdasan buatan yang lebih cerdas (IA) dan sistem pendukung, banyak organisasi digital dan pengembang teknologi fokus pada membuat model yang lebih efisien.

Skor arsitektur, skala dan referensi semuanya berada di bawah mikroskop. Namun, tidak boleh dilupakan bahwa di balik setiap model yang mengesankan ada kekuatan yang lebih mendasar: data. Tidak hanya data, tetapi juga data berkualitas tinggi, beragam dan tersedia dalam jumlah yang cukup.

Ketika kami mencapai batas apa yang dapat ditawarkan data dunia nyata, baik karena privasi, biaya atau kelangkaan sederhana, revolusi yang tenang semakin meningkat. Data sintetis muncul tidak hanya sebagai solusi, tetapi sebagai batu sudut dari generasi AI berikutnya.

Rosemary J Thomas

Konsultan Teknis Senior, AI Labs, versi 1.

Mereka yang berada di belakang teknologi AI melihat pertama -bagaimana data sintetis renovasi cara membentuk, sempurna dan menggunakan model. Baik untuk otomatisasi, model bahasa hebat atau aplikasi AI di sektor yang diatur erat, data sintetis memecahkan masalah yang tidak bisa dilakukan oleh data tradisional.

Namun, seperti halnya banyak teknologi yang muncul, data sintetis dikelilingi oleh bagian -bagian mitos dan ide -ide yang salah. Dari kekhawatiran tentang kualitas dan bias hingga asumsi biaya dan aksesibilitas, mitos ini mempertaruhkan potensi mereka yang sebenarnya. Untuk bergerak maju, penting untuk memisahkan fakta fiksi dan memeriksa data sintetis tentang manfaat sebenarnya.

Data sintetis mungkin bukan yang dipikirkan audiens ketika Anda dapat membayangkan kemajuan dalam AI dan teknologi serupa. Bahkan, di balik semua obrolan obrolan canggih, setiap sistem keputusan otomatis dan semua model yang membuat jutaan prediksi per detik, ada set data yang membentuknya.

Semakin, data sintetis adalah utas yang tidak terlihat yang ditenun melalui sistem ini, memungkinkan penciptaan, evolusi, dan akuntabilitasnya. Karena AI menjadi lebih kuat dan jelas, baik dalam kehidupan bisnis maupun sehari -hari, pentingnya data yang hanya dimakannya.

Mengapa Anda tidak percaya mitos seputar data sintetis

Data sintetis mengacu pada informasi yang dihasilkan secara artifisial, seringkali melalui simulasi atau proses algoritmik, alih-alih mengumpulkan di lingkungan dunia nyata. Sekilas, itu mungkin tampak seperti alternatif yang lebih rendah. Terlepas dari janjinya, data sintetis sering dipahami. Terlalu sering percakapan dibentuk oleh mitos.

Ada klaim yang tidak akurat, tidak aman atau pengganti data yang buruk untuk dunia nyata. Kenyataannya jauh lebih bernuansa. Saat memotong ide -ide yang salah ini, kita dapat lebih menghargai di mana data sintetis menambah nilai nyata dan di mana tindakan pencegahan dibenarkan. Lagi pula, bagaimana mereka bisa dipercaya dalam data yang tidak “nyata” untuk membentuk dan?

Jawabannya terletak pada kontrol dan akurasi. Meskipun pengumpulan data dari dunia nyata lambat, mahal dan semakin terpengaruh oleh pembatasan hukum dan etika, data sintetis dapat dibuat dalam skala. Ini disesuaikan dengan kasus penggunaan dan kebisingan yang dibersihkan atau bias potensial. Ini mungkin tidak sempurna, tetapi fleksibel dan semakin praktis.

Penting untuk dicatat bahwa itu dapat dihasilkan sehingga data di dunia nyata tidak dapat. Apakah Anda memerlukan data yang memodifikasi kasus tepi langka dalam deteksi penipuan keuangan? Apakah Anda ingin set data yang menangkap interaksi yang tidak biasa tetapi masuk akal dalam sistem mobil tanpa pengemudi? Ini adalah skenario di mana data nyata langka, atau bahkan data yang tidak ada dan sintetis diperkenalkan.

Kualitas, keragaman dan volume data

Salah satu tantangan paling mendesak dalam pengembangan AI adalah memastikan bahwa model tidak hanya akurat, tetapi juga adil, dapat dijelaskan dan kuat. Ini membutuhkan data yang representatif dalam berbagai demografi, skenario, dan lingkungan.

Namun, keragaman dalam set data sulit dijamin ketika hanya data historis atau observasional yang dihapus. Data sintetis dapat dirancang untuk menghubungkan kesenjangan ini. Dalam menghasilkan data yang mencakup kelompok yang kurang terwakili atau skenario langka, ini memungkinkan alat AI. Untuk bertindak lebih andal di dunia nyata.

Peristiwa baru -baru ini menggarisbawahi risiko tidak mengatasinya. Pada awal tahun 2024, model Gemini Google menjadi berita utama untuk menghasilkan gambar yang tidak akurat secara historis, sebuah produk dengan upaya penyesuaian yang gagal menyeimbangkan keragaman dengan konteks. Itu adalah pengingat yang kuat bahwa kualitas data dan keragaman bukanlah kompensasi, tetapi komponen penting dari pengembangan AI yang bertanggung jawab.

Simulasi memberikan solusi yang terbukti

Ada simulasi di jantung pembuatan data sintetis. Lingkungan digital ini meniru dinamika dunia nyata dan dapat digunakan untuk menguji apa yang berhasil dan apa yang gagal, membuat skenario terkontrol dari mana data sintetis dapat ditarik.

Simulasi ini menyediakan lingkungan yang aman dan berulang untuk eksperimen, yang sangat berharga di sektor -sektor seperti layanan kesehatan dan keuangan, di mana data nyata sensitif dan langka.

Teknik -teknik canggih seperti jaringan musuh generatif (GAN) dan variasi self -emboss (VAE) memungkinkan kita untuk menekan lebih jauh. GAN, melalui proses pelatihan kompetitif antara menghasilkan model dan diskriminator, dapat menghasilkan data sintetis yang sangat realistis.

Sementara itu, VAES menawarkan cara yang lebih stabil dan dapat ditafsirkan, terutama berharga ketika penjelasannya sangat penting.

Di atas segalanya, studi lembaga seperti MIT telah menunjukkan bahwa dalam beberapa konteks, model yang dibentuk dalam data sintetis berkualitas tinggi melebihi format secara eksklusif dalam data di dunia nyata.

Kita perlu diingat bahwa latihan bukanlah masalah mengganti data nyata sepenuhnya. Sebaliknya, memanfaatkan data sintetis memungkinkan kami untuk memberikan hasil yang representatif.

Inovasi yang bertanggung jawab atas mitos

Data sintetis tidak hanya memungkinkan yang lebih baik. Itu mengakui AI. Dengan meningkatnya masalah privasi dan kerangka kerja peraturan seperti undang -undang AI UE yang mengencangkan aturan seputar penggunaan data, data sintetis menawarkan jalur yang sesuai dengan desain.

Jika Anda menghapus informasi yang dapat diidentifikasi pribadi, set data sintetis dapat dibagikan dan diuji melalui peralatan tanpa melanggar kerahasiaan. Ini membuatnya lebih mudah untuk lebih mudah dialami dengan cepat, untuk mengalami kepatuhan, terutama dalam sistem AI berisiko tinggi.

Namun, itu tidak ada peluru perak. Pembuatan data sintetis yang efektif masih membutuhkan sumber daya komputasi yang signifikan dan keahlian domain. Terlalu banyak pada data sintetis, tanpa model Royal World, dapat menyebabkan keruntuhan model.

Misalnya, sistem dapat terlepas dengan kenyataan. Kualitas data harus divalidasi secara ketat untuk memastikan bahwa itu secara tepat mencerminkan kondisi yang dimaksudkan untuk disimulasikan. Jika data sintetis rusak, model ini juga akan terjadi.

Usia pengembangan model baru

Mungkin penggunaan data sintetis yang paling menarik terletak pada apa yang terjadi setelah melatih model. Dalam belajar untuk memperkuat umpan balik manusia (RLHF), data sintetis dapat mempercepat penyesuaian yang baik, memberikan contoh pelatihan baru yang menyempurnakan perilaku model dengan setiap iterasi.

Ini menyerupai restart video game dari file menyimpan, tetapi setiap kali dimuat kembali, mulai dari posisi yang lebih kuat, dengan lingkaran pelatihan dengan secara bertahap meningkatkan hasilnya.

Perusahaan terkemuka sudah mengadopsinya. Meta telah menggunakan model besar untuk menghasilkan data pelatihan sintetis untuk yang terkecil. Google menggunakan distilasi untuk melewati pengetahuan model yang lebih besar ke varian yang lebih efisien seperti Gemini Flash. Gelombang model generatif baru -baru ini, termasuk Moshi, telah sangat didasarkan pada data sintetis untuk meningkatkan kemacetan masa lalu dalam pelatihan tradisional.

Bagian integral dari solusi adalah keseimbangan. Mereka yang menggunakan data sintetis secara efektif bergabung dengan data dunia nyata, set data pelatihan yang terus menyegarkan, meskipun mereka tidak pernah kehilangan prinsip mendasar bahwa keragaman, kualitas, dan jumlah data harus bekerja secara harmonis.

Kami telah mendaftarkan perangkat lunak mockup terbaik: alat teratas untuk prototipasi dan desain produk.

Artikel ini terjadi sebagai bagian dari saluran informasi ahli TechRadarPro, di mana kami memiliki pikiran terbaik dan paling cerdas dalam industri teknologi saat ini. Pendapat yang diungkapkan di sini adalah pendapat penulis dan tidak harus dari TechRadarPro atau Future Plc. Jika Anda tertarik untuk berkontribusi pada informasi lebih lanjut di sini:

Tautan Sumber