Beban kerja AI memerlukan set data massal. Sistem file paralel yang dieksekusi dalam jaringan kecepatan tinggi adalah infrastruktur mendasar untuk dengan cepat mengakses set data ini.
Keberhasilan dalam implementasi proyek AI tergantung pada seluruh pusat data yang memiliki kinerja, skalabilitas, dan ketersediaan untuk mempromosikan GPU untuk penggunaan maksimal. Mengingat investasi penting yang diwakili oleh GPU di pasar saat ini, sangat penting untuk memaksimalkan ROI di GPU.
CEO dan Co -Founder of Quobyte.
Sementara jaringan cepat dan sistem file paralel sangat penting, yang sering diabaikan adalah ketersediaan sistem. Dilaporkan bahwa banyak sistem komputer yang tinggi (HPC) hanya mencapai total 60% dari total ketersediaan, terutama karena jendela pemeliharaan dan waktu ketidakaktifan yang tidak direncanakan yang digunakan untuk mengganti komponen yang gagal, pembaruan sistem, pembaruan perangkat lunak, dan sejenisnya.
Penghentian itu mahal dan tidak produktif; Semakin banyak perangkat keras yang Anda miliki, semakin banyak kegagalan yang Anda dapatkan. Orang membuat kesalahan, semakin besar tim dan pusat data, kesalahan terbanyak, seperti menghapus server, kabel, atau unit yang salah.
Pertimbangkan semua sumber daya idle: server, penyimpanan, jaringan, staf, konsumsi energi, GPU, CPU, ilmuwan data yang tidak bahagia, dll. Berapa biaya per jam? Menurut waktu berhenti waktu ITIC 2024, biaya waktu tidak aktif untuk 90% dari semua organisasi setidaknya $ 300.000 per jam. 41% perusahaan mengatakan bahwa waktu tidak aktif menelan biaya antara 1 juta dan $ 5 juta per jam.
Suatu sistem yang cocok untuk permintaan tinggi untuk aplikasi AI harus dimulai dengan dasar sistem file paralel yang dibangun dengan hiperscaler. Mengingat set data mammoth yang akan menjadi informasi kotor dari mana penelitian dan pengembangan IA digunakan untuk melaporkan, sistem harus dirancang untuk memanjat ribuan node individu dengan kapasitas ex -abbees.
Pertimbangan awal ini memungkinkan skalabilitas linier dan kinerja maksimum untuk penyimpanan data generasi berikutnya.
Kebutuhan akan titik kegagalan yang unik
Pusat data adalah area perang dari komputasi modern yang didistribusikan; Kegagalan sistem adalah umum dan masalah adalah masalah “ketika” dan tidak “jika”. Kerangka kerja membutuhkan ketersediaan desain sistem 100%. Ini berarti bahwa redundansi adaptif diintegrasikan ke dalam sistem.
Ada alasan yang bijaksana untuk itu. Kemajuan kemungkinan teknologi tidak akan disebabkan oleh sistem berat yang mengalami waktu penurunan. Industri komputer telah lama menerima bahwa waktu berhenti adalah kejahatan yang diperlukan untuk pembaruan dan pemeliharaan sistem.
Namun, pandangan yang lebih modern adalah standar baru untuk apa yang mungkin dari ilmu komputer canggih. Itulah sebabnya dari dasar, perlu untuk membuat infrastruktur penyimpanan yang resisten terhadap kegagalan platform. Hypercaler telah menormalkan harapan bahwa sistem tersedia 24 jam sehari dengan kinerja yang lengkap.
Toleransi kegagalan membutuhkan perangkat lunak yang tidak mempercayai perangkat keras yang mendasari. “Unit dasar adalah cluster, yang harus terdiri dari minimal empat node. Setiap cluster harus dapat memecahkan kegagalan tanpa penghentian waktu; pemeliharaan rutin harus dilakukan tanpa waktu tidak aktif. Proyek -proyek lanjutan seperti kecerdasan buatan membutuhkan waktu berkelanjutan.
Jendela pemeliharaan, dalam pemikiran kami, benar -benar usang. Proyek -proyek kompleks ini, seperti penelitian medis, membutuhkan ketersediaan berkelanjutan. Seiring kemajuan industri dan tugas yang paling rumit ditugaskan untuk sistem HPC, Cincin Penyimpanan Kuningan adalah pengoperasian sistem yang belum dibayar.
Jenis struktur penyimpanan inilah mesin kami. Untuk memenuhi tuntutan masa depan membutuhkan sistem yang dapat mengakhiri ujung dari segalanya, termasuk koneksi dan unit jaringan. Bilah untuk pengoperasian sistem dalam kondisi bencana sekarang jauh lebih tinggi; Kami membangun arsitektur penyimpanan yang mungkin kehilangan simpul, bingkai atau bahkan seluruh pusat data; Sistem masih akan berfungsi.
Menghapus pemeliharaan berat dan fleksibilitas sistem
Fitur utama juga sistem yang sesuai dengan pekerjaan AI adalah kurangnya jendela pemeliharaan. Pekerjaan arsitektur sistem modular dan heterogen tidak menghasilkan waktu tidak aktif yang disediakan untuk pembaruan dan pembaruan.
Kemudian, ini tidak menyediakan ruang untuk apa pun yang dibutuhkan oleh administrator penyimpanan dan operator perangkat keras secara rutin: pembaruan, perbaikan / penggantian perangkat keras, pelapisan, pembaruan perangkat keras, konfigurasi ulang, nukleus, dan pembaruan keamanan.
Sistem penyimpanan yang diwariskan berdasarkan driver ganda memiliki berbagai titik kegagalan dan jendela pemeliharaan mengganggu, yang membuat operasi berkelanjutan menjadi tidak mungkin. Cluster adalah solusi yang jauh lebih baik. Modularitas pendekatan ini memberikan urutan besar redundansi yang lebih baik.
Misalnya, node dapat dihapus dari layanan, mengganti komponen mereka, atau memperbarui perangkat lunak mereka dan bergabung dengan cluster. Hal ini memungkinkan toleransi kegagalan yang sebenarnya dan operasi non -pengganggu. Cluster harus dibangun di atas minimal empat node, tetapi mereka juga akan dapat memanjat ribuan node jika diperlukan.
Kebutuhan beban kerja AI saat ini dan masa depan memerlukan penyimpanan yang dapat mengelola arsitektur hybrid; Kemampuan untuk menumpuk dan mengintegrasikan sistem yang lebih baru yang dapat bermain dengan baik dengan investasi sebelumnya tidak dapat diabaikan. Kompatibilitas adalah masalah anggaran, dalam hal ini.
Sistem penyimpanan yang ideal memiliki ruang pengguna tanpa modul atau pengontrol inti yang dipersonalisasi. Akibatnya, sistem dapat dikelola oleh staf dengan pengetahuan operasi Linux dasar. Jika ada masalah sistem, Anda tidak perlu menunggu seorang ahli mencapai pusat data.
Pikiran terakhir
Kapasitas data dan konsumsi energi kecerdasan buatan diusulkan. Ini sudah diperkirakan sekitar 20%dari permintaan energi dari Pusat Data Global, jumlah ini akan dua kali lipat pada akhir tahun dari tulisan ini. AI terpintar hanya akan membutuhkan lebih banyak ruang penyimpanan.
Kinerja saja tidak akan membawa Anda ke mana pun setelah produksi proyek dengan kompleksitas petabytes diproduksi. Performa terlihat sangat baik di atas kertas, tetapi kenyataannya berbeda. Seperti mobil balap, segera setelah trek menyentuh, pemeliharaan adalah masalah.
Keandalan dan kinerja mencegah mobil duduk di garasi diperbaiki sepanjang waktu. Itulah sebabnya konstruksi sistem penyimpanan membutuhkan sistem yang efisien, fleksibel, dan agnostik yang akan menjadi layanan untuk masa depan yang sedang dibuat saat ini.
Kami telah menyajikan hard drive terbaik.
Artikel ini terjadi sebagai bagian dari saluran informasi ahli TechRadarPro, di mana kami memiliki pikiran terbaik dan paling cerdas dalam industri teknologi saat ini. Pendapat yang diungkapkan di sini adalah pendapat penulis dan tidak harus dari TechRadarPro atau Future Plc. Jika Anda tertarik untuk berkontribusi pada informasi lebih lanjut di sini: