- Sistem ini menghubungkan fasilitas jarak jauh untuk menjalankan beban kerja pelatihan besar secara terus menerus
- Serat berkecepatan tinggi menjaga GPU tetap aktif dengan menghindari kemacetan data yang lambat
- Kepadatan chip dua tingkat meningkatkan daya komputasi sekaligus meminimalkan latensi antar rak
Microsoft telah meluncurkan AI Superfactory pertamanya, yang menghubungkan pusat data AI besar di Wisconsin dan Atlanta melalui jaringan fiber khusus yang dirancang untuk pergerakan data pelatihan berkecepatan tinggi.
Desainnya menempatkan chip bersama-sama di dua lantai untuk meningkatkan kepadatan dan mengurangi kelambatan.
Ia juga menggunakan sistem kabel dan fluida ekstensif yang diatur untuk mengatur berat dan panas yang dihasilkan oleh sekelompok besar perangkat keras.
Jaringan yang dibangun untuk pelatihan model skala besar
Dalam sebuah postingan blog, Microsoft mengatakan konfigurasi tersebut akan mendukung beban kerja AI yang sangat besar yang berbeda dari tugas-tugas yang lebih kecil dan lebih terisolasi yang biasanya dilakukan di lingkungan cloud.
“Ini tentang membangun jaringan terdistribusi yang dapat bertindak sebagai superkomputer virtual untuk mengatasi tantangan terbesar dunia,” kata Alistair Spears, manajer umum Microsoft yang berfokus pada infrastruktur Azure.
“Alasan kami menyebutnya sebagai pabrik super AI adalah karena pabrik tersebut menjalankan tugas kompleks pada jutaan perangkat keras… Ini bukan hanya satu situs yang melatih model AI, namun merupakan jaringan situs yang mendukung suatu tugas.”
Sistem AI WAN mentransmisikan informasi sejauh ribuan mil menggunakan serat khusus, beberapa baru dibangun dan beberapa digunakan ulang dari akuisisi sebelumnya.
Protokol dan arsitektur jaringan disesuaikan untuk memperpendek jalur dan memindahkan data dengan penundaan minimum.
Microsoft mengklaim hal ini memungkinkan situs yang jauh untuk berkolaborasi dalam proses pelatihan model yang sama secara real time, dengan setiap lokasi menyumbangkan komputasinya sendiri.
Fokusnya adalah mempertahankan aktivitas konstan di sejumlah besar GPU sehingga tidak ada unit yang terhenti saat menunggu hasil dari lokasi lain.
“Menjadi pemimpin dalam AI bukan hanya tentang menambahkan lebih banyak GPU — ini tentang membangun infrastruktur yang membuat mereka bekerja sama sebagai sebuah sistem,” kata Scott Guthrie, wakil presiden eksekutif Microsoft untuk cloud + AI.
Microsoft menggunakan tata letak Fairwater untuk mendukung sistem rak dengan throughput tinggi, dengan unit Nvidia GB200 NVL72 dirancang untuk menskalakan ke cluster GPU Blackwell yang sangat besar.
Perusahaan menggabungkan perangkat keras ini dengan sistem pendingin cair yang mengirimkan cairan panas ke luar gedung dan mengembalikannya pada suhu yang lebih rendah.
Selain penggantian berkala sesuai kebutuhan untuk pengendalian bahan kimia, pendinginan fungsional hampir tidak menggunakan air bersih, kata Microsoft.
Situs Atlanta mencerminkan tata letak Wisconsin, menyediakan arsitektur yang konsisten di banyak area seiring dengan semakin banyaknya fasilitas yang online.
“Untuk meningkatkan kemampuan AI, Anda harus memiliki infrastruktur yang semakin besar untuk melatihnya,” kata Mark Rusinovich, CTO, Deputy CISO, dan Technical Partner, Microsoft Azure.
“Jumlah infrastruktur yang kini diperlukan untuk melatih model-model ini bukan hanya satu pusat data, bukan dua, namun berlipat ganda.”
Perusahaan menyebut situs-situs ini dibuat khusus untuk melatih alat AI tingkat lanjut, dan menyebut semakin banyak parameter dan kumpulan data pelatihan yang besar sebagai tekanan utama.
Fasilitasnya mencakup penyimpanan berukuran exabyte dan jutaan inti CPU untuk mendukung tugas seputar alur kerja pelatihan utama.
Microsoft menyarankan bahwa model skala ini diperlukan bagi mitra seperti OpenAI dan tim AI Superintelligence miliknya untuk melanjutkan pengembangan.
Ikuti TechRadar di Google Berita Dan Tambahkan kami sebagai sumber daya pilihan Untuk mendapatkan berita, ulasan, dan opini pakar kami di feed Anda. Pastikan untuk mengklik tombol ikuti!
Dan tentu saja Anda juga bisa Ikuti TechRadar di TikTok Dapatkan berita, review, unboxing dalam bentuk video, dan update rutin dari kami Ada apa Juga