Hot Chips 31 Blog Langsung: Facebook Platform Pelatihan Unified Zion
18:34 EDT – Facebook menyajikan rincian tentang Sion, platform pelatihan terpadu generasi berikutnya dalam memori.
18:35 EDT – Sion dirancang untuk Facebook beban kerja yang jarang
18:35 EDT – Banyak tim di Facebook
18:35 EDT – keahlian dari jaringan hingga infrastruktur untuk menghitung
06:36 PM EDT – Pertumbuhan Pelatihan 12 bulan ML adalah komputasi 3x
06:36 PM EDT – Pertumbuhan data pipa ML pada tahun 2018 adalah 30%, sekarang adalah 50%
06:36 PM EDT – Itu 30% dari DC, sekarang 50%
18:37 EDT – Ukuran pusat data telah dua kali lipat dalam jangka waktu yang sama, jadi secara keseluruhan 3x
18:37 EDT – Jumlah insinyur di ML yang bereksperimen dengan model memiliki 2x dalam 12 bulan terakhir
18:37 EDT – Ini menempatkan ketegangan yang signifikan pada sistem
18:37 EDT – Insinyur ML berharap untuk melakukannya dalam bentuk yang sangat gesit
06:38 PM EDT – Mereka membutuhkan fleksibilitas dan efisiensi
06:38 PM EDT – Desain bersama SW / HW yang Termotivasi
06:38 PM EDT – Strain pada berbagai bagian pusat data
06:38 PM EDT – Layanan AI utama di Facebook
18:39 EDT – Rekomendasi, visi, bahasa
18:39 EDT – Tiga layanan tingkat tinggi utama
18:40 EDT – Model rekomendasi adalah di antara model yang paling penting, untuk umpan berita dan semacamnya
18:40 EDT – Model DL
06:41 PM EDT – Banyak fitur yang jarang dalam beban kerja
06:41 PM EDT – mis. halaman teman dan pengguna
06:41 PM EDT – Perlu model numerik untuk pelatihan
06:41 PM EDT – Diterjemahkan ke dalam pencarian tabel tertanam
06:42 PM EDT – Mengembangkan interaksi antara fitur untuk membantu menghitung potensi interaktivitas pengguna
06:42 PM EDT – Tidak setiap pengguna akan berinteraksi dengan setiap fitur
06:43 PM EDT – Model cukup luas dalam persyaratan sumber daya
06:43 PM EDT – Regangkan setiap elemen infrastruktur
06:43 PM EDT – Tabel tertanam adalah urutan 10+ GB per pengguna
06:43 PM EDT – Intensitas algoritmik rendah
18:44 EDT – Bertujuan untuk paralelisme model
18:44 EDT – Harus mendapatkan penyeimbangan beban yang baik di beberapa perangkat
18:44 EDT – MLP (multi-layer perceptron) membutuhkan model atau paralelisme data
18:45 EDT – Model GEMM tinggi dan kurus
18:45 EDT – Menyatukan semuanya
18:45 EDT – Pelatihan masing-masing model
18:45 EDT – Komunikasi all-to-all yang merenggangkan infrastruktur
06:46 EDT – Format BF16 terpadu dengan CPU dan Akselerator
06:47 PM EDT – Sistem 8 socket CPU dengan 8 akselerator
06:47 PM EDT – CPU 8x100W dengan Akselerator 8x200W
06:47 PM EDT – Tidak semua bagian menggunakan BF16
18:48 EDT – CPU diatur dalam hypercube mesh dengan fabric terpisah ke fabric accelerator
18:48 EDT – Dirancang untuk mengurangi skala
18:49 EDT – (CPU harus memiliki BF16 = Cooper Lake?)
18:49 EDT – Desain sistem modular
18:49 EDT – modul MB dual socket
18:50 EDT – empat modul dual socket membuat sistem 8-socket
06.51 EDT – Sejumlah besar akselerator berbeda tersedia. Facebook memimpin upaya OAM ke vendor perangkat faktor bentuk umum agnostik
06.51 EDT – Beberapa vendor memiliki cube mesh, ada pula yang sepenuhnya terhubung
06.51 EDT – Solusi adalah topologi super set
06:52 PM EDT – Dapat mengaktifkan semua topologi lainnya melalui superset
06:53 PM EDT – Fleksibilitas perangkat lunak
06:53 PM EDT – Dapat bekerja pada CPU saja, dan dapat meningkatkan model pada perangkat keras yang lebih baik
06:53 PM EDT – Menciptakan rangkaian kinerja / efisiensi / waktu pengembang
06.54 EDT – Sistem dapat dikonfigurasi sebagai 4x2S, 2x4S, atau 1x8S
06.54 EDT – Semua bekerja pada PCIe
06.55 EDT – Hasil kinerja, hanya CPU
18:56 EDT – Perbandingan dengan solusi NVIDIA
18:58 EDT – Itu bungkus