Intel Merinci Inferensi Nervana dan Pelatihan Kartu AI-nya

Situs ini dapat memperoleh komisi afiliasi dari tautan di halaman ini. Syarat Penggunaan. Intel Merinci Inferensi Nervana dan Pelatihan Kartu AI-nya 1Hot Chips 31 sedang berlangsung minggu ini, dengan presentasi dari sejumlah perusahaan. Intel telah memutuskan untuk menggunakan konferensi yang sangat teknis untuk membahas berbagai produk, termasuk sesi utama yang berfokus pada divisi AI perusahaan. AI dan pembelajaran mesin dipandang sebagai area penting untuk masa depan komputasi, dan sementara Intel telah menangani bidang-bidang ini dengan fitur-fitur seperti DL Boost di Xeon, itu juga membangun akselerator khusus untuk pasar.

NNP-I 1000 (Spring Hill) dan NNP-T (Spring Crest) dimaksudkan untuk dua pasar yang berbeda, inferensi dan pelatihan. "Pelatihan" adalah pekerjaan menciptakan dan mengajarkan jaringan saraf bagaimana memproses data di tempat pertama. Inferensi mengacu pada tugas untuk benar-benar menjalankan model jaringan saraf yang sekarang terlatih. Dibutuhkan daya kuda yang jauh lebih komputasional untuk melatih jaringan saraf daripada menerapkan hasil pelatihan itu pada tugas kategorisasi atau klasifikasi dunia nyata.

Intel Spring Crest NNP-T dirancang untuk berkembang ke tingkat yang belum pernah terjadi sebelumnya, dengan keseimbangan antara kemampuan pemrosesan tensor, HBM paket, kemampuan jaringan, dan SRAM on-die untuk meningkatkan kinerja pemrosesan. Chip yang mendasarinya dibangun oleh TSMC – ya, TSMC – pada 16nm, dengan ukuran die 680mm2 dan interposer 1200mm2. Seluruh unit adalah 27 miliar transistor dengan tumpukan memori HBM2-2400 4x8GB, 24 Tensor Processing Clusters (TPCs) dengan frekuensi inti hingga 1,1GHz. Enam puluh empat jalur SerDes HSIO menyediakan bandwidth agregat 3,58Tbps dan kartu mendukung koneksi x16 PCIe 4.0. Konsumsi daya diperkirakan antara 150-250W. Chip ini dibangun menggunakan kemasan CoWoS canggih TSMC (Chip-on-Wafer-on-Substrate), dan membawa 60MB cache yang didistribusikan di berbagai inti. CoWoS bersaing dengan EMIB Intel, tetapi Intel telah memutuskan untuk membangun perangkat keras ini di TSMC daripada menggunakan pengecorannya sendiri. Kinerja diperkirakan mencapai 119 TOPS.

“Kami tidak ingin menyia-nyiakan area pada hal-hal yang tidak kami butuhkan,” kata Wakil Presiden Intel Hardware Carey Kloss kepada Next Platform. “Perangkat instruksi kami sederhana; perkalian matriks, aljabar linier, konvolusi. Kami tidak memiliki register sendiri, semuanya tensor (2D, 3D, atau 4D). ”Ada banyak hal yang didefinisikan dalam perangkat lunak, termasuk kemampuan untuk memprogram yang sama ketika memecah model untuk menjalankan atau mematikan die . "Anggap saja sebagai hierarki," kata Kloss dalam wawancara. “Anda dapat menggunakan set instruksi yang sama untuk memindahkan data antara dua cluster dalam satu grup di sebelah satu HBM atau antara grup atau bahkan mati di jaringan. Kami ingin membuatnya sederhana bagi perangkat lunak untuk mengelola komunikasi. "

Tampilan slide di bawah ini melangkah melalui arsitektur NNP-T. Semua data adalah milik Intel, dan angka kinerja yang dibagikan dalam microbenchmark perusahaan jelas belum divalidasi oleh ExtremeTech.

NNP-T dirancang untuk keluar secara efektif tanpa memerlukan sasis. Beberapa akselerator NNP-T dapat dihubungkan bersama dalam sasis yang sama, dan kartu mendukung sasis ke sasis dan bahkan koneksi glueless rack-to-rack tanpa perlu sakelar. Ada empat port jaringan QFSP (Quad Small Form Factor Pluggable) di belakang setiap kartu mezzanine.

Kami belum memiliki data kinerja, tetapi ini adalah kartu pelatihan kelas atas yang akan dipasarkan Intel untuk bersaing dengan orang-orang seperti Nvidia. Belum jelas bagaimana solusi akhirnya seperti Xe, yang tidak akan dikirimkan untuk pusat data hingga 2021, akan masuk ke dalam portofolio produk masa depan perusahaan setelah memiliki inti pemrosesan tensor dan GPU di pasar pusat data.

Spring Hill / NNP-I: Icelake On-Board

Spring Hill, akselerator inferensi baru Intel, adalah binatang yang sama sekali berbeda. Jika NNP-T dirancang untuk amplop daya 150-250W, NNP-I adalah bagian 10-50W yang dimaksudkan untuk dihubungkan ke slot M.2. Ini fitur dua core CPU Koreake dipasangkan dengan 12 Inference Compute Engine (ICE).

Intel Merinci Inferensi Nervana dan Pelatihan Kartu AI-nya 2

Ke-12 mesin ICE dan inti CPU ganda didukung oleh LMB koheren 24MB dan mendukung instruksi AVX-512 dan VNNI. Ada dua pengontrol memori LPDDR4X on-die yang terhubung ke kumpulan memori LPDDR4 yang mati (belum ada kabar tentang kapasitas). Bandwidth DRAM hingga 68GB / s, tetapi jumlah total DRAM pada kartu tidak diketahui. Spring Hill dapat ditambahkan ke server modern mana pun yang mendukung slot M.2 – menurut Intel, perangkat berkomunikasi melalui riser M.2 seperti produk PCIe daripada melalui NVMe.

Tujuannya, dengan NNP-I, adalah untuk menjalankan operasi pada prosesor AI dengan lebih sedikit overhead yang diperlukan dari CPU utama dalam sistem. Perangkat terhubung melalui PCIe (baik PCIe 3.0 dan 4.0 didukung) dan menangani beban kerja AI, menggunakan inti Koreake on-die untuk pemrosesan yang diperlukan. SRAM dan DRAM on-die menyediakan bandwidth memori lokal.

Intel Merinci Inferensi Nervana dan Pelatihan Kartu AI-nya 3

Inference Compute Engine mendukung berbagai format instruksi, mulai dari FP16 hingga INT1, dengan prosesor vektor yang dapat diprogram dan SRAM 4MB untuk setiap ICE individu.

Intel Merinci Inferensi Nervana dan Pelatihan Kartu AI-nya 4

Ada juga mesin tensor, dijuluki Deep Learning Compute Grid, dan Tensilica Vision P6 DSP (digunakan untuk memproses beban kerja yang tidak disetel untuk berjalan di Grid Komputasi DL fungsi-tetap).

Intel Merinci Inferensi Nervana dan Pelatihan Kartu AI-nya 5

Subsistem memori keseluruhan dari NNP-I juga dioptimalkan, dengan cache L3 dipecah menjadi delapan irisan 3MB, dibagi antara inti ICE dan CPU. Tujuannya adalah untuk menjaga data sedekat mungkin dengan elemen pemrosesan yang membutuhkannya. Intel mengklaim NNP-I dapat memberikan kinerja ResNet50 sebanyak 3.600 inferensi per detik saat dijalankan pada TDP 10W. Itu bekerja hingga 4,8 TOPS / watt, yang memenuhi tujuan efisiensi keseluruhan Intel (perusahaan mengklaim bahwa NNP-I paling efisien pada watt yang lebih rendah).

Intel tidak mengharapkan NNP-I untuk datang ke pasar ritel, tetapi solusi inferensi melakukan bisnis yang cepat dibandingkan dengan solusi pelatihan centre-centric high-end training. NNP-I dapat dikirimkan ke berbagai pelanggan dalam waktu yang tidak terlalu lama, tergantung pada penyerapan keseluruhan.

Kedua solusi ini dimaksudkan untuk menantang Nvidia di pusat data. Meskipun keduanya sangat berbeda dari Xeon Phi, Anda dapat berargumen bahwa mereka secara kolektif menargetkan beberapa ruang yang ingin dijual Intel Xeon Phi, meskipun dengan cara yang sangat berbeda. Namun itu tidak selalu merupakan hal yang buruk – ketika Larrabee asli dibangun, gagasan untuk menggunakan GPU untuk kerja AI dan pusat data adalah konsep yang jauh. Meninjau kembali topik dengan arsitektur khusus baru untuk inferensi dan pelatihan adalah langkah cerdas bagi Intel, jika perusahaan dapat mengambil volume dari Nvidia.

Sekarang baca:

Pos terkait

Back to top button