Nvidia Memperkenalkan GPU Rubin CPX untuk Inferens AI Konteks Panjang dengan Peningkatan Prestasi 6.5 Kali Ganda

Pasukan Editorial BigGo
Nvidia Memperkenalkan GPU Rubin CPX untuk Inferens AI Konteks Panjang dengan Peningkatan Prestasi 6.5 Kali Ganda

Nvidia telah memperkenalkan pendekatan terobosan dalam pemprosesan AI dengan pelancaran GPU Rubin CPX, yang direka khas untuk mengendalikan fasa pemprosesan konteks intensif pengiraan bagi aplikasi AI konteks panjang. Ini menandakan langkah pertama industri ke arah pemisahan beban kerja inferens AI merentasi perkakasan khusus, yang berpotensi memerlukan dua GPU bekerja secara serentak untuk mencapai prestasi dan keuntungan maksimum.

Menangani Cabaran Konteks Panjang

Rubin CPX menyasarkan aplikasi yang memerlukan lebih daripada satu juta token konteks input, menangani kesesakan kritikal dalam pemprosesan AI. Aplikasi semasa bergelut dengan konteks yang sangat panjang, seperti memproses 100,000 baris kod atau analisis video berbingkai berbilang, di mana pengguna sering menunggu 5-10 minit untuk token pertama muncul. Aplikasi pemprosesan video menghadapi kelewatan yang lebih lama iaitu 10-20 saat atau lebih, yang menjelaskan mengapa LLM video biasanya terhad kepada klip pendek pada hari ini.

Spesifikasi Teknikal dan Prestasi

Rubin CPX menyampaikan 30 petaFLOP kuasa pengiraan NVFP4 yang dipasangkan dengan 128 GB memori GDDR7. Nvidia mendakwa cip ini mencapai prestasi sehingga 6.5 kali ganda lebih baik daripada GB300 Blackwell Ultra yang akan datang untuk aplikasi panjang konteks yang besar. Penggunaan GDDR7 berbanding memori HBM yang mahal menjadikan penyelesaian ini lebih kos efektif sambil masih menyediakan lebar jalur yang diperlukan untuk tugas pemprosesan konteks.

Spesifikasi Teknikal Rubin CPX

  • Kuasa Pengkomputeran: 30 petaFLOPs NVFP4
  • Memori: 128 GB GDDR7
  • Prestasi berbanding Blackwell Ultra: Sehingga 6.5x lebih pantas untuk aplikasi konteks panjang
  • Panjang Konteks: Dioptimumkan untuk lebih 1 juta token

Konfigurasi Penggunaan dan Kebolehskalaan

Nvidia merancang untuk menawarkan Rubin CPX dalam dua konfigurasi utama. Rak unggulan Vera Rubin NVL144 CPX mengintegrasikan 144 GPU Rubin CPX, 144 GPU Rubin standard, dan 36 CPU Vera, menyampaikan gabungan 8 exaFLOP prestasi pengiraan NVFP4. Ini mewakili peningkatan 7.5 kali ganda berbanding sistem Blackwell Ultra. Untuk pelanggan sedia ada, Nvidia akan menawarkan rak CPX berasingan yang boleh ditambah kepada pemasangan Rubin semasa, meningkatkan prestasi daripada 5 exaFLOP kepada 8 exaFLOP sambil menyokong sehingga 150TB memori GDDR7 yang pantas.

Konfigurasi Rak Vera Rubin NVL144 CPX

  • 144 GPU Rubin CPX
  • 144 GPU Rubin
  • 36 CPU Vera
  • Jumlah Pengkomputeran: 8 exaFLOPs NVFP4
  • Sokongan Memori: Sehingga 150TB GDDR7
  • Peningkatan Prestasi: 7.5x berbanding Blackwell Ultra

Impak Ekonomi dan Unjuran ROI

Menurut unjuran Nvidia, pelaburan 3 juta dolar Amerika dalam sistem GB200 NVL72 boleh menjana 30 juta dolar Amerika dalam hasil token. Syarikat menganggarkan bahawa walaupun dengan persaingan percuma, GB200 NVL72 boleh meningkatkan keuntungan token hampir empat kali ganda. Penambahan teknologi CPX dijangka akan meningkatkan lagi pulangan ini, dengan Nvidia mendakwa 30 hingga 50 kali ganda pulangan pelaburan untuk platform baharu.

Unjuran Ekonomi

  • Pelaburan GB200 NVL72 : USD 3 juta
  • Unjuran Hasil Token: USD 30 juta
  • ROI untuk Platform Baharu: 30x hingga 50x
  • Peningkatan Prestasi dengan Bahagian GPU Pintar: 3x dengan kos/tenaga yang sama

Aplikasi Pasaran dan Pandangan Masa Depan

Nvidia telah mengenal pasti pengkodan program besar dan pemprosesan video sebagai aplikasi utama yang memerlukan konteks sejuta token. Syarikat menganggarkan bahawa kira-kira 20% aplikasi AI pada masa ini mengalami kelewatan ketara menunggu penjanaan token pertama. Rubin CPX dijangka tersedia dalam tahun hadapan, dengan peta jalan yang dikemas kini melanjutkan sehingga seni bina Feynman pada 2028. Langkah strategik ini meletakkan Nvidia untuk mengekalkan kelebihan daya saingnya dalam pasaran perkakasan AI sambil berpotensi memaksa pesaing seperti Google dan AMD untuk membangunkan penyelesaian khusus yang serupa.