Nvidia выпустила чип Groq 3 LPU, который ускоряет инференс ИИ‑моделей до уровня токенов.
Nvidia раскрывает новые возможности платформы Vera Rubin
На конференции GTC этого года генеральный директор Nvidia Дженсен Хуанг объявил о расширении платформы Vera Rubin. В основу новых возможностей положена интеллектуальная собственность, приобретённая у компании Groq, и в состав Rubin вошёл чип *Groq 3 LPU* – ускоритель инференса, предназначенный для выдачи токенов с высокой скоростью и низкой задержкой.
Что уже есть в Vera Rubin
Платформа состоит из шести ключевых компонентов, которые Nvidia собирает в стоечные системы и масштабирует до больших AI‑фабрик:
| Компонент | Описание |
|---|---|
| GPU Rubin | Видеокарта с 288 ГБ HBM4 |
| CPU Vera | Центральный процессор |
| NVLink 6 | Система внутрисистемного масштабирования |
| ConnectX‑9 | Интеллектуальный сетевой адаптер |
| BlueField‑4 | Процессор обработки данных |
| Spectrum‑X | Коммутатор межсистемного масштабирования с интегрированной оптикой |
Groq 3 LPU теперь добавлен как новый строительный блок, который будет использоваться при развертывании больших систем.
Почему Groq 3 LPU выделяется
Главное отличие – архитектура памяти. В то время как большинство ускорителей используют HBM в качестве рабочей памяти, каждый Groq 3 LPU содержит 500 МБ SRAM. Сравнение:
| Параметр | GPU Rubin (HBM4) | Groq 3 LPU (SRAM) |
|---|---|---|
| Емкость | 288 ГБ | 0,5 ГБ |
| Пропускная способность | ~22 ТБ/с | до 150 ТБ/с |
Для задач инференса, чувствительных к пропускной способности, преимущество SRAM очевидно. Именно поэтому Nvidia включила Groq 3 в Rubin – чтобы повысить скорость выдачи токенов.
Стойка Groq 3 LPX
В составе стойки находится 256 чипов Groq 3 LPU, что даёт:
- 128 ГБ SRAM
- 40 ПБ/с суммарной пропускной способности
- 640 ТБ/с внутрисистемного интерфейса
Вице‑президент по гипермасштабируемым решениям Иэн Бак назвал эту стойку сопроцессором для Rubin, подчёркивая её роль в повышении производительности декодирования на каждом слое модели и токене.
Влияние на мультиагентные системы
Бак отметил, что Groq 3 LPX будет ключевым элементом для будущего AI‑рынка – мультиагентных систем. Когда агенты обмениваются данными напрямую, а не через чат‑боты, требования к отклику меняются: от 100 токенов/с до 1 500+ токенов/с и выше.
Конкуренты и перспективы
В тексте упомянут конкурент – Cerebras, использующая Wafer‑Scale Engine (WSE) с огромным SRAM для низколатентного инференса. OpenAI уже задействовала Cerebras в своих передовых моделях благодаря выгодной задержке.
Бак также отметил, что появление Groq 3 LPU может снизить зависимость от ускорителя Rubin CPX. Пока Nvidia фокусируется на интеграции стойки Groq 3 LPX с платформой, оба чипа призваны усилить инференс без необходимости больших объёмов GDDR7 памяти.
Итог:
Новый чип Groq 3 LPU и его стойка LPX усиливают Vera Rubin в сегменте низколатентного инференса, открывая путь к более быстрым мультиагентным AI‑системам и конкурируя с такими игроками, как Cerebras.
Комментарии (0)
Оставьте отзыв — пожалуйста, будьте вежливы и по теме.
Войти, чтобы комментировать