Nvidia выпустила чип Groq 3 LPU, который ускоряет инференс ИИ‑моделей до уровня токенов.

Nvidia выпустила чип Groq 3 LPU, который ускоряет инференс ИИ‑моделей до уровня токенов.

20 software

Nvidia раскрывает новые возможности платформы Vera Rubin

На конференции GTC этого года генеральный директор Nvidia Дженсен Хуанг объявил о расширении платформы Vera Rubin. В основу новых возможностей положена интеллектуальная собственность, приобретённая у компании Groq, и в состав Rubin вошёл чип *Groq 3 LPU* – ускоритель инференса, предназначенный для выдачи токенов с высокой скоростью и низкой задержкой.


Что уже есть в Vera Rubin

Платформа состоит из шести ключевых компонентов, которые Nvidia собирает в стоечные системы и масштабирует до больших AI‑фабрик:

КомпонентОписание
GPU RubinВидеокарта с 288 ГБ HBM4
CPU VeraЦентральный процессор
NVLink 6Система внутрисистемного масштабирования
ConnectX‑9Интеллектуальный сетевой адаптер
BlueField‑4Процессор обработки данных
Spectrum‑XКоммутатор межсистемного масштабирования с интегрированной оптикой

Groq 3 LPU теперь добавлен как новый строительный блок, который будет использоваться при развертывании больших систем.


Почему Groq 3 LPU выделяется

Главное отличие – архитектура памяти. В то время как большинство ускорителей используют HBM в качестве рабочей памяти, каждый Groq 3 LPU содержит 500 МБ SRAM. Сравнение:

ПараметрGPU Rubin (HBM4)Groq 3 LPU (SRAM)
Емкость288 ГБ0,5 ГБ
Пропускная способность~22 ТБ/сдо 150 ТБ/с

Для задач инференса, чувствительных к пропускной способности, преимущество SRAM очевидно. Именно поэтому Nvidia включила Groq 3 в Rubin – чтобы повысить скорость выдачи токенов.


Стойка Groq 3 LPX

В составе стойки находится 256 чипов Groq 3 LPU, что даёт:

- 128 ГБ SRAM
- 40 ПБ/с суммарной пропускной способности
- 640 ТБ/с внутрисистемного интерфейса

Вице‑президент по гипермасштабируемым решениям Иэн Бак назвал эту стойку сопроцессором для Rubin, подчёркивая её роль в повышении производительности декодирования на каждом слое модели и токене.


Влияние на мультиагентные системы

Бак отметил, что Groq 3 LPX будет ключевым элементом для будущего AI‑рынка – мультиагентных систем. Когда агенты обмениваются данными напрямую, а не через чат‑боты, требования к отклику меняются: от 100 токенов/с до 1 500+ токенов/с и выше.


Конкуренты и перспективы

В тексте упомянут конкурент – Cerebras, использующая Wafer‑Scale Engine (WSE) с огромным SRAM для низколатентного инференса. OpenAI уже задействовала Cerebras в своих передовых моделях благодаря выгодной задержке.

Бак также отметил, что появление Groq 3 LPU может снизить зависимость от ускорителя Rubin CPX. Пока Nvidia фокусируется на интеграции стойки Groq 3 LPX с платформой, оба чипа призваны усилить инференс без необходимости больших объёмов GDDR7 памяти.


Итог:
Новый чип Groq 3 LPU и его стойка LPX усиливают Vera Rubin в сегменте низколатентного инференса, открывая путь к более быстрым мультиагентным AI‑системам и конкурируя с такими игроками, как Cerebras.

Комментарии (0)

Оставьте отзыв — пожалуйста, будьте вежливы и по теме.

Пока нет комментариев. Оставьте комментарий — поделитесь своим мнением!

Чтобы оставить комментарий, войдите в аккаунт.

Войти, чтобы комментировать