Nvidia отметила, что благодаря усовершенствованиям в архитектуре Blackwell снижение стоимости инференса нейросетей достигло десятикратного уровня, а успех приписывают не только аппаратному обеспечению.

Nvidia отметила, что благодаря усовершенствованиям в архитектуре Blackwell снижение стоимости инференса нейросетей достигло десятикратного уровня, а успех приписывают не только аппаратному обеспечению.

20 hardware

Сокращение стоимости инференса на архитектуре Nvidia Blackwell

Новые ускорители Nvidia Blackwell позволяют уменьшить цену запуска обученных систем ИИ в 4–10 раз. Это данные, опубликованные самой Nvidia. Однако без сопутствующих программных и инфраструктурных улучшений такой прирост недостижим.


Как удалось добиться значительного снижения затрат

ПоказательЧто помогло
АрхитектураBlackwell ускорители
МоделиОткрытый исходный код (MoE, NVFP4 и др.)
ПлатформыBaseten, DeepInfra, Fireworks AI, Together AI
Программные стекиОптимизированные пайплайны для низкой точности

* Перевод на Blackwell удваивает эффективность по сравнению с предыдущим поколением ускорителей.
* Использование форматов низкой точности (например NVFP4) дополнительно снижает расходы.


Практические примеры

КомпанияЗадачаРезультат
Sully.aiЗдравоохранение, открытые модели в Baseten90 % экономии инференса (10‑кратное снижение), 65 % сокращение времени отклика. Автоматизация кода и медицинских записей сэкономила 30 млн минут работы.
Latitude (AI Dungeon)Игры, модели MoE в DeepInfraСтоимость инференса за 1 млн токенов упала с $0,20 до $0,05: сначала на MoE (до $0,10), затем на NVFP4.
Sentient FoundationАгентный чат, Fireworks AIЭкономическая эффективность выросла на 25–50 %. Платформа обработала 5,6 млн запросов в неделю без увеличения задержки.
DecagonГолосовая поддержка клиентов, Together AIСтоимость запроса уменьшилась шесть раз благодаря многомодельному стеку на Blackwell. Время ответа <400 мс даже при нескольких тысячах токенов.

Почему важны характеристики рабочей нагрузки

* Рассуждающие модели генерируют больше токенов, что требует более мощных ускорителей.
* Платформы используют *дезагрегированное обслуживание*: отдельный предварительный контекст и генерацию токенов, чтобы обрабатывать длинные последовательности эффективно.
* При больших объёмах генерации можно добиться до 10‑кратного прироста эффективности; при небольших – только до 4‑кратного.


Альтернативы Blackwell

Перевод на ускорители AMD Instinct MI300, Google TPU, Groq или Cerebras также снижает затраты. Ключевой момент — подобрать сочетание оборудования, ПО и моделей под конкретную рабочую нагрузку, а не просто использовать Blackwell.


Вывод:
Сокращение стоимости инференса достигается комплексным подходом: аппаратная мощь (Blackwell), открытые модели, оптимизированные стеки и правильное распределение задач. Это позволяет компаниям экономить до десятикратно на здравоохранении, играх, агентском ИИ и голосовой поддержке без потери качества или скорости.

Комментарии (0)

Оставьте отзыв — пожалуйста, будьте вежливы и по теме.

Пока нет комментариев. Оставьте комментарий — поделитесь своим мнением!

Чтобы оставить комментарий, войдите в аккаунт.

Войти, чтобы комментировать