Nvidia отметила, что благодаря усовершенствованиям в архитектуре Blackwell снижение стоимости инференса нейросетей достигло десятикратного уровня, а успех приписывают не только аппаратному обеспечению.

Сокращение стоимости инференса на архитектуре Nvidia Blackwell

Новые ускорители Nvidia Blackwell позволяют уменьшить цену запуска обученных систем ИИ в 4–10 раз. Это данные, опубликованные самой Nvidia. Однако без сопутствующих программных и инфраструктурных улучшений такой прирост недостижим.

Как удалось добиться значительного снижения затрат

Показатель	Что помогло
Архитектура	Blackwell ускорители
Модели	Открытый исходный код (MoE, NVFP4 и др.)
Платформы	Baseten, DeepInfra, Fireworks AI, Together AI
Программные стеки	Оптимизированные пайплайны для низкой точности

* Перевод на Blackwell удваивает эффективность по сравнению с предыдущим поколением ускорителей.
* Использование форматов низкой точности (например NVFP4) дополнительно снижает расходы.

Практические примеры

Компания	Задача	Результат
Sully.ai	Здравоохранение, открытые модели в Baseten	90 % экономии инференса (10‑кратное снижение), 65 % сокращение времени отклика. Автоматизация кода и медицинских записей сэкономила 30 млн минут работы.
Latitude (AI Dungeon)	Игры, модели MoE в DeepInfra	Стоимость инференса за 1 млн токенов упала с $0,20 до $0,05: сначала на MoE (до $0,10), затем на NVFP4.
Sentient Foundation	Агентный чат, Fireworks AI	Экономическая эффективность выросла на 25–50 %. Платформа обработала 5,6 млн запросов в неделю без увеличения задержки.
Decagon	Голосовая поддержка клиентов, Together AI	Стоимость запроса уменьшилась шесть раз благодаря многомодельному стеку на Blackwell. Время ответа <400 мс даже при нескольких тысячах токенов.

Почему важны характеристики рабочей нагрузки

* Рассуждающие модели генерируют больше токенов, что требует более мощных ускорителей.
* Платформы используют *дезагрегированное обслуживание*: отдельный предварительный контекст и генерацию токенов, чтобы обрабатывать длинные последовательности эффективно.
* При больших объёмах генерации можно добиться до 10‑кратного прироста эффективности; при небольших – только до 4‑кратного.

Альтернативы Blackwell

Перевод на ускорители AMD Instinct MI300, Google TPU, Groq или Cerebras также снижает затраты. Ключевой момент — подобрать сочетание оборудования, ПО и моделей под конкретную рабочую нагрузку, а не просто использовать Blackwell.

Вывод:
Сокращение стоимости инференса достигается комплексным подходом: аппаратная мощь (Blackwell), открытые модели, оптимизированные стеки и правильное распределение задач. Это позволяет компаниям экономить до десятикратно на здравоохранении, играх, агентском ИИ и голосовой поддержке без потери качества или скорости.

Как удалось добиться значительного снижения затрат

Практические примеры

Почему важны характеристики рабочей нагрузки

Альтернативы Blackwell

Похожие новости

Астрономы теперь могут восстановить историю галактики, опираясь только на одну фотографию

Apple снова обыграла Masimo в борьбе за точность измерения уровня кислорода в крови

Meta увольнит около десяти процентов сотрудников для реорганизации по инициативам искусственного интеллекта и повышения производительности

Калифорнийская компания создала головной убор, позволяющий читать мысли без повреждений мозга

Комментарии (0)

Войти, чтобы комментировать