Nvidia отметила, что благодаря усовершенствованиям в архитектуре Blackwell снижение стоимости инференса нейросетей достигло десятикратного уровня, а успех приписывают не только аппаратному обеспечению.
Сокращение стоимости инференса на архитектуре Nvidia Blackwell
Новые ускорители Nvidia Blackwell позволяют уменьшить цену запуска обученных систем ИИ в 4–10 раз. Это данные, опубликованные самой Nvidia. Однако без сопутствующих программных и инфраструктурных улучшений такой прирост недостижим.
Как удалось добиться значительного снижения затрат
| Показатель | Что помогло |
|---|---|
| Архитектура | Blackwell ускорители |
| Модели | Открытый исходный код (MoE, NVFP4 и др.) |
| Платформы | Baseten, DeepInfra, Fireworks AI, Together AI |
| Программные стеки | Оптимизированные пайплайны для низкой точности |
* Перевод на Blackwell удваивает эффективность по сравнению с предыдущим поколением ускорителей.
* Использование форматов низкой точности (например NVFP4) дополнительно снижает расходы.
Практические примеры
| Компания | Задача | Результат |
|---|---|---|
| Sully.ai | Здравоохранение, открытые модели в Baseten | 90 % экономии инференса (10‑кратное снижение), 65 % сокращение времени отклика. Автоматизация кода и медицинских записей сэкономила 30 млн минут работы. |
| Latitude (AI Dungeon) | Игры, модели MoE в DeepInfra | Стоимость инференса за 1 млн токенов упала с $0,20 до $0,05: сначала на MoE (до $0,10), затем на NVFP4. |
| Sentient Foundation | Агентный чат, Fireworks AI | Экономическая эффективность выросла на 25–50 %. Платформа обработала 5,6 млн запросов в неделю без увеличения задержки. |
| Decagon | Голосовая поддержка клиентов, Together AI | Стоимость запроса уменьшилась шесть раз благодаря многомодельному стеку на Blackwell. Время ответа <400 мс даже при нескольких тысячах токенов. |
Почему важны характеристики рабочей нагрузки
* Рассуждающие модели генерируют больше токенов, что требует более мощных ускорителей.
* Платформы используют *дезагрегированное обслуживание*: отдельный предварительный контекст и генерацию токенов, чтобы обрабатывать длинные последовательности эффективно.
* При больших объёмах генерации можно добиться до 10‑кратного прироста эффективности; при небольших – только до 4‑кратного.
Альтернативы Blackwell
Перевод на ускорители AMD Instinct MI300, Google TPU, Groq или Cerebras также снижает затраты. Ключевой момент — подобрать сочетание оборудования, ПО и моделей под конкретную рабочую нагрузку, а не просто использовать Blackwell.
Вывод:
Сокращение стоимости инференса достигается комплексным подходом: аппаратная мощь (Blackwell), открытые модели, оптимизированные стеки и правильное распределение задач. Это позволяет компаниям экономить до десятикратно на здравоохранении, играх, агентском ИИ и голосовой поддержке без потери качества или скорости.
Комментарии (0)
Оставьте отзыв — пожалуйста, будьте вежливы и по теме.
Войти, чтобы комментировать