Google уменьшила потребление памяти ИИ‑моделей шестькратно, сохранив точность, благодаря алгоритму TurboQuant

Краткое содержание

Google Research представил новый способ сжатия KV‑кеша больших языковых моделей – TurboQuant. Алгоритм уменьшает разрядность кеша до 3 битов (4 бита, если добавить коррекцию ошибок), не ухудшая точность ответов и без дополнительного обучения. На ускорителях Nvidia H100 TurboQuant повысил производительность вычисления логитов внимания в 8‑раз и сократил размер KV‑кеша шесть раз.

Что такое KV‑кеш и почему он важен

* KV‑кеш хранит ключи (K) и значения (V), полученные при расчёте механизма внимания.
Это позволяет модели не пересчитывать их на каждом шаге генерации токенов.
* При увеличении контекстного окна кеш растёт экспоненциально, что приводит к высоким затратам памяти.
* Традиционные методы квантования уменьшают размер кеша, но требуют хранения констант квантования (словарей), аналогичных ZIP/RAR.
Эти словари создают значительные накладные расходы.

Как работает TurboQuant

TurboQuant состоит из двух этапов и полностью избавляется от словарей.

Этап	Что делается	Почему это важно
1. PolarQuant	Перевод векторов из декартовых координат в полярные (радиус + угол).	Угловые распределения предсказуемы и концентрированы, поэтому не нужен дорогой этап нормализации каждого блока. Получается высококачественное сжатие без словарей.
2. 1‑битовый слой коррекции ошибок	Применяется квантованный алгоритм Джонсона‑Линденштрауса; остаточная ошибка сводится к одному биту.	Устраняет систематическую погрешность в расчётах внимания с минимальными дополнительными затратами.

Практические результаты

Тест	Алгоритмы	Результаты
LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral)	TurboQuant vs KIVI	TurboQuant: минимум 6‑кратное сжатие KV‑кеша; в задачах поиска «иголки в стоге сена» – без потерь точности. В LongBench – не хуже, а иногда лучше KIVI.
Векторный поиск (GloVe)	TurboQuant vs Product Quantization, RabbiQ	Даже без обучения TurboQuant превзошёл обученные конкуренты по качеству результатов и потреблению памяти.

Выводы

* TurboQuant обеспечивает сильное сжатие KV‑кеша до 3–4 битов без потери точности и без дополнительного обучения.
* Производительность на Nvidia H100 выросла в 8 раз, а размер кеша сократился шесть раз.
* Алгоритм работает как для больших языковых моделей, так и для задач векторного поиска, не требуя тонкой настройки.

Таким образом, TurboQuant готов к практическому использованию даже при высокой нагрузке и открывает новые возможности для эффективной работы с большими моделями.

Google уменьшила потребление памяти ИИ‑моделей шестькратно, сохранив точность, благодаря алгоритму TurboQuant

Что такое KV‑кеш и почему он важен

Как работает TurboQuant

Практические результаты

Выводы

Похожие новости

Apple снова обыграла Masimo в борьбе за точность измерения уровня кислорода в крови

Meta увольнит около десяти процентов сотрудников для реорганизации по инициативам искусственного интеллекта и повышения производительности

Калифорнийская компания создала головной убор, позволяющий читать мысли без повреждений мозга

Утечка раскрыла цвета нового iPhone 18 Pro: темно‑красный «Dark Cherry» заменит «Cosmic Orange».

Комментарии (0)

Войти, чтобы комментировать

Google уменьшила потребление памяти ИИ‑моделей шестькратно, сохранив точность, благодаря алгоритму TurboQuant

Что такое KV‑кеш и почему он важен

Как работает TurboQuant

Практические результаты

Выводы

Похожие новости

Apple снова обыграла Masimo в борьбе за точность измерения уровня кислорода в крови

Meta увольнит около десяти процентов сотрудников для реорганизации по инициативам искусственного интеллекта и повышения производительности

Калифорнийская компания создала головной убор, позволяющий читать мысли без повреждений мозга

Утечка раскрыла цвета нового iPhone 18 Pro: темно‑красный «Dark Cherry» заменит «Cosmic Orange».

Войти, чтобы комментировать

Утечка раскрыла цвета нового iPhone 18 Pro: темно‑красный «Dark Cherry» заменит «Cosmic Orange».