Google уменьшила потребление памяти ИИ‑моделей шестькратно, сохранив точность, благодаря алгоритму TurboQuant

Google уменьшила потребление памяти ИИ‑моделей шестькратно, сохранив точность, благодаря алгоритму TurboQuant

7 hardware

Краткое содержание

Google Research представил новый способ сжатия KV‑кеша больших языковых моделей – TurboQuant. Алгоритм уменьшает разрядность кеша до 3 битов (4 бита, если добавить коррекцию ошибок), не ухудшая точность ответов и без дополнительного обучения. На ускорителях Nvidia H100 TurboQuant повысил производительность вычисления логитов внимания в 8‑раз и сократил размер KV‑кеша шесть раз.


Что такое KV‑кеш и почему он важен

* KV‑кеш хранит ключи (K) и значения (V), полученные при расчёте механизма внимания.
Это позволяет модели не пересчитывать их на каждом шаге генерации токенов.
* При увеличении контекстного окна кеш растёт экспоненциально, что приводит к высоким затратам памяти.
* Традиционные методы квантования уменьшают размер кеша, но требуют хранения констант квантования (словарей), аналогичных ZIP/RAR.
Эти словари создают значительные накладные расходы.


Как работает TurboQuant

TurboQuant состоит из двух этапов и полностью избавляется от словарей.

ЭтапЧто делаетсяПочему это важно
1. PolarQuantПеревод векторов из декартовых координат в полярные (радиус + угол).Угловые распределения предсказуемы и концентрированы, поэтому не нужен дорогой этап нормализации каждого блока. Получается высококачественное сжатие без словарей.
2. 1‑битовый слой коррекции ошибокПрименяется квантованный алгоритм Джонсона‑Линденштрауса; остаточная ошибка сводится к одному биту.Устраняет систематическую погрешность в расчётах внимания с минимальными дополнительными затратами.

Практические результаты

ТестАлгоритмыРезультаты
LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral)TurboQuant vs KIVITurboQuant: минимум 6‑кратное сжатие KV‑кеша; в задачах поиска «иголки в стоге сена» – без потерь точности. В LongBench – не хуже, а иногда лучше KIVI.
Векторный поиск (GloVe)TurboQuant vs Product Quantization, RabbiQДаже без обучения TurboQuant превзошёл обученные конкуренты по качеству результатов и потреблению памяти.

Выводы

* TurboQuant обеспечивает сильное сжатие KV‑кеша до 3–4 битов без потери точности и без дополнительного обучения.
* Производительность на Nvidia H100 выросла в 8 раз, а размер кеша сократился шесть раз.
* Алгоритм работает как для больших языковых моделей, так и для задач векторного поиска, не требуя тонкой настройки.

Таким образом, TurboQuant готов к практическому использованию даже при высокой нагрузке и открывает новые возможности для эффективной работы с большими моделями.

Комментарии (0)

Оставьте отзыв — пожалуйста, будьте вежливы и по теме.

Пока нет комментариев. Оставьте комментарий — поделитесь своим мнением!

Чтобы оставить комментарий, войдите в аккаунт.

Войти, чтобы комментировать