Google уменьшила потребление памяти ИИ‑моделей шестькратно, сохранив точность, благодаря алгоритму TurboQuant
Краткое содержание
Google Research представил новый способ сжатия KV‑кеша больших языковых моделей – TurboQuant. Алгоритм уменьшает разрядность кеша до 3 битов (4 бита, если добавить коррекцию ошибок), не ухудшая точность ответов и без дополнительного обучения. На ускорителях Nvidia H100 TurboQuant повысил производительность вычисления логитов внимания в 8‑раз и сократил размер KV‑кеша шесть раз.
Что такое KV‑кеш и почему он важен
* KV‑кеш хранит ключи (K) и значения (V), полученные при расчёте механизма внимания.
Это позволяет модели не пересчитывать их на каждом шаге генерации токенов.
* При увеличении контекстного окна кеш растёт экспоненциально, что приводит к высоким затратам памяти.
* Традиционные методы квантования уменьшают размер кеша, но требуют хранения констант квантования (словарей), аналогичных ZIP/RAR.
Эти словари создают значительные накладные расходы.
Как работает TurboQuant
TurboQuant состоит из двух этапов и полностью избавляется от словарей.
| Этап | Что делается | Почему это важно |
|---|---|---|
| 1. PolarQuant | Перевод векторов из декартовых координат в полярные (радиус + угол). | Угловые распределения предсказуемы и концентрированы, поэтому не нужен дорогой этап нормализации каждого блока. Получается высококачественное сжатие без словарей. |
| 2. 1‑битовый слой коррекции ошибок | Применяется квантованный алгоритм Джонсона‑Линденштрауса; остаточная ошибка сводится к одному биту. | Устраняет систематическую погрешность в расчётах внимания с минимальными дополнительными затратами. |
Практические результаты
| Тест | Алгоритмы | Результаты |
|---|---|---|
| LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant: минимум 6‑кратное сжатие KV‑кеша; в задачах поиска «иголки в стоге сена» – без потерь точности. В LongBench – не хуже, а иногда лучше KIVI. |
| Векторный поиск (GloVe) | TurboQuant vs Product Quantization, RabbiQ | Даже без обучения TurboQuant превзошёл обученные конкуренты по качеству результатов и потреблению памяти. |
Выводы
* TurboQuant обеспечивает сильное сжатие KV‑кеша до 3–4 битов без потери точности и без дополнительного обучения.
* Производительность на Nvidia H100 выросла в 8 раз, а размер кеша сократился шесть раз.
* Алгоритм работает как для больших языковых моделей, так и для задач векторного поиска, не требуя тонкой настройки.
Таким образом, TurboQuant готов к практическому использованию даже при высокой нагрузке и открывает новые возможности для эффективной работы с большими моделями.
Комментарии (0)
Оставьте отзыв — пожалуйста, будьте вежливы и по теме.
Войти, чтобы комментировать