Speculative Decoding: от идеи до SOTA

10 мая 2026 г.

Speculative Decoding: от идеи до SOTA

1. Почему вообще декодинг медленный

Autoregressive-инференс LLM упирается не в compute, а в memory bandwidth. Чтобы сгенерировать один токен, нужно прочитать все веса модели из HBM в SRAM GPU. Арифметическая интенсивность при batch=1 крайне низкая — тензорные ядра простаивают.

Ключевое наблюдение: forward pass на $K$ токенах стоит почти столько же по времени, сколько на $1$ токене (пока $K$ невелико), потому что bottleneck — загрузка весов, а не вычисления. Это и эксплуатирует speculative decoding.

2. Базовая идея (Leviathan et al. 2023, Chen et al. 2023)

Берём две модели:

Target модель $M_{p}$ с распределением $p (x)$ — большая, медленная, качественная.
Draft модель $M_{q}$ с распределением $q (x)$ — маленькая, быстрая, чуть менее точная.

Цикл генерации:

Draft модель авторегрессивно генерирует $γ$ токенов: $x_{1}, x_{2}, \dots, x_{γ}$ .
Target модель за один forward pass считает $p (\cdot ∣ x_{< i})$ для всех $i = 1, \dots, γ + 1$ .
Слева направо принимаем/отклоняем токены по правилу rejection sampling.
Если все $γ$ приняты — бонусом сэмплируем $(γ + 1)$ -й токен из $p$ .

3. Математика: почему это корректно

Хотим, чтобы итоговое распределение принятого токена было ровно $p (x)$ .

Acceptance rule. Для $x \sim q (\cdot)$ принимаем с вероятностью

$α (x) = min (1, \frac{p ( x )}{q ( x )})$

Resampling rule. Если отклонили, сэмплируем из скорректированного распределения

$p^{'} (x) = \frac{max ( 0 , p ( x ) - q ( x ) )}{\sum _{x^{'}} max ( 0 , p ( x ^{'} ) - q ( x ^{'} ) )}$

Теорема. Итоговое распределение равно $p (x)$ .

Доказательство.

$P (output = x) = q (x) α (x) + (1 - β) p^{'} (x), β = x \sum q (x) α (x)$

Подставляем:

$q (x) \cdot min (1, \frac{p ( x )}{q ( x )}) = min (p (x), q (x))$

$(1 - β) p^{'} (x) = max (0, p (x) - q (x))$

Складываем:

$min (p (x), q (x)) + max (0, p (x) - q (x)) = p (x) . ■$

Главный вывод: декодинг бесплатный по качеству — никакой деградации распределения.

4. Ожидаемое ускорение

Пусть:

$α$ — средняя вероятность принятия токена,
$c = T_{q} / T_{p}$ — отношение латентности draft/target,
$γ$ — число draft-токенов на цикл.

Ожидаемое число сгенерированных токенов за цикл (геометрическая сумма):

$E [# tokens] = \frac{1 - α ^{γ + 1}}{1 - α}$

Время цикла: $γ T_{q} + T_{p}$ . Ускорение относительно ванильного декодинга:

$Speedup (α, c, γ) = \frac{1 - α ^{γ + 1}}{( 1 - α ) ( c γ + 1 )}$

Оптимальное $γ$ обычно лежит в диапазоне 4–8; при $α \approx 0.7$ и $c \approx 0.05$ получаем 2.5–3x.

5. Откуда брать draft-модель

Подход	Суть
Готовая малая модель	Llama-7B для Llama-70B, Qwen-0.5B для Qwen-72B и т.п.
Дистилляция	Тренируем draft под распределение target
Self-speculative	Target сама себе draft через layer-skip / early exit (LayerSkip, Draft&Verify)
N-gram / Prompt Lookup	Достаём n-грамм-кандидатов прямо из контекста — отлично для кода и шаблонов
Retrieval (REST)	Достаём кандидатов из внешнего корпуса по префиксу

6. Tree-based верификация (SpecInfer, Medusa)

Вместо одной цепочки draft-токенов строим дерево кандидатов и верифицируем все ветви одновременно через специальную tree attention mask. За один target forward pass проверяем сразу много гипотез — ожидаемое число принятых токенов растёт.

Medusa (Cai et al. 2024) — приклеивает к target модели $K$ дополнительных голов, каждая предсказывает токен на позиции $t + k$ напрямую из текущего hidden state $h_{t}$ :

$\overset{p}{^}_{k} (x_{t + k}) = softmax (W_{k} \cdot (h_{t} + SiLU (W_{k}^{'} h_{t})))$

Топ-кандидаты от каждой головы образуют дерево, проверяемое одним forward pass. Отдельная draft модель не нужна — только дообучить головы.

7. EAGLE — SOTA-семейство (2024)

Главная идея EAGLE: предсказывать не токены, а признаки (hidden states предпоследнего слоя). Feature space гораздо регулярнее token space и лучше моделируется маленькой сетью.

Архитектура: 1-слойный autoregressive transformer-head, который на вход получает $[f_{t}, e_{t + 1}]$ — feature на шаге $t$ и embedding следующего токена — и предсказывает $f_{t + 1}$ .

Loss:

$L = L_{feat} + w_{tok} \cdot L_{tok}$

$L_{feat} = SmoothL1 (f_{t + 1}, \hat{f}_{t + 1}), L_{tok} = CE (p_{t + 1}, LM_head (\hat{f}_{t + 1}))$

EAGLE-1: статическое дерево драфтов, 3x speedup.
EAGLE-2: динамическое дерево по предсказанной confidence — больше принятых токенов при том же бюджете.
EAGLE-3: убрана feature-regression регуляризация (она ограничивала draft), добавлен training-time test — моделирование ошибок драфта на обучении. До 5x на современных бенчмарках.

8. Lookahead Decoding

Другой подход — без draft-модели вообще. Использует Jacobi iteration для параллельного решения системы уравнений авторегрессии и поддерживает n-gram pool из истории — совпадения подставляются как draft-кандидаты. Удобно, когда тренировать draft неоткуда.

9. Что выбрать на практике

Сценарий	Метод
Есть малая модель того же семейства	Vanilla speculative decoding
Plug-and-play поверх готовой модели	Medusa / EAGLE (тренируем только головы)
Код, JSON, повторяющиеся шаблоны	Prompt Lookup Decoding
Production-serving (vLLM, SGLang)	EAGLE-2 / EAGLE-3
Очень длинный контекст	Self-speculative с layer-skip

10. Подводные камни

Температура. При высокой $T$ распределение размывается, $α$ падает — speedup тает.
Batched serving. При больших batch size target уже compute-bound, выигрыш существенно меньше.
Tree attention. Требует поддержки custom масок и position ids — не везде из коробки.
Потолок acceptance. Даже идеальный драфт ограничен энтропией $p$ — для творческих задач $α$ редко выше 0.8.
KV-cache. Отклонённые токены требуют отката KV-кэша target модели — реализация неаккуратно может съесть весь выигрыш.

11. TL;DR

Speculative decoding — это rejection sampling над авторегрессивной генерацией, эксплуатирующее тот факт, что target forward pass на K токенах почти так же дёшев, как на 1. Корректность доказывается одной строчкой ( $min + max = p$ ), ускорение задаётся формулой $(1 - α^{γ + 1}) / ((1 - α) (c γ + 1))$ . Современная линия развития — feature-level prediction + динамические деревья (EAGLE-2/3), дающая 3–5x без потери качества.

📊 Опрос

Все ли понятно

Да100% · 1
Нормально, но можно попроще0% · 0
Нет, надо проще писать0% · 0

1 голос · войди, чтобы проголосовать

Поделиться:Telegram

Speculative Decoding: от идеи до SOTA

1. Почему вообще декодинг медленный

2. Базовая идея (Leviathan et al. 2023, Chen et al. 2023)

3. Математика: почему это корректно

4. Ожидаемое ускорение

5. Откуда брать draft-модель

6. Tree-based верификация (SpecInfer, Medusa)

7. EAGLE — SOTA-семейство (2024)

8. Lookahead Decoding

9. Что выбрать на практике

10. Подводные камни

11. TL;DR

● Ответы (0)