Google ha ridotto a sei volte il consumo di memoria dei modelli AI mantenendo la precisione, grazie all'algoritmo TurboQuant

Google ha ridotto a sei volte il consumo di memoria dei modelli AI mantenendo la precisione, grazie all'algoritmo TurboQuant

7 hardware

Breve riepilogo

Google Research ha presentato un nuovo metodo di compressione della KV‑cache dei grandi modelli linguistici – TurboQuant. L’algoritmo riduce la precisione della cache a 3 bit (4 bit con correzione degli errori), senza compromettere l’accuratezza delle risposte e senza addestramento aggiuntivo. Sui acceleratori Nvidia H100, TurboQuant ha aumentato di 8 volte le prestazioni del calcolo dei logit dell’attenzione e ridotto di sei volte la dimensione della KV‑cache.

Cos’è una KV‑cache e perché è importante
* La KV‑cache memorizza chiavi (K) e valori (V) ottenuti durante il calcolo del meccanismo di attenzione.
Ciò consente al modello di non ricalcolarli ad ogni passo della generazione dei token.

* Con l’aumento della finestra contestuale, la cache cresce esponenzialmente, portando a costi elevati di memoria.

* I metodi tradizionali di quantizzazione riducono le dimensioni della cache ma richiedono la memorizzazione delle costanti di quantizzazione (dizionari), simili a ZIP/RAR.
Questi dizionari comportano costi di overhead significativi.

Come funziona TurboQuant
TurboQuant è composto da due fasi e elimina completamente i dizionari.

FaseCosa viene fattoPerché è importante
1. PolarQuantTrasformazione dei vettori dalle coordinate cartesiane a quelle polari (raggio + angolo). Le distribuzioni angolari sono prevedibili e concentrate, quindi non è necessario un costoso passaggio di normalizzazione per blocco. Si ottiene una compressione di alta qualità senza dizionari.
2. Livello di correzione degli errori a 1 bitViene applicato l’algoritmo quantizzato Johnson‑Lindenstrauss; l’errore residuo è ridotto a un singolo bit. Elimina l’errore sistematico nei calcoli di attenzione con costi aggiuntivi minimi.

Risultati pratici
Test | Algoritmi | Risultati
---|---|---
LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant: compressione minima 6× della KV‑cache; nei compiti di ricerca “spina nel fiocco” – senza perdita di accuratezza. In LongBench – non peggio e talvolta meglio di KIVI.
Ricerca vettoriale (GloVe) | TurboQuant vs Product Quantization, RabbiQ | Anche senza addestramento, TurboQuant ha superato i concorrenti addestrati in termini di qualità dei risultati e consumo di memoria.

Conclusioni
* TurboQuant garantisce una forte compressione della KV‑cache a 3–4 bit senza perdita di accuratezza e senza addestramento aggiuntivo.
* Le prestazioni su Nvidia H100 sono aumentate di 8 volte, mentre la dimensione della cache è stata ridotta di sei volte.
* L’algoritmo funziona sia per grandi modelli linguistici che per compiti di ricerca vettoriale, senza necessità di fine‑tuning.

Pertanto, TurboQuant è pronto per l’utilizzo pratico anche sotto carichi elevati e apre nuove opportunità per un’efficiente gestione dei grandi modelli.

Commenti (0)

Condividi la tua opinione — per favore, sii cortese e resta in tema.

Non ci sono ancora commenti. Lascia un commento e condividi la tua opinione!

Per lasciare un commento, accedi.

Accedi per commentare