Google ha ridotto a sei volte il consumo di memoria dei modelli AI mantenendo la precisione, grazie all'algoritmo TurboQuant
Breve riepilogo
Google Research ha presentato un nuovo metodo di compressione della KV‑cache dei grandi modelli linguistici – TurboQuant. L’algoritmo riduce la precisione della cache a 3 bit (4 bit con correzione degli errori), senza compromettere l’accuratezza delle risposte e senza addestramento aggiuntivo. Sui acceleratori Nvidia H100, TurboQuant ha aumentato di 8 volte le prestazioni del calcolo dei logit dell’attenzione e ridotto di sei volte la dimensione della KV‑cache.
Cos’è una KV‑cache e perché è importante
* La KV‑cache memorizza chiavi (K) e valori (V) ottenuti durante il calcolo del meccanismo di attenzione.
Ciò consente al modello di non ricalcolarli ad ogni passo della generazione dei token.
* Con l’aumento della finestra contestuale, la cache cresce esponenzialmente, portando a costi elevati di memoria.
* I metodi tradizionali di quantizzazione riducono le dimensioni della cache ma richiedono la memorizzazione delle costanti di quantizzazione (dizionari), simili a ZIP/RAR.
Questi dizionari comportano costi di overhead significativi.
Come funziona TurboQuant
TurboQuant è composto da due fasi e elimina completamente i dizionari.
| Fase | Cosa viene fatto | Perché è importante |
|---|---|---|
| 1. PolarQuant | Trasformazione dei vettori dalle coordinate cartesiane a quelle polari (raggio + angolo). Le distribuzioni angolari sono prevedibili e concentrate, quindi non è necessario un costoso passaggio di normalizzazione per blocco. Si ottiene una compressione di alta qualità senza dizionari. | |
| 2. Livello di correzione degli errori a 1 bit | Viene applicato l’algoritmo quantizzato Johnson‑Lindenstrauss; l’errore residuo è ridotto a un singolo bit. Elimina l’errore sistematico nei calcoli di attenzione con costi aggiuntivi minimi. |
Risultati pratici
Test | Algoritmi | Risultati
---|---|---
LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant: compressione minima 6× della KV‑cache; nei compiti di ricerca “spina nel fiocco” – senza perdita di accuratezza. In LongBench – non peggio e talvolta meglio di KIVI.
Ricerca vettoriale (GloVe) | TurboQuant vs Product Quantization, RabbiQ | Anche senza addestramento, TurboQuant ha superato i concorrenti addestrati in termini di qualità dei risultati e consumo di memoria.
Conclusioni
* TurboQuant garantisce una forte compressione della KV‑cache a 3–4 bit senza perdita di accuratezza e senza addestramento aggiuntivo.
* Le prestazioni su Nvidia H100 sono aumentate di 8 volte, mentre la dimensione della cache è stata ridotta di sei volte.
* L’algoritmo funziona sia per grandi modelli linguistici che per compiti di ricerca vettoriale, senza necessità di fine‑tuning.
Pertanto, TurboQuant è pronto per l’utilizzo pratico anche sotto carichi elevati e apre nuove opportunità per un’efficiente gestione dei grandi modelli.
Commenti (0)
Condividi la tua opinione — per favore, sii cortese e resta in tema.
Accedi per commentare