Google ha ridotto a sei volte il consumo di memoria dei modelli AI mantenendo la precisione, grazie all'algoritmo TurboQuant

Breve riepilogo

Google Research ha presentato un nuovo metodo di compressione della KV‑cache dei grandi modelli linguistici – TurboQuant. L’algoritmo riduce la precisione della cache a 3 bit (4 bit con correzione degli errori), senza compromettere l’accuratezza delle risposte e senza addestramento aggiuntivo. Sui acceleratori Nvidia H100, TurboQuant ha aumentato di 8 volte le prestazioni del calcolo dei logit dell’attenzione e ridotto di sei volte la dimensione della KV‑cache.

Cos’è una KV‑cache e perché è importante
* La KV‑cache memorizza chiavi (K) e valori (V) ottenuti durante il calcolo del meccanismo di attenzione.
Ciò consente al modello di non ricalcolarli ad ogni passo della generazione dei token.

* Con l’aumento della finestra contestuale, la cache cresce esponenzialmente, portando a costi elevati di memoria.

* I metodi tradizionali di quantizzazione riducono le dimensioni della cache ma richiedono la memorizzazione delle costanti di quantizzazione (dizionari), simili a ZIP/RAR.
Questi dizionari comportano costi di overhead significativi.

Come funziona TurboQuant
TurboQuant è composto da due fasi e elimina completamente i dizionari.

Fase	Cosa viene fatto	Perché è importante
1. PolarQuant	Trasformazione dei vettori dalle coordinate cartesiane a quelle polari (raggio + angolo). Le distribuzioni angolari sono prevedibili e concentrate, quindi non è necessario un costoso passaggio di normalizzazione per blocco. Si ottiene una compressione di alta qualità senza dizionari.
2. Livello di correzione degli errori a 1 bit	Viene applicato l’algoritmo quantizzato Johnson‑Lindenstrauss; l’errore residuo è ridotto a un singolo bit. Elimina l’errore sistematico nei calcoli di attenzione con costi aggiuntivi minimi.

Risultati pratici
Test | Algoritmi | Risultati
---|---|---
LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant: compressione minima 6× della KV‑cache; nei compiti di ricerca “spina nel fiocco” – senza perdita di accuratezza. In LongBench – non peggio e talvolta meglio di KIVI.
Ricerca vettoriale (GloVe) | TurboQuant vs Product Quantization, RabbiQ | Anche senza addestramento, TurboQuant ha superato i concorrenti addestrati in termini di qualità dei risultati e consumo di memoria.

Conclusioni
* TurboQuant garantisce una forte compressione della KV‑cache a 3–4 bit senza perdita di accuratezza e senza addestramento aggiuntivo.
* Le prestazioni su Nvidia H100 sono aumentate di 8 volte, mentre la dimensione della cache è stata ridotta di sei volte.
* L’algoritmo funziona sia per grandi modelli linguistici che per compiti di ricerca vettoriale, senza necessità di fine‑tuning.

Pertanto, TurboQuant è pronto per l’utilizzo pratico anche sotto carichi elevati e apre nuove opportunità per un’efficiente gestione dei grandi modelli.

Google ha ridotto a sei volte il consumo di memoria dei modelli AI mantenendo la precisione, grazie all'algoritmo TurboQuant

Related news

Tinder e altri servizi introdurranno la verifica degli utenti reali, riferisce World Altman sul superamento del settore delle criptovalute.

Microsoft Edge su Android ora riproduce i video di YouTube in background, aggirando le vecchie limitazioni.

Apple‑Car potrebbe apparire così: Ferrari mostra l’interno dell’auto elettrica Luce, sviluppata da Johnny Aiv.

Le vendite di Mortal Kombat 1 hanno superato gli 8 milioni di copie, ma il record del gioco precedente è ancora inaccessibile

Commenti (0)

Accedi per commentare

Google ha ridotto a sei volte il consumo di memoria dei modelli AI mantenendo la precisione, grazie all'algoritmo TurboQuant

Related news

Tinder e altri servizi introdurranno la verifica degli utenti reali, riferisce World Altman sul superamento del settore delle criptovalute.

Microsoft Edge su Android ora riproduce i video di YouTube in background, aggirando le vecchie limitazioni.

Apple‑Car potrebbe apparire così: Ferrari mostra l’interno dell’auto elettrica Luce, sviluppata da Johnny Aiv.

Le vendite di Mortal Kombat 1 hanno superato gli 8 milioni di copie, ma il record del gioco precedente è ancora inaccessibile

Accedi per commentare

Le vendite di Mortal Kombat 1 hanno superato gli 8 milioni di copie, ma il record del gioco precedente è ancora inaccessibile