I robot IA perdono efficacia nelle lunghe conversazioni con le persone—una grande ricerca di Microsoft lo ha confermato.

I robot IA perdono efficacia nelle lunghe conversazioni con le persone—una grande ricerca di Microsoft lo ha confermato.

3 hardware

Studio di Microsoft Research e Salesforce: come i grandi modelli AI perdono l'orientamento nei dialoghi

Cosa hanno studiato Quali modelli 200 000+ conversazioni multi-turno con LLM leader GPT‑4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1, Llama 4

Principali conclusioni
Indicatore Risultato Precisione per richieste singole 90 % di risposte corrette (GPT‑4.1, Gemini 2.5 Pro) Precisione in dialoghi lunghi ~65 % – l'efficacia cala quasi di un terzo Comportamento del modello Spesso “riutilizza” la prima risposta errata come base per le successive Lunghezza delle risposte Aumenta del 20‑300 % nelle conversazioni multi-turno, con conseguente incremento di allucinazioni e supposizioni Affidabilità Diminuisce al 112 % (i modelli generano “presto” una risposta senza completare la richiesta)

Perché succede?
1. Riutilizzo della base errata

Il modello si aggrappa alla prima conclusione e costruisce le risposte successive su di essa, anche se è sbagliata.

2. Espansione del contesto

Con ogni nuova domanda viene aggiunto più testo – ciò aumenta il numero di “fatti inventati” che il modello considera veri.

3. Problema dei token di pensiero

Anche i modelli con token extra (o3, DeepSeek R1) non sono riusciti a superare questa trappola – continuano a generare risposte troppo presto e senza un'analisi sufficiente.

Cosa significa per gli utenti?
- Affidabilità bassa nelle conversazioni reali

L’IA può “perdere” l'argomento, iniziando a parlare di cose inesistenti.

- Rischio di informazioni errate

Il passaggio dai motori di ricerca tradizionali agli strumenti generativi (ad es. Google‑AI‑reviews) aumenta la probabilità di ricevere dati non attendibili.

- Importanza delle prompt di qualità

Microsoft aveva già notato un basso livello di ingegneria nelle richieste. Domande mal formulate e “prompt” scadenti possono impedire all’IA di mostrare il suo potenziale.

Conclusioni
La tecnologia dei grandi modelli linguistici è ancora in fase di sviluppo. Sebbene dimostrino alta precisione su richieste singole, la loro affidabilità nei dialoghi multi-turno rimane un problema. Per un uso sicuro ed efficace dell’IA è importante:

1. Scrivere domande chiare e specifiche.
2. Essere pronti a correggere le risposte del modello.
3. Non fare affidamento completo sul contenuto generativo senza verificare i fatti.

In definitiva, il miglioramento dei modelli e l'aumento della loro robustezza nelle conversazioni lunghe sono la chiave per rendere l’IA un partner affidabile per gli utenti.

Commenti (0)

Condividi la tua opinione — per favore, sii cortese e resta in tema.

Non ci sono ancora commenti. Lascia un commento e condividi la tua opinione!

Per lasciare un commento, accedi.

Accedi per commentare