Apple ha addestrato modelli di IA compatti a descrivere meglio le immagini rispetto ai loro concorrenti più grandi.

Apple svela la nuova tecnologia “RubiCap” per descrivere le immagini

Gli scienziati di Apple hanno creato un metodo chiamato *RubiCap*, che consente ai piccoli modelli AI di generare descrizioni più precise e dettagliate delle immagini rispetto ai loro equivalenti su larga scala.

Come funziona RubiCap
1. Analisi dell’immagine

Per creare un testo dettagliato, il modello prima riconosce numerosi oggetti e aree nel quadro. Questo fornisce una comprensione profonda della composizione, non solo una descrizione superficiale.

2. Valore pratico

Queste competenze sono utili per addestrare modelli AI derivati, generatori di immagini a partire dal testo e funzioni specializzate (ad esempio, miglioramento del contenuto visivo).

3. Problema delle risorse

I metodi tradizionali di addestramento dei sistemi di descrizione dettagliata richiedono grandi costi computazionali sia nella fase iniziale che nell’apprendimento rinforzato successivo.

Metodologia sperimentale
- Selezione delle immagini – 50 000 foto scelte casualmente dai set *PixMoCap* e *DenseFusion‑4V‑100K*.

- Generazione delle descrizioni – sono stati utilizzati modelli di visione artificiale esistenti: Google Gemini 2.5 Pro, OpenAI GPT‑5, Alibaba Qwen 2.5‑VL‑72B‑Instruct, Google Gemma‑3‑27B‑IT e Alibaba Qwen 3‑VL‑30B‑A3B‑Instruct, oltre ai modelli Apple in fase di addestramento.

- Valutazione della qualità – Gemini 2.5 Pro agiva come esperto: analizzava le descrizioni, individuava corrispondenze e errori, formulando criteri chiari di valutazione.

- Valutazione da parte dei giudici – il modello Qwen 2.5‑7B‑Instruct assegnava punteggi per ogni criterio e generava un segnale di ricompensa per il modello in addestramento.

Risultati
- Il modello in addestramento riceveva feedback specifico, permettendo di migliorare rapidamente la precisione delle descrizioni senza dover dipendere da una singola risposta “corretta”.

- Alla fine Apple ha creato tre modelli propri: RubiCap‑2B, RubiCap‑3B e RubiCap‑7B (rispettivamente 2, 3 e 7 miliardi di parametri).

- Nei test sul compito di descrizione delle immagini RubiCap ha superato i concorrenti con 32 miliardi e persino con 72 miliardi di parametri. In alcuni casi RubiCap‑3B mostrava risultati migliori rispetto a RubiCap‑7B, confermando che la dimensione del modello non garantisce sempre le migliori prestazioni.

In sintesi, la tecnologia RubiCap dimostra come raggiungere un alto livello di qualità nella descrizione delle immagini con meno risorse e un addestramento più efficiente.

Apple ha addestrato modelli di IA compatti a descrivere meglio le immagini rispetto ai loro concorrenti più grandi.

Related news

Google Gemini ha raggiunto 750 milioni di utenti attivi mensili, lasciando ChatGPT solo a breve distanza dal leader.

Nothing ha presentato la versione beta di Essential Apps – una piattaforma per creare mini-applicazioni con l'intelligenza artificiale

Microsoft ha spiegato perché sono stati bloccati gli account di VeraCrypt e altri servizi aperti, a causa della negligenza dei loro creatori

L'app Meta✴ AI ha raggiunto la quinta posizione nell'App Store dopo il lancio di Muse Spark

Commenti (0)

Accedi per commentare

Apple ha addestrato modelli di IA compatti a descrivere meglio le immagini rispetto ai loro concorrenti più grandi.

Related news

Google Gemini ha raggiunto 750 milioni di utenti attivi mensili, lasciando ChatGPT solo a breve distanza dal leader.

Nothing ha presentato la versione beta di Essential Apps – una piattaforma per creare mini-applicazioni con l'intelligenza artificiale

Microsoft ha spiegato perché sono stati bloccati gli account di VeraCrypt e altri servizi aperti, a causa della negligenza dei loro creatori

L'app Meta✴ AI ha raggiunto la quinta posizione nell'App Store dopo il lancio di Muse Spark

Accedi per commentare

Nothing ha presentato la versione beta di Essential Apps – una piattaforma per creare mini-applicazioni con l'intelligenza artificiale

L'app Meta✴ AI ha raggiunto la quinta posizione nell'App Store dopo il lancio di Muse Spark