Apple ha addestrato modelli di IA compatti a descrivere meglio le immagini rispetto ai loro concorrenti più grandi.

Apple ha addestrato modelli di IA compatti a descrivere meglio le immagini rispetto ai loro concorrenti più grandi.

21 software

Apple svela la nuova tecnologia “RubiCap” per descrivere le immagini

Gli scienziati di Apple hanno creato un metodo chiamato *RubiCap*, che consente ai piccoli modelli AI di generare descrizioni più precise e dettagliate delle immagini rispetto ai loro equivalenti su larga scala.

Come funziona RubiCap
1. Analisi dell’immagine

Per creare un testo dettagliato, il modello prima riconosce numerosi oggetti e aree nel quadro. Questo fornisce una comprensione profonda della composizione, non solo una descrizione superficiale.

2. Valore pratico

Queste competenze sono utili per addestrare modelli AI derivati, generatori di immagini a partire dal testo e funzioni specializzate (ad esempio, miglioramento del contenuto visivo).

3. Problema delle risorse

I metodi tradizionali di addestramento dei sistemi di descrizione dettagliata richiedono grandi costi computazionali sia nella fase iniziale che nell’apprendimento rinforzato successivo.

Metodologia sperimentale
- Selezione delle immagini – 50 000 foto scelte casualmente dai set *PixMoCap* e *DenseFusion‑4V‑100K*.

- Generazione delle descrizioni – sono stati utilizzati modelli di visione artificiale esistenti: Google Gemini 2.5 Pro, OpenAI GPT‑5, Alibaba Qwen 2.5‑VL‑72B‑Instruct, Google Gemma‑3‑27B‑IT e Alibaba Qwen 3‑VL‑30B‑A3B‑Instruct, oltre ai modelli Apple in fase di addestramento.

- Valutazione della qualità – Gemini 2.5 Pro agiva come esperto: analizzava le descrizioni, individuava corrispondenze e errori, formulando criteri chiari di valutazione.

- Valutazione da parte dei giudici – il modello Qwen 2.5‑7B‑Instruct assegnava punteggi per ogni criterio e generava un segnale di ricompensa per il modello in addestramento.

Risultati
- Il modello in addestramento riceveva feedback specifico, permettendo di migliorare rapidamente la precisione delle descrizioni senza dover dipendere da una singola risposta “corretta”.

- Alla fine Apple ha creato tre modelli propri: RubiCap‑2B, RubiCap‑3B e RubiCap‑7B (rispettivamente 2, 3 e 7 miliardi di parametri).

- Nei test sul compito di descrizione delle immagini RubiCap ha superato i concorrenti con 32 miliardi e persino con 72 miliardi di parametri. In alcuni casi RubiCap‑3B mostrava risultati migliori rispetto a RubiCap‑7B, confermando che la dimensione del modello non garantisce sempre le migliori prestazioni.

In sintesi, la tecnologia RubiCap dimostra come raggiungere un alto livello di qualità nella descrizione delle immagini con meno risorse e un addestramento più efficiente.

Commenti (0)

Condividi la tua opinione — per favore, sii cortese e resta in tema.

Non ci sono ancora commenti. Lascia un commento e condividi la tua opinione!

Per lasciare un commento, accedi.

Accedi per commentare