Apple sta sviluppando un proprio assistente AI per l'iPhone, capace di avviare le applicazioni al posto dell'utente

Apple sta sviluppando un proprio assistente AI per l'iPhone, capace di avviare le applicazioni al posto dell'utente

4 hardware

Apple sviluppa un agente IA locale compatto per lavorare con interfacce utente

Apple sta lavorando su un nuovo algoritmo – Ferret‑UI Lite, che è in grado di «comprendere» le interfacce delle applicazioni e interagire con esse a nome dell’utente, ma tutto avviene sul dispositivo stesso. Il modello ha 3 miliardi di parametri e nei test mostra risultati comparabili o addirittura superiori ai grandi modelli fino a 24 volte più grandi.

Origini del progetto
Nel dicembre 2023 un team di nove ricercatori ha pubblicato il lavoro FERRET: Refer and Ground Anything Anywhere at Any Granularity. In esso è stata presentata una modello linguistico multimodale, addestrato su diversi tipi di dati e capace di collegare descrizioni testuali a parti specifiche dell’immagine.

Da allora Apple ha esteso la famiglia dei modelli Ferret:

Modello Scopo
Ferretv2 Modello base migliorato
Ferret‑UI MLLM specializzato per interfacce mobili
Ferret‑UI 2 Supporto multi-piattaforma e risoluzione più alta

Ferret‑UI in particolare affronta uno dei problemi delle grandi modelli linguistici multimodali (MLLM) odierni: riconoscono male gli elementi UI. Il modello aggiunge una “risoluzione arbitraria” sopra Ferret, aumentando la dettaglio delle immagini e utilizzando caratteristiche visive migliorate.

Nuovi risultati
Recentemente Apple ha presentato due versioni aggiuntive:

1. Ferret‑UI Lite – modello leggero con 3 miliardi di parametri, ottimizzato per l’esecuzione locale su dispositivi mobili.

2. Ferret‑UI 2 – versione estesa che supporta più piattaforme e screenshot ad alta risoluzione.

La principale differenza tra Ferret‑UI Lite e i grandi modelli server è che mantiene la competitività con requisiti computazionali notevolmente inferiori.

Perché è importante
La maggior parte degli agenti GUI esistenti si basa su enormi modelli fondamentali, perché le loro potenti capacità di ragionamento e pianificazione permettono risultati eccezionali nella navigazione delle interfacce grafiche. Tuttavia tali modelli sono troppo ingombranti per essere eseguiti direttamente sul dispositivo.

Ferret‑UI Lite risolve questo problema combinando:

- Molti componenti chiave e idee dall’addestramento di piccoli LLM;
- Dati reali e sintetici da diversi ambiti GUI;
- Tecniche di ritaglio dinamico e ottimizzazione della qualità del segmentazione dell’interfaccia;
- Fine-tuning controllato e apprendimento per rinforzo.

Il risultato è un modello che è praticamente equivalente o addirittura superiore ai più grandi agenti GUI concorrenti in compiti di associazione a basso livello con gli elementi UI, comprensione di ciò che accade sullo schermo, pianificazione multi-step e autoanalisi.

Commenti (0)

Condividi la tua opinione — per favore, sii cortese e resta in tema.

Non ci sono ancora commenti. Lascia un commento e condividi la tua opinione!

Per lasciare un commento, accedi.

Accedi per commentare