Xiaomi ha sviluppato un modello di IA con 4,7 miliardi di parametri, che combina percezione visiva, linguaggio e controllo per robot.
Xiaomi entra nel mercato della robotica
Il gigante cinese di dispositivi mobili e smart home, noto come Xiaomi, ha annunciato un nuovo passo: lo sviluppo di un modello di intelligenza artificiale proprietario per i robot. L’azienda ha presentato Xiaomi‑Robotics‑0, un sistema open source che combina riconoscimento visivo, comprensione del linguaggio e controllo delle azioni in tempo reale. Il modello conta 4,7 miliardi di parametri ed è già riuscito a stabilire diversi record sia nelle simulazioni che nella pratica.
Come funziona il modello
Il robot solitamente segue il ciclo «percezione → decisione → azione». Xiaomi‑Robotics‑0 bilancia una comprensione ampia della situazione con un controllo preciso della motricità grazie all’architettura Mixture‑of‑Transformers (MoT).
1. Modello visivo‑linguistico (VLM) – il «cervello» del sistema.
* Addestrato a interpretare comandi, anche sfocati (“per favore, piega l’asciugamano”).
* Comprende le relazioni spaziali basandosi su immagini di alta qualità.
* Compiti: rilevamento degli oggetti, risposte alle domande visive e ragionamento logico.
2. Esperto delle azioni (Action Expert) – generatore di movimenti.
* Basato su un trasformatore diffuso (DiT).
* Non genera un’azione alla volta; forma una sequenza di azioni tramite l’allineamento dei flussi, garantendo fluidità e precisione.
Apprendimento senza perdita di comprensione
I VLM tradizionali perdono parte delle loro capacità percettive durante l’apprendimento su compiti fisici. Xiaomi ha risolto questo problema addestrando contemporaneamente il modello con dati multimodali (immagini + testo) e dati sulle azioni. Il processo di addestramento comprende più fasi:
1. Proposta di azioni – il VLM prevede le possibili distribuzioni di azioni per le immagini, sincronizzando la rappresentazione interna con le operazioni reali.
2. Successivamente il VLM “si spegne”, e il DiT subisce un addestramento separato per generare sequenze precise a partire dal rumore, basandosi su caratteristiche chiave anziché sui token linguistici.
Riduzione dei ritardi
Per eliminare le pause tra le previsioni del modello e i movimenti reali del robot è stata utilizzata una consegna asincrona: i calcoli dell’IA e le azioni del robot sono separati. Ciò consente ai robot di muoversi in modo continuo anche quando è necessaria un’elaborazione aggiuntiva.
* Clean Action Prefix – metodo per ritornare l’azione precedentemente prevista, garantendo fluidità senza scatti.
* La maschera di attenzione si concentra sulla sequenza visiva corrente, ignorando gli stati passati, rendendo il robot più reattivo ai cambiamenti improvvisi dell’ambiente.
Risultati
Nelle ambienti di simulazione LIBERO, CALVIN e SimplerEnv Xiaomi‑Robotics‑0 ha superato circa 30 concorrenti. Sul robot reale con due manipolatori, il modello è riuscito con successo a compiti complessi: piegare asciugamani, smontare un costruttore. Il robot ha dimostrato una coordinazione stabile tra mani e occhi, manipolando gli oggetti in modo altrettanto efficace in diversi scenari.
In questo modo Xiaomi non solo ha ampliato il proprio portafoglio di prodotti, ma ha anche gettato le fondamenta per ulteriori ricerche nel campo dell’«intelligenza fisica» dei robot.
Commenti (0)
Condividi la tua opinione — per favore, sii cortese e resta in tema.
Accedi per commentare