Il complesso Anthropic Claude‑con formato da 16 agenti IA ha autonomamente creato un compilatore C.
Nel contesto di un esperimento, l’azienda Anthropic ha riunito un gruppo di 16 agenti autonomi di IA che, partendo da zero, hanno creato insieme un compilatore del linguaggio C in Rust. Il risultato è una “implementazione pulita” capace di compilare il kernel Linux 6.19 e progetti come PostgreSQL, SQLite, Redis, FFmpeg e QEMU, ma rimane notevolmente indietro rispetto a GCC per qualità ed efficienza.
Come è stato fatto
Fase | Cosa è accaduto
--- | ---
Preparazione | 16 istanze del modello Claude Opus 4.6 sono state avviate in container Docker separati senza accesso a Internet. Ognuna clona un repository Git condiviso e riceve compiti tramite file di lock.
Pianificazione autonoma | Non c’è coordinatore centrale: ogni agente decide da solo quale “pezzo evidente” di lavoro eseguire successivamente. In caso di conflitto, i codici vengono fusi automaticamente.
Sviluppo | Ai agenti è stato affidato il compito di scrivere un compilatore C completamente da zero. Il lavoro ha durato 2 settimane e ha richiesto quasi 2000 sessioni di Claude Code.
Test | Per evitare di “inquinare” il contesto del modello con richieste lunghe, i test vengono eseguiti in modalità sommario (solo poche righe di output). Per accelerare, è stato aggiunto un modo rapido che processa l’1–10 % dei test.
Prodotto finale
* Dimensione – circa 100 000 linee di codice Rust.
* Funzionalità – può compilare il kernel Linux 6.19 su x86, ARM e RISC‑V; compila PostgreSQL, SQLite, Redis, FFmpeg, QEMU; supera ~99 % dei test GCC.
* Limitazioni – non genera codice macchina a 16 bit (per eseguire Linux è necessario GCC), l’assembler e il linker presentano errori, e le prestazioni del codice sono inferiori a quelle di GCC. La qualità del Rust sorgente lascia molto a desiderare rispetto al lavoro di un programmatore esperto.
Costi dell’esperimento
Indicatore | Costo
--- | ---
Token Claude API | ~\$20 000
Costi aggiuntivi (addestramento modello, organizzazione progetto, set di test) | Non inclusi nell’importo indicato
Lezioni e conclusioni
1. Limite di autonomia – con un codice che cresce a ~100 000 linee, gli agenti smettono di comprendere completamente il progetto; sembra essere il limite superiore per l’IA autonoma.
2. Necessità di supporto – tentativi di espandere la funzionalità spesso danneggiavano parti già funzionanti del codice.
3. Importanza dell’ambiente di sviluppo – l’isolamento da Internet e una corretta configurazione dei test si sono rivelati critici per il funzionamento stabile degli agenti.
Conclusione
L’esperimento dimostra che i modelli IA moderni possono generare sistemi software complessi con un controllo minimo. Tuttavia, non possono ancora sostituire completamente gli sviluppatori esperti: qualità del codice, prestazioni e affidabilità rimangono inferiori a quelle dei compilatori tradizionali, e la scala del progetto è limitata a centinaia di migliaia di linee. È un passo importante avanti, ma ancora lontano dallo sviluppo software autonomo completo.
Commenti (0)
Condividi la tua opinione — per favore, sii cortese e resta in tema.
Accedi per commentare