Dal “Vibe Coding” all’ingegneria autonoma: Z.ai presenta GLM-5.1

4

Il panorama dell’intelligenza artificiale si sta spostando da modelli che semplicemente “chiacchierano” a modelli che “funzionano”. Con una mossa importante per la comunità open source, la startup cinese di intelligenza artificiale Z.ai (nota anche come Zhupai AI) ha rilasciato GLM-5.1, un enorme modello di miscela di esperti (MoE) da 754 miliardi di parametri progettato per attività autonome di lunga durata.

A differenza delle precedenti generazioni di IA che spesso “vagano alla deriva” o perdono la concentrazione dopo poche decine di passaggi, GLM-5.1 è progettato per funzionare in modo indipendente fino a otto ore su un singolo obiettivo complesso. Ciò segna una transizione dalla “codifica delle vibrazioni”, in cui gli utenti attivano un’intelligenza artificiale e sperano per il meglio, all’ingegneria genetica, in cui l’intelligenza artificiale agisce come un lavoratore a lungo termine che si autocorregge.

Rompere il plateau delle prestazioni: il modello “Scala”.

Uno dei principali ostacoli allo sviluppo dell’intelligenza artificiale è l’”effetto plateau”. Tradizionalmente, quando a un agente di intelligenza artificiale vengono forniti più strumenti o più tempo per risolvere un problema, le sue prestazioni alla fine si bloccano o iniziano a commettere errori a causa della “deriva della strategia”.

La ricerca di Z.ai suggerisce che GLM-5.1 risolve questo problema attraverso un “modello a scala” di ottimizzazione. Piuttosto che una progressione lineare, il modello subisce periodi di messa a punto incrementale seguiti da improvvisi progressi strutturali.

Le prove nel mondo reale di questa capacità includono:
Ottimizzazione del database: in un’attività che prevedeva l’ottimizzazione del database vettoriale ad alte prestazioni, GLM-5.1 ha eseguito oltre 6.000 chiamate allo strumento. Mentre i modelli precedenti raggiungevano il limite massimo di circa 3.500 query al secondo (QPS), GLM-5.1 ha riprogettato autonomamente l’architettura del sistema, raggiungendo infine 21.500 QPS, un miglioramento di sei volte.
Kernel di machine learning: nei test KernelBench, il modello ha dimostrato la sua capacità di ottimizzare kernel GPU complessi. Sebbene sia leggermente indietro rispetto a Claude Opus 4.6 di Anthropic in termini di accelerazione, GLM-5.1 ha dimostrato di poter sostenere il lavoro produttivo molto più a lungo rispetto ai suoi predecessori, mantenendo i progressi ben oltre i 1.000 turni di utilizzo degli strumenti.

“Gli agenti potrebbero fare circa 20 passi entro la fine dello scorso anno; GLM-5.1 può farne 1.700 adesso,” ha osservato il leader di Z.ai Lou su X.

Benchmarking del successo: sovraperformare i Giants

Il rilascio di GLM-5.1 pone Z.ai in diretta concorrenza con i principali laboratori di intelligenza artificiale del mondo. Su SWE-Bench Pro, un benchmark rigoroso per la risoluzione dei problemi reali di GitHub, GLM-5.1 ha ottenuto un punteggio di 58,4, superando:
GPT-5.4 (57.7)
Claude Opus 4.6 (57.3)
Gemini 3.1 Pro (54.2)

Il modello ha mostrato anche una notevole forza in ambiti specializzati, come la matematica (95,3 su AIME 2026) e il ragionamento scientifico (86,2 su GPQA-Diamond). Forse la cosa più impressionante è che in un test per costruire da zero un ambiente desktop in stile Linux, il modello non si è fermato solo a un’interfaccia di base; ha creato autonomamente un browser di file, un terminale e persino giochi funzionali in un periodo di otto ore.

Una strategia aziendale ibrida: Open Source contro proprietaria

Z.ai sta impiegando una sofisticata strategia a doppio binario per bilanciare la crescita della comunità con la fattibilità commerciale:

  1. The Open Source Flagship (GLM-5.1): Rilasciato sotto una permissiva licenza MIT, i pesi dei modelli sono disponibili su Hugging Face. Ciò rafforza la fiducia degli sviluppatori e stabilisce uno standard globale.
  2. Lo Sprinter proprietario (GLM-5 Turbo): Una versione closed source più veloce, ottimizzata per attività supervisionate ad alta velocità. Ciò funge da driver di entrate ad alto margine per le aziende che necessitano di un’inferenza rapida.

Prezzi e livelli

Z.ai ha posizionato GLM-5.1 come uno strumento di ingegneria piuttosto che come un chatbot di consumo, offrendo piani di abbonamento a più livelli:
Lite: $ 27/trimestre (per carichi di lavoro leggeri).
Pro: $ 81/trimestre (per carichi di lavoro complessi con esecuzione più rapida).
Massimo: $ 216/trimestre (per sviluppatori avanzati e con volumi elevati).

Per gli utenti API, il modello ha un prezzo di 1,40 dollari per milione di token di input e 4,40 dollari per milione di token di output, posizionandolo competitivo rispetto ad altri modelli di fascia alta come GPT-5.4 e Claude Opus 4.6.

Conclusione

Il rilascio di GLM-5.1 segna una nuova era in cui il valore di un modello di intelligenza artificiale viene misurato non solo dalla sua intelligenza, ma dalla sua resistenza. Dimostrando che i modelli open source sono in grado di gestire flussi di lavoro ingegneristici prolungati di più ore, Z.ai sta sfidando il predominio dei modelli proprietari occidentali e ridefinendo i confini del lavoro digitale autonomo.