Microsoft espande l’intelligenza artificiale oltre il testo con nuovi modelli vocali, di trascrizione e di immagini

7

Microsoft sta ampliando il proprio portafoglio di intelligenza artificiale oltre i grandi modelli linguistici con il rilascio di tre nuovi strumenti di intelligenza artificiale: funzionalità avanzate di trascrizione vocale e di testo e un modello di generazione di immagini di seconda generazione. Questi sviluppi segnalano l’ambizione del colosso tecnologico di affermarsi come fornitore completo di intelligenza artificiale, non solo come concorrente di chatbot testuali.

Nuovi strumenti AI per voce e testo

Il modello di trascrizione appena lanciato vanta la capacità di convertire le registrazioni audio in testo in 25 lingue. Progettato per applicazioni come sottotitoli video, riepiloghi delle riunioni e assistenti vocali, questo strumento soddisfa la crescente domanda di un’elaborazione audio accessibile ed efficiente. Oltre a ciò, il modello di generazione vocale di Microsoft può creare clip audio della durata massima di 60 secondi, semplificando potenzialmente la creazione di contenuti e i flussi di lavoro di comunicazione.

Generazione di immagini migliorata

Il modello aggiornato di generazione delle immagini di Microsoft rappresenta un passo avanti nella creazione di contenuti visivi basati sull’intelligenza artificiale. L’azienda afferma che il modello di seconda generazione produce immagini più velocemente e con maggiore realismo rispetto al suo predecessore. Lo strumento è attualmente accessibile tramite Microsoft Foundry e MAI Playground, con l’intenzione di integrarlo in piattaforme ampiamente utilizzate come Bing e PowerPoint, rendendo le immagini generate dall’intelligenza artificiale più facilmente disponibili per gli utenti di tutti i giorni.

Oltre i chatbot: il cambiamento strategico di Microsoft

L’espansione di Microsoft verso modelli di intelligenza artificiale multimodali (voce, immagine, testo) arriva in un momento in cui il settore si sta spostando verso la dimostrazione dell’utilità pratica sul posto di lavoro. Sebbene Copilot di Microsoft rimanga un attore chiave nello spazio dei chatbot aziendali, in particolare per le aziende che hanno già investito nell’ecosistema Microsoft (Office 365 e Azure), l’azienda si sta chiaramente diversificando. Ciò contrasta con concorrenti come OpenAI, che ha recentemente interrotto la sua app video Sora AI per concentrarsi sulle offerte principali.

La capacità di investire massicciamente in diversi progetti di intelligenza artificiale è un vantaggio chiave per aziende tecnologiche affermate come Microsoft. A differenza di molte startup, possiedono le risorse finanziarie e computazionali per esplorare più applicazioni di intelligenza artificiale contemporaneamente. Il lancio di questi modelli sottolinea tale strategia, posizionando Microsoft come un fornitore versatile di intelligenza artificiale pronto a soddisfare le esigenze in evoluzione di aziende e consumatori.

Le ultime mosse di Microsoft suggeriscono una visione a lungo termine: essere uno sportello unico per le soluzioni di intelligenza artificiale, coprendo la creazione di testo, voce e contenuti visivi. Questa diversificazione è fondamentale in un mercato in rapida evoluzione in cui la specializzazione da sola non è sufficiente.