Microsoft étend l’IA au-delà du texte avec de nouveaux modèles de voix, de transcription et d’image

19

Microsoft élargit son portefeuille d’intelligence artificielle au-delà des grands modèles linguistiques avec la sortie de trois nouveaux outils d’IA : des capacités avancées de transcription vocale et textuelle et un modèle de génération d’images de deuxième génération. Ces développements témoignent de l’ambition du géant de la technologie de s’imposer comme un fournisseur complet d’IA, et pas seulement comme un concurrent dans le domaine des chatbots textuels.

Nouveaux outils d’IA vocale et textuelle

Le modèle de transcription récemment lancé offre la possibilité de convertir des enregistrements audio en texte dans 25 langues. Conçu pour des applications telles que le sous-titrage vidéo, les résumés de réunions et les assistants vocaux, cet outil répond à la demande croissante de traitement audio accessible et efficace. Parallèlement, le modèle de génération vocale de Microsoft peut créer des clips audio d’une durée maximale de 60 secondes, rationalisant potentiellement les flux de création de contenu et de communication.

Génération d’images améliorée

Le modèle de génération d’images mis à jour de Microsoft représente une avancée dans la création de contenu visuel basée sur l’IA. La société affirme que le modèle de deuxième génération produit des images plus rapidement et avec un plus grand réalisme que son prédécesseur. L’outil est actuellement accessible via le terrain de jeu Foundry et MAI de Microsoft, et il est prévu de l’intégrer dans des plates-formes largement utilisées telles que Bing et PowerPoint, rendant ainsi les visuels générés par l’IA plus facilement accessibles aux utilisateurs quotidiens.

Au-delà des chatbots : le changement stratégique de Microsoft

L’expansion de Microsoft dans les modèles d’IA multimodaux (voix, image, texte) intervient à un moment où l’industrie s’oriente vers la preuve d’une utilité pratique sur le lieu de travail. Si Copilot de Microsoft reste un acteur clé dans le domaine des chatbots d’entreprise, notamment pour les entreprises déjà investies dans l’écosystème Microsoft (Office 365 et Azure), l’entreprise se diversifie clairement. Cela contraste avec des concurrents comme OpenAI, qui a récemment abandonné son application vidéo Sora AI pour se concentrer sur les offres de base.

La possibilité d’investir massivement dans divers projets d’IA est un avantage clé pour les entreprises technologiques établies comme Microsoft. Contrairement à de nombreuses startups, elles possèdent les ressources financières et informatiques nécessaires pour explorer simultanément plusieurs applications d’IA. Le lancement de ces modèles souligne cette stratégie, positionnant Microsoft comme un fournisseur d’IA polyvalent, prêt à répondre aux besoins changeants des entreprises et des consommateurs.

Les dernières initiatives de Microsoft suggèrent une vision à long terme : être un guichet unique pour les solutions d’IA, couvrant la création de contenu textuel, vocal et visuel. Cette diversification est essentielle dans un marché en évolution rapide où la spécialisation seule ne suffit pas.