Microsoft expande IA além do texto com novos modelos de voz, transcrição e imagem

2

A Microsoft está ampliando seu portfólio de inteligência artificial para além dos grandes modelos de linguagem com o lançamento de três novas ferramentas de IA: recursos avançados de transcrição de voz e texto e um modelo de geração de imagens de segunda geração. Estes desenvolvimentos sinalizam a ambição do gigante tecnológico de se estabelecer como um fornecedor abrangente de IA, e não apenas um concorrente em chatbots baseados em texto.

Novas ferramentas de IA de voz e texto

O modelo de transcrição recém-lançado oferece a capacidade de converter gravações de áudio em texto em 25 idiomas. Projetada para aplicações como legendagem de vídeo, resumos de reuniões e assistentes habilitados para voz, esta ferramenta atende à crescente demanda por processamento de áudio acessível e eficiente. Paralelamente, o modelo de geração de voz da Microsoft pode criar clipes de áudio de até 60 segundos de duração, potencialmente agilizando a criação de conteúdo e os fluxos de trabalho de comunicação.

Geração de imagem aprimorada

O modelo atualizado de geração de imagens da Microsoft representa um avanço na criação de conteúdo visual baseado em IA. A empresa afirma que o modelo de segunda geração produz imagens com mais rapidez e maior realismo em comparação ao seu antecessor. A ferramenta está atualmente acessível através do Foundry da Microsoft e do playground MAI, com planos de integrá-la a plataformas amplamente utilizadas, como Bing e PowerPoint, tornando os recursos visuais gerados por IA mais prontamente disponíveis para os usuários comuns.

Além dos chatbots: a mudança estratégica da Microsoft

A expansão da Microsoft para modelos de IA multimodais (voz, imagem, texto) ocorre num momento em que a indústria está a mudar no sentido de provar a utilidade prática no local de trabalho. Embora o Copilot da Microsoft continue a ser um interveniente fundamental no espaço de chatbot empresarial, especialmente para empresas que já investiram no ecossistema da Microsoft (Office 365 e Azure), a empresa está claramente a diversificar. Isso contrasta com concorrentes como a OpenAI, que recentemente descontinuou seu aplicativo de vídeo Sora AI para se concentrar nas ofertas principais.

A capacidade de investir pesadamente em diversos projetos de IA é uma vantagem importante para empresas de tecnologia estabelecidas como a Microsoft. Ao contrário de muitas startups, elas possuem os recursos financeiros e computacionais para explorar múltiplas aplicações de IA simultaneamente. O lançamento destes modelos sublinha essa estratégia, posicionando a Microsoft como um fornecedor versátil de IA, pronto para a evolução das necessidades das empresas e dos consumidores.

As últimas medidas da Microsoft sugerem uma visão de longo prazo: ser um balcão único para soluções de IA, abrangendo a criação de texto, voz e conteúdo visual. Esta diversificação é crítica num mercado em rápida evolução onde a especialização por si só não é suficiente.