Microsoft Расширяет Искусственный Интеллект за Пределы Текста с Новыми Голосовыми, Транскрипционными и Графическими Моделями

9

Microsoft расширяет свой портфель искусственного интеллекта, выходя за рамки больших языковых моделей, с выпуском трех новых инструментов ИИ: продвинутые возможности голосовой и текстовой транскрипции, а также модель генерации изображений второго поколения. Эти разработки сигнализируют об амбициях технологического гиганта закрепиться в качестве комплексного поставщика ИИ, а не просто конкурента в текстовых чат-ботах.

Новые Голосовые и Текстовые Инструменты ИИ

Недавно запущенная модель транскрипции может преобразовывать аудиозаписи в текст на 25 языках. Разработанная для таких приложений, как создание субтитров для видео, составление сводок совещаний и голосовых помощников, эта технология отвечает растущему спросу на доступную и эффективную обработку аудио. Параллельно с этим голосовая модель Microsoft может создавать аудиоклипы длиной до 60 секунд, что потенциально оптимизирует рабочие процессы создания и коммуникации контента.

Улучшенная Генерация Изображений

Обновленная модель генерации изображений Microsoft представляет собой шаг вперед в создании визуального контента с помощью ИИ. Компания утверждает, что модель второго поколения производит изображения быстрее и с большей реалистичностью по сравнению со своим предшественником. Инструмент в настоящее время доступен через Microsoft Foundry и MAI playground, с планами интеграции в широко используемые платформы, такие как Bing и PowerPoint, делая визуальные материалы, сгенерированные ИИ, более доступными для повседневных пользователей.

За Пределами Чат-ботов: Стратегический Сдвиг Microsoft

Расширение Microsoft в многомодальные модели ИИ (голос, изображение, текст) происходит в то время, когда отрасль переходит к демонстрации практической пользы на рабочем месте. В то время как Copilot от Microsoft остается ключевым игроком в пространстве корпоративных чат-ботов, особенно для предприятий, уже инвестировавших в экосистему Microsoft (Office 365 и Azure), компания явно диверсифицирует свою деятельность. Это контрастирует с конкурентами, такими как OpenAI, которая недавно прекратила поддержку своего видеоприложения Sora AI, чтобы сосредоточиться на основных предложениях.

Способность инвестировать значительные средства в разнообразные проекты ИИ является ключевым преимуществом для устоявшихся технологических компаний, таких как Microsoft. В отличие от многих стартапов, они обладают финансовыми и вычислительными ресурсами для одновременного изучения нескольких приложений ИИ. Запуск этих моделей подтверждает эту стратегию, позиционируя Microsoft как универсального поставщика ИИ, готового к меняющимся потребностям бизнеса и потребителей.

Последние шаги Microsoft указывают на долгосрочное видение: стать универсальным магазином решений ИИ, охватывающим текст, голос и создание визуального контента. Эта диверсификация имеет решающее значение на быстро развивающемся рынке, где одной лишь специализации недостаточно.