Microsoft rozszerza sztuczną inteligencję poza tekst o nowe modele głosu, transkrypcji i grafiki

6

Microsoft rozszerza swoje portfolio sztucznej inteligencji poza duże modele językowe, wypuszczając trzy nowe narzędzia AI: zaawansowane możliwości transkrypcji głosu i tekstu oraz model generowania obrazów drugiej generacji. Zmiany te sygnalizują ambicje technologicznego giganta, aby stać się kompleksowym dostawcą sztucznej inteligencji, a nie tylko konkurentem tekstowego chatbota.

Nowe narzędzia AI dotyczące głosu i tekstu

Nowo wprowadzony model transkrypcji może konwertować dźwięk na tekst w 25 językach. Zaprojektowana z myślą o zastosowaniach takich jak napisy wideo, podsumowania spotkań i asystenci głosowi, technologia ta spełnia rosnące zapotrzebowanie na niedrogie i wydajne przetwarzanie dźwięku. Równolegle model głosu firmy Microsoft może tworzyć klipy audio o długości do 60 sekund, co potencjalnie usprawnia przepływy pracy związane z tworzeniem treści i komunikacją.

Ulepszone generowanie obrazu

Zaktualizowany model generowania obrazów firmy Microsoft stanowi krok naprzód w tworzeniu treści wizualnych w oparciu o sztuczną inteligencję. Firma twierdzi, że model drugiej generacji generuje obrazy szybciej i z większym realizmem w porównaniu do swojego poprzednika. Narzędzie jest obecnie dostępne za pośrednictwem Microsoft Foundry i MAI, a w planach jest jego integracja z powszechnie używanymi platformami, takimi jak Bing i PowerPoint, dzięki czemu wizualizacje generowane przez sztuczną inteligencję będą bardziej dostępne dla zwykłych użytkowników.

Więcej niż chatboty: strategiczna zmiana Microsoftu

Ekspansja Microsoftu na multimodalne modele sztucznej inteligencji (głos, obraz, tekst) następuje w momencie, gdy branża stara się wykazać praktyczne korzyści w miejscu pracy. O ile Copilot firmy Microsoft pozostaje kluczowym graczem w przestrzeni chatbotów korporacyjnych, zwłaszcza dla przedsiębiorstw, które już zainwestowały w ekosystem Microsoft (Office 365 i Azure), o tyle firma wyraźnie dywersyfikuje swoją działalność. Kontrastuje to z konkurencją, taką jak OpenAI, która niedawno przestała wspierać swoją aplikację wideo Sora AI, aby skupić się na swojej podstawowej ofercie.

Możliwość znacznych inwestycji w różnorodne projekty związane ze sztuczną inteligencją to kluczowa zaleta uznanych firm technologicznych, takich jak Microsoft. W przeciwieństwie do wielu start-upów, dysponują one zasobami finansowymi i obliczeniowymi, aby móc jednocześnie eksplorować wiele zastosowań sztucznej inteligencji. Wprowadzenie tych modeli potwierdza tę strategię, pozycjonując firmę Microsoft jako kompleksowego dostawcę sztucznej inteligencji, gotowego sprostać zmieniającym się potrzebom firm i konsumentów.

Najnowsze posunięcia Microsoftu wskazują na długoterminową wizję: stać się punktem kompleksowej obsługi rozwiązań AI obejmujących tworzenie treści tekstowych, głosowych i wizualnych. Ta dywersyfikacja ma kluczowe znaczenie na szybko rozwijającym się rynku, na którym sama specjalizacja nie wystarczy.