Microsoft rozšiřuje umělou inteligenci za text s novými modely hlasu, přepisu a grafiky

27

Společnost Microsoft rozšiřuje své portfolio umělé inteligence mimo velké jazykové modely vydáním tří nových nástrojů umělé inteligence: pokročilých možností přepisu hlasu a textu a modelu generování obrázků druhé generace. Tento vývoj signalizuje ambice technologického giganta etablovat se jako komplexní poskytovatel umělé inteligence spíše než jen jako textový konkurent chatbotů.

Nové nástroje pro hlasovou a textovou umělou inteligenci

Nově spuštěný model přepisu dokáže převést zvuk na text ve 25 jazycích. Tato technologie, navržená pro aplikace, jako je titulkování videa, shrnutí schůzek a hlasové asistenty, splňuje rostoucí poptávku po cenově dostupném a efektivním zpracování zvuku. Souběžně může hlasový model společnosti Microsoft vytvářet zvukové klipy dlouhé až 60 sekund, což potenciálně zjednodušuje vytváření obsahu a komunikační pracovní postupy.

Vylepšené generování obrázků

Aktualizovaný model generování obrázků společnosti Microsoft představuje krok vpřed ve vytváření vizuálního obsahu založeného na umělé inteligenci. Společnost tvrdí, že model druhé generace produkuje obrázky rychleji a s větší realističností ve srovnání se svým předchůdcem. Tento nástroj je v současné době k dispozici prostřednictvím Microsoft Foundry a hřiště MAI s plány na integraci do široce používaných platforem, jako je Bing a PowerPoint, díky čemuž budou vizuály generované umělou inteligencí přístupnější každodenním uživatelům.

Beyond Chatbots: Strategický posun společnosti Microsoft

Expanze společnosti Microsoft do multimodálních modelů umělé inteligence (hlas, obrázek, text) přichází s tím, jak se průmysl posouvá k demonstraci praktických výhod na pracovišti. Zatímco Copilot společnosti Microsoft zůstává klíčovým hráčem v prostoru podnikových chatbotů, zejména pro podniky, které již investovaly do ekosystému Microsoftu (Office 365 a Azure), společnost jasně diverzifikuje své operace. To je v kontrastu s konkurenty, jako je OpenAI, která nedávno přestala podporovat svou video aplikaci Sora AI, aby se zaměřila na své základní nabídky.

Schopnost výrazně investovat do různých projektů umělé inteligence je klíčovou výhodou pro zavedené technologické společnosti, jako je Microsoft. Na rozdíl od mnoha startupů mají finanční a výpočetní zdroje k tomu, aby prozkoumávaly více aplikací umělé inteligence současně. Uvedení těchto modelů potvrzuje tuto strategii a staví Microsoft jako komplexního poskytovatele umělé inteligence připraveného na měnící se potřeby podniků a spotřebitelů.

Nejnovější kroky společnosti Microsoft ukazují na dlouhodobou vizi: stát se komplexním řešením AI zahrnujícím tvorbu textového, hlasového a vizuálního obsahu. Tato diverzifikace je zásadní na rychle se vyvíjejícím trhu, kde samotná specializace nestačí.