Proč modely umělé inteligence jako ChatGPT halucinují – a jak to opravit

14

Generativní modely umělé inteligence, jako je ChatGPT, představují revoluci ve způsobu, jakým interagujeme s technologiemi. Zůstává však významný problém: tendence k „halucinacím“ – sebevědomě prezentovat nepravdivé informace jako fakt. Nedávná studie společnosti OpenAI, která stojí za ChatGPT, identifikovala hlavní příčinu tohoto chování: Modely umělé inteligence jsou motivovány spíše hádat, než přiznat, že něco nevědí.

Kořen problému: Motivace k hádání

V současné době metody pro hodnocení výkonu modelů AI často upřednostňují přesnost nade vše ostatní. To znamená, že modely jsou posuzovány především na základě procenta správně zodpovězených otázek, bez ohledu na jejich spolehlivost nebo platnost. Výzkumníci z OpenAI tvrdí, že to vytváří systém, ve kterém se hádání stává strategickou výhodou.

Je to podobné, jako když student dělá test s výběrem z více odpovědí, vysvětluje studie. Pokud necháte otázku nezodpovězenou, nezískají žádné body, proto se doporučuje, aby hádali náhodně.

Podobně, když jsou modely umělé inteligence penalizovány pouze za špatné odpovědi, jsou vybízeny k předvídání odpovědí, i když není dostatek informací. To je vede k vytváření věrohodných, ale nakonec nepravdivých prohlášení.

Jak se modely AI „učí“ a proč dochází k halucinacím

Modely umělé inteligence jsou trénovány předpovídáním dalšího slova v sekvenci textu, přičemž se čerpají z obrovských souborů dat. I když tyto datové soubory často obsahují konzistentní vzory, obsahují také náhodné a nekonzistentní informace. Když se modely potýkají s otázkami, které jsou nejednoznačné nebo nemají jasné odpovědi – situace, které jsou ze své podstaty charakterizovány nejistotou – často se uchýlí ke strategickým odhadům, aby zlepšily své celkové skóre přesnosti.

“To je důvod, proč, i když se modely vyvíjejí, mohou stále halucinovat a sebevědomě dávat nesprávné odpovědi, spíše než rozpoznávat nejistotu,” poznamenávají vědci.

Řešení problému: Odměna za upřímnost a nejistotu

Naštěstí existuje jednoduché řešení tohoto problému. Výzkumníci navrhují trestat „sebevědomé chyby“ tvrději než vyjadřovat nejistotu a přisuzovat modelům částečné uznání za správné uznání jejich omezení.

Je to podobné jako standardizovaný test, který dává záporné body za nesprávné odpovědi nebo částečný kredit za ponechání nezodpovězených otázek. Takový systém by odrazoval od slepého hádání a povzbuzoval modely k vyjádření nejistoty, když je to nutné.

K vyřešení tohoto problému OpenAI navrhuje aktualizovat současné metody hodnocení pro generativní AI. “Široce používaná hodnocení založená na přesnosti je třeba aktualizovat, aby jejich hodnocení nepodporovalo dohady.” Přesunutím pozornosti od čistě odměňující přesnosti mohou vývojáři připravit cestu pro složitější jazykové modely, které jsou méně náchylné k halucinacím.

Závěrem lze říci, že tendence modelů umělé inteligence „halucinovat“ pramení z chybného systému hodnocení. Odměnou za poctivost a přijetím nejistoty můžeme vyvinout AI, která je výkonná a spolehlivá. Tento posun je obzvláště důležitý, protože umělá inteligence nachází stále větší uplatnění v oborech, jako je medicína a právo, kde je přesnost a spolehlivost prvořadá.