Генеративные ИИ-модели, такие как ChatGPT, произвели революцию в том, как мы взаимодействуем с технологиями. Однако остается существенная проблема: склонность «галлюцинировать» – уверенно представлять ложную информацию как факт. Недавнее исследование компании OpenAI, создавшей ChatGPT, выявило основную причину этого поведения: ИИ-модели стимулируются к догадкам, а не к признанию того, что они чего-то не знают.
Корень проблемы: стимулирование догадок
В настоящее время методы оценки производительности ИИ-моделей часто ставят точность превыше всего. Это означает, что модели оцениваются главным образом по проценту правильно отвеченных вопросов, независимо от их уверенности или достоверности. Исследователи OpenAI утверждают, что это создает систему, в которой догадки становятся стратегическим преимуществом.
Это похоже на студента, сдающего тест с вариантами ответов, объясняется в исследовании. Оставление вопроса без ответа гарантирует отсутствие баллов, поэтому они поощряются к случайным догадкам.
Аналогично, когда ИИ-модели получают наказание только за неправильные ответы, они поощряются к прогнозированию ответов даже при недостатке информации. Это приводит их к генерации правдоподобных, но в конечном итоге ложных утверждений.
Как ИИ-модели «обучаются» и почему возникают галлюцинации
ИИ-модели обучаются путем прогнозирования следующего слова в последовательности текста, опираясь на огромные наборы данных. Хотя эти наборы данных часто содержат последовательные закономерности, они также включают случайную и противоречивую информацию. Когда модели сталкиваются с вопросами, которые являются неоднозначными или не имеют однозначных ответов – ситуаций, по своей природе характеризующихся неопределенностью – они часто прибегают к стратегическим догадкам для повышения своего общего балла точности.
«Именно поэтому, даже по мере развития моделей, они все еще могут галлюцинировать, уверенно давая неверные ответы вместо признания неопределенности», отмечают исследователи.
Решение проблемы: вознаграждение честности и неопределенности
К счастью, существует простое решение этой проблемы. Исследователи предлагают наказывать «уверенные ошибки» более строго, чем выражение неопределенности, а также давать моделям частичный кредит за надлежащее признание своих ограничений.
Это похоже на стандартизированный тест, на котором выставляются отрицательные баллы за неверные ответы или частичный кредит за оставление вопросов без ответа. Такая система отговорит от слепых догадок и побудит модели выражать неопределенность, когда это необходимо.
Для решения этой проблемы OpenAI предлагает обновить текущие методы оценки для генеративного ИИ. «Широко используемые оценки, основанные на точности, необходимо обновить, чтобы их оценка не поощряла догадки». Смещая акцент с исключительно поощряющей точности, разработчики могут проложить путь к более сложным языковым моделям, которые менее подвержены галлюцинациям.
В заключение, склонность ИИ-моделей к «галлюцинациям» проистекает из дефектной системы оценки. Вознаграждая честность и признание неопределенности, мы можем разрабатывать ИИ, который является одновременно мощным и надежным. Этот сдвиг особенно критичен, поскольку ИИ находит все более широкое применение в таких областях, как медицина и право, где точность и надежность имеют первостепенное значение.