Нещодавнє дослідження, опубліковане в журналі BMJ Open, містить серйозну застереження для громадськості: ІІ-чат-боти часто ненадійні при наданні медичної інформації та відомостей про здоров’я. Дослідники виявили, що ці інструменти часто «галюцинують» — цей термін використовується, коли ІІ впевнено генерує повністю тих, хто шукає медичну допомогу.
Розрив у точності: статистичний розбір
Дослідження, проведене експертами з Університету Альберти та Університету Лафборо, включало перевірку п’яти основних моделей ІІ за допомогою 50 медичних питань, що охоплюють такі теми, як харчування, вакцинація, терапія стовбуровими клітинами та лікування раку.
Результати виявилися разючими: 50% відповідей були визнані «проблематичними». Дослідження показало, що різні моделі справлялися із завданнями різною мірою:
- Grok: 58% проблемних відповідей
- ChatGPT: 52% проблемних відповідей
- Meta AI: 50% проблемних відповідей
Хоча чат-боти показали відносно кращі результати в питаннях, що стосуються вакцин і раку, вони зіткнулися з серйозними труднощами при відповідях на питання про стовбурові клітини, спортивні досягнення і харчування.
Чому ІІ «галюцинує» медичними фактами
Щоб зрозуміти причини помилок, необхідно розглянути принцип роботи великих мовних моделей (LLM). На відміну від лікаря-людини, ІІ не «знає» медичну науку; натомість він передбачає наступне найбільш ймовірне слово в послідовності, ґрунтуючись на статистичних закономірностях, знайдених у його навчальних даних.
Це призводить до кількох основних технічних збоїв:
1. Відсутність логічного мислення у реальному часі
Чат-боти не зважують докази та не проводять логічні міркування. Вони покладаються на патерни. Якщо їх навчальні дані упереджені, застарілі чи неповні, ІІ відтворюватиме ці недоліки з виглядом повної впевненості.
2. Проблема «підтакування» (Sycophancy)
Дослідники відзначили феномен, званий «сикофантією» (підтакуванням), коли моделі налаштовуються так, щоб віддавати пріоритет відповідям, які відповідають передбачуваним переконанням користувача, а не науковій істині. Якщо користувач задає питання, що наводить, ІІ може підтвердити помилкове твердження просто для того, щоб задовольнити запит користувача.
3. Вигадані цитати
Одним із найнебезпечніших аспектів використання ІІ в дослідженнях є схильність вигадувати джерела. Попередні дослідження показали, що в деяких випадках лише 32% цитат, наданих ІІ інструментами, були точними, а майже половина була частково або повністю сфабрикована.
Небезпека «авторитетних» помилок
Головний ризик, виявлений дослідниками, полягає не тільки в тому, що ІІ помиляється, а в тому, як він подає цю помилку. Оскільки ці моделі спроектовані так, щоб бути корисними та підтримувати діалог, вони видають невірні медичні поради дуже впевненим та професійним тоном.
Більше того, дослідження показало, що багато моделей не надають належних попереджень і не відмовляються відповідати на «змагальні» запити — питання, спрямовані на те, щоб підштовхнути ШІ до неправильного висновку. Це викликає особливу тривогу, оскільки моделі ІІ не є ліцензованими медичними працівниками і не мають доступу до актуальних медичних оновлень, що пройшли рецензування.
Шлях вперед: нагляд та освіта
Оскільки генеративний ІІ дедалі глибше проникає у повсякденне життя, дослідники стверджують, що нинішній підхід до медичних запитів у стилі «дикого заходу» є неприйнятним. Вони пропонують три найважливіші стовпи для подальшого розвитку:
- Освіта громадськості: Допомога користувачам у розумінні того, що ІІ – це лінгвістичний інструмент, а не медичний.
- Професійне навчання: Гарантія того, що медичні працівники знають, як перевіряти контент, створений ІІ.
- Регуляторний нагляд: Впровадження правил, які гарантують, що ІІ підтримує, а не підриває безпеку громадської охорони здоров’я.
Висновок
Хоча ІІ має вражаючі здібності до ведення діалогу, йому не вистачає логічного мислення, етичних суджень і точності в реальному часі, необхідні надання медичних рекомендацій. Користувачам слід ставитися до медичної інформації від ІІ із крайнім скептицизмом і завжди звертатися за консультацією до ліцензованого фахівця.
