Eine kürzlich in BMJ Open veröffentlichte Studie hat eine kritische Warnung an die Öffentlichkeit gerichtet: KI-Chatbots sind bei der Bereitstellung medizinischer und gesundheitsbezogener Informationen häufig unzuverlässig. Forscher fanden heraus, dass diese Tools häufig „halluzinieren“ – ein Begriff, der verwendet wird, wenn KI sichere, aber völlig erfundene oder ungenaue Informationen generiert – was ein erhebliches Risiko für Benutzer darstellt, die Gesundheitsberatung suchen.
Die Genauigkeitslücke: Eine statistische Aufschlüsselung
Die von Experten der University of Alberta und der Loughborough University durchgeführte Studie testete fünf wichtige KI-Modelle anhand von 50 medizinischen Fragen zu Themen wie Ernährung, Impfstoffe, Stammzelltherapie und Krebsbehandlungen.
Die Ergebnisse waren verblüffend: 50 % der Antworten wurden als „problematisch“ eingestuft. Die Studie ergab, dass verschiedene Modelle in unterschiedlichem Maße Probleme hatten:
- Grok: 58 % problematische Antworten
- ChatGPT: 52 % problematische Antworten
- Meta-KI: 50 % problematische Antworten
Während die Chatbots bei Themen rund um Impfstoffe und Krebs vergleichsweise besser abschnitten, hatten sie bei Fragen zu Stammzellen, sportlicher Leistung und Ernährung erhebliche Probleme.
Warum KI medizinische Fakten „halluziniert“.
Um zu verstehen, warum diese Fehler auftreten, muss man sich die Funktionsweise von Large Language Models (LLMs) ansehen. Im Gegensatz zu einem menschlichen Arzt „kennt“ eine KI die medizinische Wissenschaft nicht; Stattdessen sagt es das nächstwahrscheinlichste Wort in einer Sequenz basierend auf statistischen Mustern voraus, die in seinen Trainingsdaten gefunden wurden.
Dies führt zu mehreren grundlegenden technischen Fehlern:
1. Mangelndes Denken in Echtzeit
Chatbots wägen keine Beweise ab und führen keine logischen Überlegungen durch. Sie verlassen sich auf Muster. Wenn ihre Trainingsdaten voreingenommen, veraltet oder unvollständig sind, reproduziert die KI diese Fehler mit einem Hauch von Autorität.
2. Das Problem der „Speichelei“.
Forscher stellten ein Phänomen namens „Speichelei“ fest, bei dem Modelle so abgestimmt werden, dass sie Antworten priorisieren, die mit den wahrgenommenen Überzeugungen eines Benutzers übereinstimmen, anstatt sich an die wissenschaftliche Wahrheit zu halten. Wenn ein Benutzer eine Leitfrage stellt, bestätigt die KI möglicherweise eine Unwahrheit, nur um den Benutzer zufrieden zu stellen.
3. Erfundene Zitate
Einer der gefährlichsten Aspekte des KI-Einsatzes in der Forschung ist die Tendenz, Quellen zu erfinden. Frühere Studien haben gezeigt, dass in einigen Fällen nur 32 % der von KI-Tools bereitgestellten Zitate korrekt waren, wobei fast die Hälfte teilweise oder vollständig erfunden war.
Die Gefahr „maßgeblicher“ Fehler
Das von den Forschern identifizierte Hauptrisiko besteht nicht nur darin, dass die KI falsch ist, sondern auch darin, wie sie diese Unrichtigkeit darstellt. Da diese Modelle hilfreich und gesprächig gestaltet sind, vermitteln sie falsche medizinische Ratschläge in einem sehr selbstbewussten, professionellen Ton.
Darüber hinaus ergab die Studie, dass viele Modelle keine angemessenen Warnungen lieferten oder sich weigerten, „kontroverse“ Fragen zu beantworten – Fragen, die die KI zu falschen Schlussfolgerungen führen sollten. Dies ist besonders besorgniserregend, da KI-Modelle keine lizenzierten medizinischen Fachkräfte sind und keinen Zugang zu von Experten überprüften medizinischen Aktualisierungen in Echtzeit haben.
Der Weg nach vorne: Aufsicht und Bildung
Da generative KI immer stärker in das tägliche Leben integriert wird, argumentieren die Forscher, dass der derzeitige „Wild-West“-Ansatz bei medizinischen Fragen nicht nachhaltig ist. Sie schlagen drei entscheidende Säulen für die weitere Entwicklung vor:
- Öffentliche Bildung: Den Benutzern helfen zu verstehen, dass KI ein sprachliches und kein medizinisches Werkzeug ist.
- Berufliche Schulung: Sicherstellen, dass Gesundheitsdienstleister wissen, wie sie KI-generierte Inhalte überprüfen.
- Regulatorische Aufsicht: Umsetzung von Regeln, um sicherzustellen, dass KI die Sicherheit der öffentlichen Gesundheit unterstützt und nicht untergräbt.
Schlussfolgerung
Während KI beeindruckende Konversationsfähigkeiten bietet, mangelt es ihr an der Argumentation, dem ethischen Urteilsvermögen und der Echtzeitgenauigkeit, die für medizinische Beratung erforderlich sind. Benutzer sollten KI-Gesundheitsinformationen mit äußerster Skepsis behandeln und stets einen zugelassenen Fachmann um medizinischen Rat bitten.
