Wie sicher sind KI-Chatbots im klinischen Alltag?

Viele Ärztinnen und Ärzte verwenden KI-Chatbots bereits in ihrem medizinischen Alltag. Warum die damit verbundenen Risiken oft unterschätzt werden und warum eine Qualitätsprüfung von KI-Chatbots in der Medizin unerlässlich ist, erläutert Dr. med. Patricia Hinske, Chief of Clinical Innovation bei AMBOSS, in ihrem Gastbeitrag.

Gastbeitrag von Dr. med. Patricia Hinske

Mehr als die Hälfte der Ärztinnen und Ärzte im deutschsprachigen Raum nutzen bereits KI-gestützte Sprachmodelle (sog. Large Language Models, LLMs) in ihrem Arbeitsalltag. Meist greifen sie auf generische Tools wie ChatGPT zurück, um etwa Differenzialdiagnosen abzugleichen oder Therapieoptionen zu recherchieren. Das verspricht Effizienzgewinne und schnelle Orientierung.

Gleichzeitig werden die damit verbundenen Risiken bislang oft unterschätzt oder aus pragmatischen Gründen in Kauf genommen. Das zentrale Problem: Generische KI-Systeme generieren ihre Antworten auf Grundlage statistischer Wahrscheinlichkeiten und greifen dabei auf heterogene, nicht-validierte Inhalte aus dem offenen Web zurück, in denen evidenzbasierte Leitlinien neben Forenbeiträgen, veralteten Publikationen, pseudowissenschaftlichen Hypothesen oder werblichen Inhalten stehen. Die Folge sind Empfehlungen, die zwar plausibel klingen, aber fachlich unvollständig, veraltet oder kontextuell unpassend sein können.

Vor diesem Hintergrund hat AMBOSS den AI Mode entwickelt. Dabei handelt es sich um eine dialogbasierte Chatfunktion zur fundierten medizinischen Wissensrecherche innerhalb der AMBOSS-Plattform. Er übernimmt die Aufgaben, die im klinischen Alltag besonders zeitaufwendig sind. Neben der Recherche sind das die Strukturierung und Kontextualisierung von medizinischen Informationen. Ziel ist es, klinisch relevante Antworten nicht nur evidenzbasiert, sondern schnell erfassbar und einfach überprüfbar bereitzustellen.

Der AI Mode kombiniert hierfür Inhalte aus verschiedenen AMBOSS-Kapiteln und verbindet sie zu einer präzisen, kontextualisierten Antwort mit detaillierten Quellenverweisen. In Sekundenschnelle entsteht so ein kompakter Überblick mit passendem Tiefgang und verlässlicher Quellengrundlage.

Qualitätsprüfung von KI-Chatbots in der Medizin

Doch mit der Entwicklung neuer AI-Systeme stellt sich eine grundsätzliche Frage: Wie sicher sind AI-generierte Empfehlungen im klinischen Kontext überhaupt? Bisherige Evaluationsstudien konzentrierten sich meist auf medizinisches Faktenwissen oder standardisierte Prüfungsformate wie Multiple-Choice-Fragen. Offene Sprachmodelle wie ChatGPT und Co. erzielten dort solide Ergebnisse. Diese Studien zeigen jedoch primär, was KI in einer kontrollierten „Laborumgebung“ leisten kann. Doch zwischen einer korrekt beantworteten Prüfungsfrage und verantwortbaren Therapieempfehlungen in realen Patientensituationen liegt ein fundamentaler Unterschied.

Genau hier setzt nun eine neue Studie namens NOHARM aus den USA an, die einen praktischen Ansatz verfolgt. „First, do no harm“ oder „Primum non nocere“, also zuerst keinen Schaden zufügen, ist ein jahrtausendealter Grundsatz der Medizin. Ärztinnen und Ärzte wollen heilen und dabei sicherstellen, dass ihre Entscheidungen den Patientinnen und Patienten keinen Schaden zufügen. Lassen sich auch KI-Systeme an diesem Grundsatz messen?

Die Forschenden der Stanford University School of Medicine und der Harvard Medical School untersuchten für die Studie erstmals an 31 verschiedenen KI-Systemen, wie häufig und schwerwiegend KI-generierte Empfehlungen im klinischen Kontext potenziellen Schaden verursachen können. Im Gegensatz zu „stilisierten Fall-Vignetten“ basiert die Studie auf 100 echten elektronischen Konsultationen zwischen Hausärztinnen und Spezialisten. Diese Fälle beinhalten authentische klinische Inhalte und Unsicherheiten, die im echten ärztlichen Alltag auftreten.

Die Studie unterscheidet zwischen zwei Arten von Fehlern: Entweder empfiehlt eine KI eine falsche, potenziell schädliche Behandlung, oder sie vergisst, eine wichtige Maßnahme zu erwähnen, etwa einen notwendigen Test.

Schaden durch Unterlassung

Die leistungsstärksten KI-Modelle schnitten bei der Sicherheitsbewertung im Durchschnitt rund zehn Prozent besser ab als Fachärztinnen und Fachärzte. Doch auch die beste KI kann Fehler machen. Während die schlechtesten Modelle bei 100 Patientenfällen im Schnitt etwa 40 schwere Fehler produzierten, reduzierten die besten Modelle diese Zahl auf ca. 12–14 schwere Fehler. Im Vergleich dazu machten Ärztinnen und Ärzte ohne KI-Unterstützung in 33 von100 Fällen potenziell schwere Fehler.

Die Ergebnisse zeigen, dass die meisten gefährlichen, KI-basierten Fehler nicht durch falsche, sondern durch unvollständige Empfehlungen entstehen. Die KI-Systeme ließen also eine kritisch wichtige diagnostische oder therapeutische Maßnahme aus beziehungsweise empfahlen sie schlichtweg nicht. In der Studie machten diese Fehler über drei Viertel der schweren Fehler aus.

Ergebnisse der Studie

Unter den 31 evaluierten KI-Systemen erzielte die für die klinische Entscheidungsfindung entwickelte US-Version des AMBOSS AI Mode mit seinem Modell LiSA 1.0 den ersten Platz in der Gesamtwertung. In der Kategorie „Completeness“, die misst, ob alle klinisch notwendigen Maßnahmen empfohlen werden, erreichte das System den mit Abstand höchsten Wert.

Der Unterschied des KI-Systems liegt nicht nur im sicheren Quellenfundament, sondern im gesamten Systemdesign. Während generische Sprachmodelle Antworten aus dem offenen Internet probabilistisch generieren, wurde der AI Mode gezielt für medizinische Fachfragen entwickelt. Die Antworten basieren ausschließlich auf leitliniengerechten, redaktionell geprüften und aktualisierten Inhalten, die im Kontext der konkreten klinischen Fragestellung strukturiert aufbereitet werden. Das System berücksichtigt beruflichen Kontext und weist auch auf Aspekte hin, die möglicherweise übersehen werden könnten. Dadurch ist nicht nur die fachliche Korrektheit sichergestellt, sondern echte Anwendbarkeit gegeben: schnell zugängliche relevante Evidenz, verdeutlichte Zusammenhänge und gleichzeitig eine transparente Grundlage für die eigenen fachlichen Entscheidungen.

Doch was bedeutet da Ergebnis der Studie für Kliniken, MVZs und Praxen im DACH-Raum? Mit der rasanten Entwicklung medizinischer KI rückt auch hier eine zentrale Herausforderung in den Fokus: Wie können Kliniken, MVZs und Praxen KI so einsetzen, dass sie Fachpersonal wirksam entlastet und gleichzeitig die hohen Anforderungen an die Patientensicherheit erfüllt?

Entscheidend dafür ist es auf Systeme zu setzen, die gezielt für die medizinische Informationsrecherche entwickelt wurden, auf kuratiertem Fachwissen basieren und Teil unabhängiger Evaluationen sind. Solche Lösungen können zeitintensive Aufgaben wie die medizinische Recherche übernehmen und relevante Informationen innerhalb weniger Sekunden strukturiert zusammenstellen. So kann auch hierzulande ein klarer Mehrwert für den klinischen Alltag entstehen: spürbare Entlastung für medizinisches Personal und schneller Zugang zu verlässlichen Informationen.

Gastbeitrag von Dr. med. Patricia Hinske

Qualitätsprüfung von KI-Chatbots in der Medizin

Schaden durch Unterlassung

Ergebnisse der Studie

Wie sicher sind KI-Chatbots im klinischen Alltag?

Mit Telemedizin gegen unerfüllten Kinderwunsch

Virtual-Realtiy-Training für hochkritische Thoraxeingriffe

Telekom bringt KI in die Pflegedokumentation

Joint Venture für sichere Vernetzung von Gesundheitsdaten

Chatbots in der Medizin

Gastbeitrag von Dr. med. Patricia Hinske

Qualitätsprüfung von KI-Chatbots in der Medizin

Schaden durch Unterlassung

Ergebnisse der Studie

Ebenfalls interessant

Wie sicher sind KI-Chatbots im klinischen Alltag?

Mit Telemedizin gegen unerfüllten Kinderwunsch

Virtual-Realtiy-Training für hochkritische Thoraxeingriffe

Telekom bringt KI in die Pflegedokumentation

Joint Venture für sichere Vernetzung von Gesundheitsdaten

Chatbots in der Medizin