Die Bedeutung von Ethik für KI in der Medizin

David Sweenor ist als Senior Director of Product Marketing beim Softwareunternehmen Alteryx tätig. Er verantwortet derzeit verschiedene globale Initiativen im Bereich Advanced Analytics. (Foto: Alteryx)
David Sweenor ist als Senior Director of Product Marketing beim Softwareunternehmen Alteryx tätig. Er verantwortet derzeit verschiedene globale Initiativen im Bereich Advanced Analytics. (Foto: Alteryx)

Während der Einsatz von Künstlicher Intelligenz (KI) in der Medizin zunimmt, rücken auch ethische Bedenken vermehrt in den Fokus. In seinem Gastbeitrag beleuchtet David Sweenor, Director of Product Marketing beim Softwareunternehmen Alteryx, wie sich mithilfe synthetischer Daten KI-bedingte Diskriminierung vermeiden lässt.

Künstliche Intelligenz ist auf dem besten Weg, ein integraler Bestandteil der Medizintechnik zu werden. Mustererkennungssoftware kann zum Beispiel dabei helfen, Tumore zu identifizieren, und auch tragbare Fitness-Tracker sind inzwischen medizinisch zugelassen, um bei einer Herzrhythmusstörung Alarm zu schlagen. 

Wie eine aktuelle Studie der Universität Heidelberg zeigt, können Modelle, die auf Maschinellem Lernen basieren, dermatoskopische Bilder jetzt „mindestens so gut wie Dermatologen“ analysieren. Bei den Modellen, die mit qualitativ hochwertigen Bildern trainiert wurden, die durch entsprechende Biopsien verifiziert waren, lag der Quotenunterschied hinsichtlich erfolgreicher Diagnosen bei nur etwa zwei Prozent. Die Studie, die fast 40.000 Bilder umfasste, welche von jeweils 19 DermatologInnen analysiert wurden, zeigte einen starken Zusammenhang, der zwischen der Qualität der zum Training des KI-Modells verwendeten Daten und der Qualität des Ergebnisses besteht. Während bei der Verwendung hochwertiger Daten eine Spitzengenauigkeit von 75 Prozent und mehr erreicht wurde, sank der Erfolg des Modells bei der Verwendung von Daten mit geringerer Qualität auf nur 64 Prozent. 

KI als Werkzeug betrachten

Laut Studie bestand der Hauptunterschied darin, dass die verwendeten KI-Modelle eher die Entscheidungen von DermatologInnen nachahmten, anstatt selbst die Zusammenhänge zwischen dem Bild und dem entsprechend verifizierten Datenetikett zu lernen. Klar ist jedoch zweierlei: Einerseits sind die Modelle nur so effektiv wie die Daten, mit denen sie trainiert werden, und andererseits besteht eine hohe Abhängigkeit vom Faktor Mensch. Künstliche Intelligenz ist ein Werkzeug, das dazu dient, den menschlichen Entscheidungsprozess zu imitieren. Sollte dieser von Vorurteilen beeinflusst sein – sei es statistisch, systematisch, bewusst oder unbewusst – wird auch die Tragfähigkeit der Entscheidungen, zu der ein KI-Modell gelangen kann, dadurch beeinträchtigt sein.

Warum Ethik ein elementarer Bestandteil der Datennutzung sein sollte

Bei der Betrachtung der ethischen Faktoren, die hinter einem bestimmten Datensatz stehen, muss immer berücksichtigt werden, warum die Daten erhoben wurden, wo sie erhoben wurden, in welchem Kontext, von wem, ebenso wie die historischen PatientInnenergebnisse, welche die Daten überhaupt erst beeinflusst haben. Fast ebenso wichtig ist es, zu beurteilen, was nicht erfasst wurde und ob die Datenstichprobe wirklich repräsentativ ist – etwas, das selbst durch die Vergrößerung einer Datenstichprobe nur schwer zu erreichen ist.

Eine Studie der University of Chicago untersuchte die Verwendung eines KI-Modells zur genauen Erkennung von Tumoren und zur Bestimmung der Überlebensrate von PatientInnen auf Grundlage von Gewebebildern. Auf den ersten Blick war das Modell erfolgreich. Allerdings bemerkte es, dass die MedizinerInnen unterschiedliche Färbeformeln, Scannerkalibrierungen und Vergrößerungen verwendet hatten – all das waren Hinweise, in welchem Krankenhaus die Gewebebilder aufgenommen worden waren. Anstatt die Überlebensrate der PatientInnen auf Grundlage der Bilder zu berechnen, führte die KI diese auf die historischen Daten der jeweiligen Krankenhäuser zurück, was die Ergebnisse der Studie fragwürdig erscheinen lässt. Die Forschenden stellten außerdem fest, dass „selbst wenn die Leistung den Test der externen Validierung besteht, die Modelle die aus den institutionellen Färbemustern gelernten Verzerrungen beibehalten können, wenn sie nicht extern validiert werden.“ In einigen Fällen war dieser Ansatz zur Validierung ausreichend, wenn die Datenergebnisse von Menschen überprüft werden konnten. In anderen Fällen endete er tödlich.

Der Faktoren entscheidend

Diese beiden Studien über die Verwendung von KI-Modellen heben – trotz der Verarbeitung riesiger Datensätze von verschiedenen Standorten in verschiedenen Ländern – die gleichen drei Faktoren hervor: 

1.         Die besten Daten werden anhand eines bekannten Faktors hinsichtlich ihrer Gültigkeit überprüft. 

2.         Die Skalierung verzerrter Datensätze, um ethische Erwägungen durch den Stichprobenumfang zu korrigieren, führt lediglich zu einem noch größeren verzerrten Datensatz. 

3.         Menschen sind aufgrund des Umfangs und der Komplexität der Daten nicht in der Lage, diese Modelle manuell zu validieren.  

An dieser Stelle kommen synthetische Daten ins Spiel. Die Möglichkeit, eine repräsentative Teilmenge von Daten zu nehmen und sie künstlich zu vergrößern, um KI-Modelle zu trainieren, ist von unschätzbarem Wert – nicht nur aus Kostengründen, sondern auch aus ethischer Sicht.

Ethik: Synthetische Daten können bestehende Lücken füllen

Synthetische Datensätze bestehen aus programmatisch generierten und mit Anmerkungen versehenen Informationen, die aus vollständig repräsentativen Datenpunkten extrapoliert und skaliert wurden. Sie ahmen die statistischen Eigenschaften des Originaldatensatzes nach, indem sie ihn auf die erforderliche Größe skalieren, ohne seine Aussagekraft zu verfälschen. Dabei werden die echten Datenpunkte verborgen, die zu seiner Erstellung verwendet wurden – was für den medizinischen Bereich eine enorme Chance darstellt. Hier können die Datensätze oft Jahrzehnte zurückreichen. Da sich die Medizin jedoch stetig weiterentwickelt, kann es sein, dass Entscheidungen, die damals als ethisch vertretbar galten, immer noch in Datenbanken dargestellt und in KI-Modellen verwendet werden – und das, obwohl diese nach heutigen Maßstäben längst als diskriminierend angesehen werden.

Unausgewogene PatientInnenergebnisse aus historisch benachteiligten sozioökonomischen Gebieten können dazu führen, dass KI-Modelle den geografischen Standort fälschlicherweise mit schlechteren PatientInnenergebnissen oder beispielsweise einem höheren Auftreten von Krebserkrankungen in Verbindung bringen. In Wirklichkeit haben die PatientIinnen in dieser Region aber vielleicht einfach erst dann einen Arzt aufgesucht, als die Symptome sie zu sehr einschränkten.

Gefahr unbewusster Voreingenommenheit besteht

In operativer Hinsicht gibt es drei Schlüsselphasen für das Training des KI-Modells:

1.         Ein Entwicklungsteam erhält eine Anfrage für ein Modell, das eine bestimmte Aufgabe erfüllen soll. 

2.         Bei der Erstellung dieses Modells fordert das Entwicklungsteam Daten im Rahmen der Projektparameter an. 

3.         Diese zu beschaffen, aufzubereiten und zugänglich zu machen, liegt bei den abteilungsinternen DatenmitarbeiterInnen – erst dann können die Daten in den Analyseprozess überführt werden.

Wenn zu irgendeinem Zeitpunkt innerhalb dieses Prozesses einige der ExpertInnen nicht über das notwendige Fachwissen zur ethischen und pragmatischen Datennutzung verfügen, besteht die Gefahr, dass sich unbewusste Voreingenommenheiten einschleichen. Es könnte zum Beispiel sein, dass die beauftragten Datenmitarbeitenden Informationen ihrer Abteilung liefern, die nicht repräsentativ sind oder EntwicklerInnen diese Daten in einem KI-Modell verwenden, das nicht auf den Endanwendungsfall abgestimmt ist. Darüber hinaus besteht die Möglichkeit, dass die medizinische Fachkraft, die das Modell in Auftrag gegeben hat, nicht über die analytischen Fähigkeiten verfügt, um die Grenzen des KI-Modells zu verstehen, wodurch sich auch die Chance verringert, potenzielle Fehler zu identifizieren.

Fortbildung erforderlich

Während immer mehr FachexpertInnen in die Lage versetzt werden, auf Daten zuzugreifen und für Analysen zu nutzen, entwickelt sich diese automatisch zu einem kollaborativeren Prozess – ein wichtiger erster Schritt zur Vermeidung von KI-basierter Diskriminierung. Unterschiedliche Teams vor Ort sind aufgrund ihrer eigenen Erfahrung viel eher in der Lage, Datenfehler zu erkennen, bevor sie vollständig operationalisiert werden. Um KI-Modelle mit repräsentativen Ergebnissen liefern zu können, ist eine Fortbildung innerhalb der Abteilung erforderlich, die die Datenarbeit genau dort erleichtert. Um dieses Ziel zu erreichen, braucht es unbedingt ein unternehmensweites Konzept für die Datenqualität. Der Abbau von Barrieren, die bisher zwischen Mitarbeitenden und neuen Technologien bestanden, genauso wie die Schaffung einer soliden datenzentrierten Grundlage, werden zu einer höheren Qualität der Daten führen, die in KI-Modelle eingespeist werden, was wiederum zu besseren Patientenergebnissen führt.