Bei der Forschung und Entwicklung neuer Medikamente und Behandlungsmethoden spielen Gesundheitsdaten wie Geninformationen eine wichtige Rolle. Ein Projekt will nun dafür sorgen, dass sich mehr dieser sensiblen Daten nutzen lassen und gleichzeitig ihr Schutz vor Missbrauch gewährleistet ist.
Medizinische Daten gelten als hochsensibel und dürfen deshalb nur in einem streng kontrollierten Ausmaß verwendet und weitergegeben werden. Das Projekt PriSyn entwickelt jetzt eine neue Methode, die deutlich mehr medizinische Daten als bisher nutzen kann. Gleichzeitig soll sie den Schutz der Daten und damit die Privatsphäre der Studienteilnehmer garantieren. Im Rahmen des Projekts arbeiten das CISPA Helmholtz-Zentrum für Informationssicherheit, das Deutsche Zentrum für Neurodegenerative Erkrankungen, QuantPi und Hewlett Packard Enterprise (HPE) zusammen. Das Bundesministerium für Bildung und Forschung (BMBF) fördert das dreijährige Vorhaben mit 2,2 Millionen Euro.
Aktuelle Methoden aufwändig
Bereits heute lassen sich biomedizinische Daten aus verschiedenen Bereichen kombinieren und diese komplexen Datensätze mithilfe von Methoden des maschinellen Lernens analysieren. In der Praxis ist es jedoch ausgesprochen schwierig, Gesundheitsdaten von verschiedenen Stellen – zum Beispiel verschiedenen Kliniken, teilweise sogar aus unterschiedlichen Ländern – zusammenzuführen und dabei ihren Schutz zu garantieren.
Zwar gibt es schon Möglichkeiten, die Daten vor der Weitergabe zu anonymisieren. Mithilfe von Mechanismen der sogenannten Differential Privacy (differenzielle Privatsphäre) können hierbei starke Garantien über den Schutz der Privatsphäre abgegeben werden. Allerdings ist diese Methode kompliziert und mit hohem Aufwand für die Forschenden verbunden. Zudem lässt sie sich nur schwer in die bestehenden Arbeitsabläufe einbinden.
Künstliche Daten zum Privatsphären-Schutz
Abhilfe schaffen könnten synthetische Daten mit starken Privatsphäregarantien (differential privacy) sein, die sich mithilfe von generativen Machine-Learning-Modellen herstellen. „Die unter differentieller Privatsphäre trainierte KI erstellt somit künstliche Daten, die die statistischen Eigenschaften echter Datensätze wiedergeben. Gleichzeitig können wir Garantien abgeben, dass auch beim Teilen oder mehrfachen Zugriff auf diese Daten keine Privatsphärenrisiken für die Patienten entstehen“, sagt CISPA-Forscher Prof. Dr. Mario Fritz, der das Projekt koordiniert.
Training für die KI
Damit die Modelle nicht nur eine hohe Sicherheit bieten, sondern auch funktionieren, brauchen die Forschenden jede Menge Daten. Damit werden die Modelle für ihre Aufgaben trainiert. Geeignete Datensätze für den jeweils untersuchten biomedizinischen Anwendungsfall zu erstellen, übernimmt das Deutsche Zentrum für Neurodegenerative Erkrankungen (DZNE). „Wir wollen versuchsweise DZNE-Studienkohorten nutzen, um klinische Assistenzsysteme für neurodegenerative Erkrankungen zu entwickeln und deren Leistung mit Systemen vergleichen, die mit synthetischen Daten trainiert wurden“, sagt Dr. Matthias Becker, der gemeinsam mit Dr. Maren Büttner am DZNE an dem Projekt arbeitet. Dank der synthetischen Daten würden dabei die Patientendaten nie veröffentlicht oder weitergegeben.
Messbare Qualität für die Forschung
Das Saarbrücker Startup QuantPi sorgt im Projekt dafür, dass die Qualität der künstlichen Daten für den jeweiligen Anwendungsfall messbar gemacht wird. „Es wird noch daran geforscht, wie die Qualität synthetischer Daten und ihrer Generatoren sichergestellt werden kann“, sagt Unternehmens-Mitbegründer und Forschungsleiter Dr. Antoine Gautier. Eine solche Prüfung stehe aber in engem Zusammenhang mit der Bewertung der Risiken für die Vertrauenswürdigkeit von KI-basierten Systemen – eine Kernfunktion der QuantPi-Plattform. Daher soll QuantPi geeignete Maße und Messverfahren identifizieren, mit denen der nötige Kompromiss zwischen dem Schutz der Privatsphäre und der Nutzbarkeit der Daten genau analysiert und auch kontrolliert werden kann.
Gut verständliche Hardware für hohe Akzeptanz
Das Unternehmen Hewlett Packard Enterprise (HPE) arbeitet daran, dass die Modelle in effizient einsetzbare und für die Nutzende gut verständliche Hardware fließen. „Um eine breite Akzeptanz bei den Ärzten zu erreichen, müssen die lokale Software und Hardware drei Schlüsselkriterien erfüllen: Effizienz der Implementierung, Benutzerfreundlichkeit und Ende-zu-Ende-Sicherheit“, sagt Hartmut Schultze, Lead Architect, HPE. Eine weitere wichtige Priorität sei die Plattformunabhängigkeit, um ein wirklich offenes Ökosystem souveräner Datenbesitzer zu ermöglichen.
Projektleiter Mario Fritz sieht ein großes Interesse am Einsatz generativer Modelle in der Biomedizin. Mit dem Projekt wollen die Partner die bestehenden Potenziale von Gesundheitsdaten besser nutzbar machen.