Ein Deep Learning Algorithmus sorgt jetzt dafür, dass bei der RNA-Sequenzierung einzelner Zellen genauer gearbeitet werden kann. Gibt ein bestimmtes Gen kein Signal von sich, ist feststellbar, ob das einen biologischen oder einen technischen Grund hat.
Das Human Cell Atlas-Projekt kartiert alle Gewebe des menschlichen Körpers zu verschiedenen Zeitpunkten mit dem Ziel eine Referenzdatenbank zur Entwicklung personalisierter Medizin zu schaffen, also ‚gesunde‘ und ‚kranke‘ Zellen vergleichen zu können. Möglich wird das durch sogenannte Einzelzell-RNA-Sequenzierung – also vereinfacht gesagt: die Möglichkeit, nachzuvollziehen, welche Gene diese winzigsten Bausteine des Lebens gerade an- oder ausschalten.
„Das ist methodisch gesehen ein enormer Sprung, denn früher waren solche Daten immer nur aus großen Gruppen von Zellen zu gewinnen, weil die Messungen so viel RNA benötigten“, erklärt Maren Büttner, Doktorandin am Institute of Computational Biology (ICB) des Helmholtz Zentrums München. „Die Ergebnisse waren also immer nur der Mittelwert aller eingesetzter Zellen, heute bekommen wir für jede einzelne Zelle exakte Daten“.
Abweichungen zwischen Messungen
Durch die feineren Messungen steigt allerdings auch die Anfälligkeit für den sogenannten Batch-Effekt. „Dabei handelt es sich um Abweichungen zwischen mehreren Messungen, die beispielsweise bereits entstehen können, wenn die Temperatur des Gerätes leicht abweicht oder sich die Verarbeitungszeit der Zellen verändert“, so Büttner. Zwar gäbe es hier verschiedene Modelle, um den Fehler herauszurechnen, allerdings sind diese Methoden stark davon abhängig, wie groß der Effekt eigentlich ist. „Um das herauszufinden, haben wir ein nutzerfreundliches, robustes und sensitives Maß namens kBET entwickelt, dass Unterschiede zwischen Experimenten quantifiziert und damit verschiedene Korrektur-Ergebnisse vergleichbar macht“, sagt Büttner.
Neben dem Batch-Effekt sind sogenannte Null-Messungen (englisch: dropout events) bei der Einzelzellsequenzierung eine große Herausforderung. „Wir sequenzieren also eine Zelle und stellen fest, dass ein bestimmtes Gen in dieser Zelle überhaupt kein Signal von sich gibt“, veranschaulicht ICB-Direktor Professor Dr. Dr. Fabian Theis. „Dahinter kann sich nun ein biologischer oder ein technischer Grund verbergen: Entweder wird das Gen nicht abgelesen, weil es in diesem Moment schlicht keine Rolle spielt, oder aber die Sequenz ist aus technischen Gründen nicht erfasst worden“, so der Professor für Mathematische Modellierung biologischer Systeme an der TUM.
Bioinformatiker entwickeln Deep Learning Algorithmus
Um diese Fälle zu erkennen, nutzten die Bioinformatiker Gökcen Eraslan und Lukas Simon die große Anzahl der Datenpunkte und entwickelten einen Deep Learning Algorithmus. Dabei handelt es sich um künstliche Intelligenz, die Lernprozesse simuliert, wie sie auch beim Menschen vorkommen (neuronale Netze).
Über ein neues Wahrscheinlichkeitsmodell und Vergleich der ursprünglichen und rekonstruierten Daten ermittelt der Algorithmus, ob in diesem Fall ein biologischer oder ein technischer Ausfall zugrunde liegt. „Durch dieses Modell lassen sich sogar Zelltyp-spezifische Korrekturen ermitteln, ohne dass sich zwei unterschiedliche Zelltypen künstlich ähnlicher werden“, so Fabian Theis. „Als einer der ersten Deep Learning Methoden im Bereich Einzelzell-Genomik hat der Algorithmus den weiteren Vorteil, gut auf Datensätze mit Millionen von Zellen zu skalieren.“
Wichtige Vergleichbarkeit der Daten
„Mit diesen möglichst korrekten Daten können wir dann in den Austausch mit unseren Kollegen weltweit gehen und unsere Ergebnisse mit ihren vergleichen“, erklärt Fabian Theis. Beispielsweise, wenn die Helmholtz-Forscher ihren Anteil für den Human Cell Atlas beisteuern. Gerade hier ist die Verlässlichkeit und die Vergleichbarkeit der Daten enorm wichtig.