Weltweite Bakterienanalyse mit Big Data

Big Data im Einsatz für weltweite Bakterienanalyse. (Foto: garrifrotto - Fotolia.com).

Einen schnelleren Überblick bei der Analyse von Bakterien verschafft jetzt ein neues Tool. Es erlaubt das systematische Durchsuchen großer Datenbanken. Langfristig davon profitieren könnten beispielsweise Krankenhäuser bei der Analyse von pathogenen Erregern.

Wenn biologische Proben genommen werden von Haut, Darm oder auch aus dem Boden, dann werden die daraus gewonnenen Daten in einem Archiv abgelegt, damit Forscher weltweit darauf zugreifen können. Diese Methode ist allerdings mittlerweile an ihre Grenzen gestoßen. Der Grund: die immens großen Datenmengen lassen sich kaum noch bändigen. Abhilfe schaffen soll jetzt ein bioinformatisches Tool, das Wissenschaftler an der Technischen Universität München (TUM) entwickelt haben. Mit dessen Hilfe lassen sich sämtliche Bakteriensequenzen in diesen Datenbanken in kurzer Zeit nach Ähnlichkeiten oder Vorkommen durchsuchen.

Riesige Datensätze

Zunächst war etwa 30 Jahre lang fürs Entziffern des DNA-Codes von Mikroben die 1975 entwickelte Sanger-Sequenzierung vorherrschend. Mit dieser Methode konnte die Abfolge der Bausteine auf der DNA aufgeklärt werden – das läutete die Ära der Genomforschung ein. Inzwischen haben die sogenannten Next Generation Sequencing-Technologien (NGS) zu einer weiteren Revolution geführt: Die aktuellen Geräte können mit geringem personellem Aufwand innerhalb von 24 Stunden so viele Daten erzeugen wie zuvor hundert Durchläufe der ersten DNA-Sequenzierungsmethode.

Die Sequenzanalyse bakterieller 16S-rRNA-Gene ist heutzutage die häufigste unter den Identifikationsmethoden von Bakterien. Die 16S-rRNA-Gene gelten als ideale molekulare Marker für die Rekonstruktion von Verwandtschaftsgraden unter Organismen, weil an ihnen die gesamte Entwicklungsgeschichte eines Organismus abgelesen werden kann. Die Abkürzung rRNA steht für ribosomale Ribonukleinsäure.

Im Sequenz Read Archive (SRA), einer öffentlichen bioinformatischen Datenbank fürs Archivieren von Sequenzen, gibt es heute 100.000 solcher 16S-rRNA–Sequenzen als Datensätze. Denn die neuen technischen Verfahren der DNA-Sequenzierung haben den Umfang und die Komplexität genomischer Forschungsdaten in den vergangenen Jahren explosionsartig anwachsen lassen. Im SRA schlummern Datensätze, die in ihrer Gesamtheit bisher nicht auswertbar sind.

Neue Vergleichsmöglichkeiten

„Über all die Jahre wurden aber nicht nur Sequenzen von humanen Umgebungen wie Darm oder Haut genommen, sondern ebenso vom Boden oder aus dem Ozean“, sagt Dr. Thomas Clavel vom Zentralinstitut für Ernährungs- und Lebensmittelforschung (ZIEL) an der TU München. „Mit dem neuen Tool lassen sich die Datenbanken in kurzer Zeit durchsuchen, um Verwandtschaften unter Bakterien zu erkennen. „Ein Wissenschaftler kann damit binnen einiger Stunden eine Abfrage durchführen, um zu überprüfen, in welcher Art von Proben wie etwa Boden- oder Darmproben das ihn interessierende Bakterium noch zu finden ist – beispielweise ein pathogener Erreger aus dem Krankenhaus. Diese Querverbindungen auszulesen war bisher nicht möglich“, so Clavel. Die neue Plattform heißt Integrated Microbial Next Generation Sequencing (IMNGS) und ist über www.imngs.org allgemein zugänglich.

Hoffnungsträger Krankenhäuser

Bald könnten bioinformatische  Sequenzierungen aus der täglichen klinischen Routinediagnostik nicht mehr wegzudenken sein. Zuvor gibt es aber noch viel zu tun: „Das wird die große Herausforderung sein“, sagt Clavel und ergänzt: „Die Qualität der Daten ist noch nicht gut genug, die Beschreibungen der einzelnen Proben in der Datenbank sind unvollständig und somit die Vergleichsmöglichkeiten per IMNGS derzeit noch eingeschränkt.“  Wissenschaftler Clavel kann sich aber vorstellen, dass eine Kooperation mit Kliniken ein Beschleuniger sein könnte, sofern die Datenbank akribischer befüllt werde. „Dann können wir auf Basis sehr gut gepflegter Datenbanken mit innovativen Tools wie IMNGS chronische Erkrankungen schneller diagnostizieren“, sagt Clavel.