Die Genomforschung und die Präzisionsmedizin haben sich in den letzten zehn Jahren rasant weiterentwickelt. Daraus resultiert nach Einschätzung des IT-Unternehmens Pure Storage ein enormes Veränderungspotenzial, wie die Medizin einige der komplexesten Krankheiten verstehen, behandeln und – in Zukunft – heilen kann.
Forscher in vielen Bereichen der Wissenschaften wissen, dass ihre Dateninfrastrukturen, einschließlich der Speicherressourcen, Probleme aufweisen. Vielerorts können sie nicht mehr mit den steigenden Anforderungen Schritt halten, die durch das exponentielle Datenwachstum sowie den Ansprüchen von Algorithmen und Pipelines der nächsten Generation bedingt sind. Hinzu kommt, dass die meisten Institutionen nicht in der Lage sind, sich schnell auf neue Technologien wie maschinelles Lernen (ML) und künstliche Intelligenz (KI) zuzubewegen, die noch größere Grenzen auf dem Weg zur Präzisionsmedizin öffnen können.
„Da sich Daten als unbestrittener Treiber für die Forschung des 21. Jahrhunderts herausstellen, wird klar, dass es kaum möglich ist, die Dateninfrastruktur der nächsten Generation auf den Technologien des letzten Jahrhunderts aufzubauen. Dies sind schließlich Technologien, die nie dazu gedacht waren, die heutigen extremen Datenmengen und Arbeitslasten zu bewältigen“, erläutert Güner Aksoy, Regional Sales Director Central Europe bei Pure Storage.
Viele Daten – und viel Potenzial
Bis 2020 wird bei der derzeitigen Beschleunigung des Datenwachstums die Genomsequenzierung und -analyse ein Exabyte an gespeicherten Daten pro Jahr produzieren. Bis 2025 wird der Datenbedarf auf ein Zettabyte, also 1.021 Bytes, pro Sequenz und Jahr steigen.
Durch die gemeinsamen Forschungsanstrengungen verschiedener Universitäten und privater Industriepartner sowie anderer Experten für Gesundheitsdaten waren 2017 bis zu 500.000 menschliche Genomsequenzen bekannt. Experten gehen davon aus, dass sich diese Zahl alle zwölf Monate verdoppelt. Einzelne Institutionen haben sich zum Ziel gesetzt, bis zu zwei Millionen einzigartige Genomsequenzen zu erfassen. Für die Sequenzierung eines einzelnen Genoms werden fünf Terabyte Rohdatenspeicher benötigt. Moderne Datenplattformen müssen daher Exabyte-Skalierbarkeit und Datenreduktion unterstützen, bei vertretbaren Gesamtbetriebskosten. Nur so können forschende Institutionen den Wert der von ihnen erzeugten, verarbeiteten und aufbewahrten Daten auch nutzbar machen.
Datenverarbeitung beschleunigen
„Die Zahl der Big-Data-Plattformen und -Speichersysteme hat in den letzten Jahren deutlich zugenommen. Forschungseinrichtungen profitieren von diesem Potenzial durch mehr Rechenleistung“, sagt Güner Aksoy. „Viele dieser Umgebungen müssen aber nun noch agiler, leistungsfähiger und kostengünstiger werden, wobei sie zudem leichter zu verwalten sein sollten.“
Einer der Faktoren, der zu diesem Bedarf beigetragen hat, ist die bisherige Abhängigkeit von veralteten Technologien, insbesondere wenn es um die Speicherung geht. Herkömmliche Speichertechnologien – basierend auf mechanischen Laufwerken, die in den 1950er Jahren entwickelt wurden – sind nicht für diese Workloads ausgelegt und stellen einen zunehmenden Engpass für die Forschung dar. Sie sind nicht gerüstet, die neuen Grenzen zu erreichen, die durch KI, Deep Learning (DL) und Grafikprozessoren (GPUs) vorgegeben sind. Ebenso mangelt es an der Fähigkeit, sehr große Datensätze mit hoher Geschwindigkeit zu speichern und zu verarbeiten, was grundlegend für KI-Szenarien ist.
Deep Learning, eine Form des maschinellen Lernens, die die Art und Weise nachahmt, wie Informationen im Nervensystem verarbeitet werden, und GPUs, die zum schnellen Rendern von Bildern, Animationen und Videos verwendet werden, arbeiten massiv parallel. Ältere Speichertechnologien wurden laut Pure Storage jedoch in einer Zeit entwickelt, in der die Erwartungen an Geschwindigkeit, Kapazität und Dichte völlig anders waren.
Die Rechen- und Netzwerkoperationen haben die Leistungsvorteile, resultierend aus der halbjährlichen Verdoppelung von Transistoren, die auf einen Chip passen, kontinuierlich ausgeschöpft. Jetzt ist es an der Zeit, dass Rechenzentren das gleiche Potenzial in ihren Speichersystemen nutzen und Datenplattformen einsetzen, die von Grund auf für die moderne Ära der intelligenten Analytik völlig neu konzipiert wurden.
Mehrere Schlüsselmerkmale definieren die datenzentrische Architektur und die Speicheranforderungen für die nächste Generation der Genomanalytik:
- Siliziumoptimierter statt plattenoptimierter Speicher, um Größenordnungen von Gigabytes/Sekunde an Bandbreite pro Anwendung zu unterstützen. Die Leistung der SSD-Technologie übertrifft die der Festplattenspeicher um ein Vielfaches.
- Eine hochparallele Anwendungsarchitektur, die Tausende bis Zehntausende von verknüpften Anwendungen unterstützt, die Petabytes an Daten gemeinsam nutzen, im Gegensatz zu Dutzenden bis Hunderten von Anwendungen, die nur einige Terabytes an Daten für jede Anwendung verbrauchen.
- Elastische Skalierung bis hin zu Petabytes, die es Unternehmen ermöglicht, bei kontinuierlicher Vorwärtskompatibilität nur für die Ressourcen zu zahlen, die sie tatsächlich benötigen, während sie weiterwachsen.
- Vollständige Automatisierung zur Minimierung der Verwaltungsressourcen, die für die Wartung der Plattform erforderlich sind.
- Fähigkeit, mehrere Cloud-Umgebungen von zentralen Rechenzentren bis hin zu Edge-Rechenzentren sowie Multi-Cloud-Infrastruktur-as-a-Service (IaaS) und Software-as-a-Service (SaaS) zu unterstützen.
- Eine offene Entwicklungsplattform statt einem geschlossenen Ökosystem, das auf komplexen, proprietären Speicherlösungen aufbaut.
- Ein abonnementbasiertes Abrechnungsmodell, das laufende Innovationen unterstützt. Damit entfällt der endlose Wettlauf um die Erweiterung des Speichers und der Bedarf für die Erneuerung alle drei bis fünf Jahre, um den wachsenden Anforderungen gerecht zu werden.
Ohne Frage verändert die Genom- und Präzisionsmedizin heute das Leben. Der Wunsch der Forschung und Medizin ist es, den Fortschritt und die positiven Auswirkungen, die diese Ansätze auf die medizinischen Ergebnisse für Patienten haben, zu beschleunigen.
Fazit
„Die Fähigkeit, effektiv und schnell Daten zu sammeln, zu verwalten, zu analysieren und Einblicke aus riesigen Datenbeständen zu gewinnen, ist von grundlegender Bedeutung für diese Aufgabe“, fasst Güner Aksoy abschließend zusammen. „Es ist an der Zeit, die Reise mit einer datenzentrischen Infrastruktur voranzutreiben, die für die Ära der modernen Genomanalytik entwickelt wurde.“