2 min read

Healthcare IT & Security: Leukämie in der Cloud bekämpfen

Healthcare IT & Security: Leukämie in der Cloud bekämpfen unknown

16. Januar 2023, 16:07 Uhr | Von Jens Dommel, AWS

Tracking
Next Generation Sequencing Leukämie Blutkrebs AWS Münchner Leukämielabor Clou Machine Learning
Bild 1: Cloud-Technologie und Machine Learning bergen großes Potenzial für medizinische Analysen, das zeigt etwa die Kooperation von MLL und AWS.

Blutkrebs, insbesondere von Leukämie mit ihren 31 Subtypen, ist schwierig zu behandeln. Um das Genom in 48 Stunden auszulesen, nutzen Forschende u.a. Next-Generation Sequencing. Die Methode ist kompliziert und ressourcenintensiv - Das Münchner Leukämielabor setzt auf Machine Learning in der Cloud.

Next Generation Sequencing (NGS) ist aufgrund der geringen Zahl an Experten auf diesem Gebiet noch keine Routinemethode und erfordert eine komplexe Ausstattung im Labor und Molekularbiologen, Hämatologen oder Pathologen mit einem hohen Grad an Fachwissen. Einige Forschungsprojekte haben sich daher zum Ziel gesetzt, die Prozesse effizienter und schneller zu machen. So kombiniert das Münchner Leukämielabor (MLL) menschliches Wissen mit maschinellem Lernen, um die Zeit bis zur Diagnose zu verkürzen und individuelle Therapien rascher zu ermög­lichen. Das erhöht die Heilungschancen der Patienten signifikant.

Beschleunigte Genomsequenzierung

Die unbegrenzte Datenspeicherung, Rechenleistung und Parallelisierung der vom MLL verwendeten Cloud-Lösungen helfen dabei, mehr Leukämie-Fälle als bisher parallel zu analysieren, zu diagnostizieren und schneller eine passende Behandlung zu definieren. Bei der Rechenleistung stellt der Einsatz von NGS vor allem zwei Anforderungen an große Labore: Erstens müssen sie in der Lage sein, bis zu 500 Proben pro Tag zu verarbeiten. Zweitens ist eine kurze Laufzeit, Turnaround Time (TAT), erforderlich, um die Daten der unterschiedlichen Patienten schnell als Befund liefern zu können.
Das MLL nutzt die Cloud von Amazon Web Services (AWS), um diese Anforderungen besser zu erfüllen und gleichzeitig den Durchsatz für den gesamten Prozess zu beschleunigen – und damit auch der Genomsequenzierung. Während es früher 15 Minuten dauerte, Proben eines einzigen Patienten zu berechnen, lassen sich heute in der gleichen Zeit mehr als 100 Proben parallel bearbeiten. Dadurch fallen keine Wartezeiten durch begrenzte Analyse­­ressourcen an – ein für die Patienten wichtiger Zeitgewinn.

Next Generation Sequencing Leukämie Blutkrebs AWS Münchner Leukämielabor Clou Machine Learning
Bild 2: Mithilfe der AWS-Cloud kann MLL mehr Leukämie-Fälle als bisher parallel analysieren und damit schneller eine geeignete Behandlung definieren.

Vorhersage der Subtypen

Um die Leukämie-Subtypen bei Patienten nach der Genomsequenzierung korrekt zu diagnostizieren, trainierten die Data Scientists einen Multiclass Classifier und nutzten für den ersten Classifier als Algorithmus LightGBM (Light Gradient Boosting Machine) – ein Open-Source-Framework zur verteilten Gradientenverstärkung für maschinelles Lernen (ML). Mithilfe von Amazon SageMaker, einer Cloud-basierten ML-Plattform, ließen sich die Hyperparameter des Modells automatisch abstimmen. Durch die in SageMaker eingebaute Bayes‘sche Optimierung der Parameter gelang dem Team die optimale Konfiguration des Algorithmus ohne manuellen Aufwand. Die Ergebnisse lieferten präzisere Prognosen für bestimmte Subtypen: beispielsweise eine Genauigkeit von 97 Prozent bei der chronischen myeloischen Leukämie (CML).

Allerdings schnitt das Verfahren bei Entitäten schlechter ab, die auch schon in der Routinediagnostik eine große Ähnlichkeit mit anderen Subtypen aufwiesen. Ebenso fielen die Resultate weniger gut aus, wenn eine zusätzliche Laboranalyse erforderlich war. Das Team probierte in der Folge verschiedene Methoden zum Beheben dieser Klassifizierungsprobleme, konnte aber keine Verbesserung feststellen. Dies ist wahrscheinlich darauf zurückzuführen, dass diese Leukämietypen nur über eine geringe Anzahl von Patienten verteilt waren. Um auch mit kleinen und unausgewogenen Proben umgehen zu können, generierten die Forscher daher synthetische Daten zum Ausgleich.