6 min read

Digital Pathology – riesige und sensible Datenmengen speichern

Digital Pathology – riesige und sensible Datenmengen speichern (Ariane Rüdiger)

17.01.2023. von  lic.rer.publ. Ariane Rüdiger

Pathologische Daten sind platzraubend und gleichzeitig sensibel. Mit einer neuen Technologie lassen sie sich kostensparend zwischen Cloud und On-Prem verteilen, ohne Datenschutzpflichten zu verletzen.

Gewebeschnitte werden in der Pathologie traditionell mit dem Mikroskop angefertigt, lassen sich heute aber auch digital mit Scannern generieren – das Ergebnis sind Bilder im Gigabyte-Bereich.
Gewebeschnitte werden in der Pathologie traditionell mit dem Mikroskop angefertigt, lassen sich heute aber auch digital mit Scannern generieren – das Ergebnis sind Bilder im Gigabyte-Bereich.

Gerade medizinische Daten, Proben, Bilder und Befunde gelten als hochsensibel. Gleichzeitig liegen in der Digitalisierung beispielsweise pathologischer Gewebeschnitte erhebliche Chancen, einerseits die Daten breiter zugänglich zu machen und das IT-Budget der Kliniken zu entlasten, andererseits aber dafür zu sorgen, dass sie sicher und geschützt aufbewahrt werden.

Denn heute werden beispielsweise in einer der großen deutschen Kliniken, die aber anonym bleiben möchte, vier speziell temperierte Gebäude für die Aufbewahrung von Gewebeschnitten der Pathologie genutzt – ein schon energetisch sehr teures Unterfangen. Diese Schnitte werden immer wieder für Forschungszwecke benötigt. Allerdings nicht so dringend wie etwa Materialien oder Daten, die man braucht, um noch lebende Menschen zu behandeln.

Scannen mit Mikroskop-Auflösung

Mit Scannern, die eine ähnliche Auflösung wie Mikroskope realisieren können, ist es jetzt möglich, diese Gewebeschnitte ohne oder mit vertretbarem Informationsverlust zu digitalisieren. Dabei werden viele horizontale oder vertikale „Scheiben“ aus einer Gewebeprobe gemacht. Jede dieser Scheiben wird gescannt, und jeder Scan hat ein Volumen im Gigabyte-Bereich.

Jedes dieser digitalen Samples muss zehn Jahre und länger sicher und suchbar aufbewahrt werden. „Das bedeutet Datenvolumen von 10 Exabyte jährlich, was wiederum 99 Prozent der bislang existierenden Storage für Gesundheitsdaten entspricht“, rechnet Nikola Apostolov, Head of Business Development beim bulgarischen Datenmanagement-Spezialisten Tiger Technology, vor, was die Digitalisierung dieses Gewebsbestands bedeutet.

Die Firma mit Zentrale in Sofia, Bulgarien, gibt es seit 2005. Sie beschäftigt inzwischen mehr als 60 Mitarbeiter und bedient über 10.000 Kunden weltweit. Wichtigste Kundengruppe war bisher die Medien- und Entertainmentbranche. Sie braucht Spezialtechnologien für sehr große Bestände umfangreicher Files.

Software-Brücke zu Cloud-Storage

Tiger Technologys derzeitiges Kernprodukt ist die Tiger Bridge, eine Art Datenmanagement-Middleware für die dauerhafte Sicherung von Daten, wobei der Fokus darauf liegt, die Datennutzung für die On-Prem-Clients so einfach wie möglich zu gestalten. Das Unternehmen spricht von „On-Premises First Hybrid Storage“.

Damit setzt sich Tiger Technology mit den durch Kosten-, Sicherheits- und prozeduralen Bedenken verursachten Ängsten vor einer Cloud-Migration der Daten auseinander, auf Grund derer Kliniken ihre Daten nicht oder noch nicht dauerhaft in die Cloud verlagern wollen oder können.

Egress-Kosten oft geringer als gedacht

Tiger Bridge analysiert die vorhandenen Daten auf den Storage-Servern und stellt fest, welche davon dringend vor Ort liegen müssen. Der Rest kann auf günstigere Storage-Schichten, etwa Object Storage, in der Cloud verlagert werden.

Dabei spielen die in der Regel beträchtlichen Egress-Kosten, die entstehen, wenn größere in die Cloud verlagerte Datenmengen wieder vor Ort zurückgeholt werden müssen, weil man sie braucht, eine geringere Rolle als oft befürchtet. „Die Menge dieser Daten wird normalerweise auf zehn bis 15 Prozent des Bestands geschützt. Mit unseren analytischen Algorithmen kommen wir allerdings auf sehr viel geringere Werte“, erklärt Apostolov. „Oft geht es nur um ein halbes Prozent. Das sind dann sehr überschaubare Egress-Kosten bei Cloud-Speicherung, über die es sich kaum zu diskutieren lohnt.“

Daten behalten ihr Format

Doch die Storage-Analyse ist nicht das einzige Plus der Tiger Bridge. Der einheitliche Namespace, der über alle Daten, On-Prem und in der Cloud, gelegt wird, kann sehr groß sein. Gleichzeitig werden die Daten, die mit der Tiering-Funktion in die Cloud wandern, im Originalformat gespeichert. Das unterscheidet die Lösung von vergleichbaren Middlewares, die meist ein proprietäres Format für die Cloud-Speicherung verwenden. Das bedeutet bei der Rückholung Zeitverlust und Rechenaufwand.

Zurück zur Klinik-Applikation: Dort hatte man mit Hilfe geeigneter Philipps-Scanner inzwischen begonnen, die pathologischen Gewebsschnitte zu digitalisieren. Als Speicherziel war eine ausreichend sichere, da in Deutschland befindliche und vertraglich zugesichert gegen den US-amerikanischen Patriot Act geschützte, Cloud geplant. Doch die Scanner konnten die Daten nicht direkt in die Cloud überspielen.

Stand vom 30.10.2020

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://support.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.

Hier trat Tiger Technology in Aktion und baute eine durchgängige Integration zwischen den Philipps-Scannern und der Hyperscaler-Cloud. Sie überträgt in Zukunft Hunderte Terabyte gescannte Daten pro Monat dorthin. Das ergibt pro Jahr ein Petabyte oder gar mehr.

Verknüpfung mit AI-Toolchain

Im weiteren Verlauf des Projekts können nun die in die Cloud überspielten Daten mit einer AI-Toolchain verknüpft werden, um eine Bildanalyse durchzuführen, so dass die Bilder mit entsprechenden Metadaten versehen (getaggt) werden können. Die Tags lassen sich dann auf den Storage-Server zurückspielen, wo sie weiterhin für die Suche zur Verfügung stehen. Die Bilder können vor Ort gelöscht werden, was den Speicherbedarf dort verringert.

Werden pathologische Daten gesucht, können Clients vor Ort auf die Metadaten aller getaggten Bilder zugreifen, so dass am Ende wirklich nur passende Bilder zurückgespielt werden müssen.

Dringend benötigte Daten lassen sich trotz der Cloud-Storage bevorzugt vor Ort speichern. Dafür kann man laut Tiger Technology die vor Ort bereits verwendete Storage als Cache verwenden. Für die Clients am Storage-Server sehen die Daten gleich aus, ob sie nun auf der Cloud oder vor Ort liegen. Die Daten aus der Cloud stehen in ein bis vier Stunden zur Verfügung, was für Forschungszwecke ausreicht.

Perspektive: AI-Qualitätskontrolle

Apostolov: „Das größte Problem bei pathologischen Daten ist allerdings die Qualitätskontrolle. Denn jedes Staubkorn auf der Glasplatte kann bei einer derart hohen Auflösung den Scan ruinieren.“ Diese Aufgabe wird heute teuer und fehleranfällig von Hand erledigt.

Im weiteren Verlauf dieses Projekt könnte die Aufgabe von einer Cloud-AI-Toolchain übernommen werden. Denn diese kann, entsprechend trainiert, mit großer Sicherheit alle Verunreinigungen auf den Scans erkennen und die entsprechenden Scans aussortieren, damit sie noch einmal wiederholt werden.

Kunden sparen, falls sie günstige Archiv-Storage in der Cloud nutzen, bei derartigen Anwendungen nicht nur Storage-Kosten, sondern vor allem die Kosten für den Aufbau eigener AI-Toolchain. Zudem fehlt auf diesem Gebiet oft das Wissen. Tiger Technology gibt für seine Lösung etwa Kosten von einem Drittel der Terabyte-Kosten der entsprechenden Cloud-Storage an.

Die Applikation, die derzeit für das deutsche Klinikum auf- und ausgebaut wird, könnte ähnlich auch in anderen Branchen verwendet werden – überall da, wo komplexe unstrukturierte Daten längerfristig sicher und suchbar archiviert und mit AI-Algorithmen verarbeitet werden müssen.

Aktuelles eBook

NAS oder Cloud-Storage?

eBook NAS oder Cloud-Storage
eBook „NAS oder Cloud-Storage?“

(Bild: Storage-Insider)

Eine der zentralen Fragen für nahezu alle Unternehmen lautet: Wohin mit den großen Datenmengen? Unser neues eBook vergleicht Vor- und Nachteile von NAS-Geräten und Cloud-Speicherlösungen. Diese unterscheiden sich in vielerlei Hinsicht, sei es bei der Skalierbarkeit, Daten- und Zugriffssicherheit und Compliance – doch der Nutzer sollte sich stets die Frage stellen: „Für welche Anwendung benötige ich diesen oder jenen Speichertyp?“

Die Themen im Überblick:

  • Wohin mit der ausufernden Datenflut?
  • Vor-Ort-Speicher in einem verteilten Netzwerk
  • Cloud-Speicher in verteilten Rechenzentren

Dieser Artikel erschien ursprünglich bei unserem Schwesterportal Storage-Insider.

(ID:49017163)