Die Festplatte konnte dem Verschleiss nicht trotzen. Wurden die Daten auf ihr zuvor gerettet? | Foto: Carl Ander / Connected Archives

Im Frühling 2025 verlor die National Oceanic and Atmospheric Administration (Noaa) gut 1000 Mitarbeitende oder rund 10 Prozent des Personals. Für das Jahr 2026 will die Regierung Trump das Budget um 25 Prozent kürzen. Sie droht, Verträge für das Hosting von Daten zu künden. Diese Ankündigung führte bei Umweltforschenden zu einer breiten Welle der Verunsicherung, mehr noch als während der ersten Präsidentschaft von Donald Trump. Was wäre, wenn diese wertvollen Ressourcen verloren gingen? Viele Institutionen und Einzelpersonen wurden schnell aktiv und fertigten Kopien des gesammelten Wissens an. Das im Februar 2025 gestartete Data Rescue Project koordiniert diese Bemühungen und listet gefährdete US-amerikanische Websites und Datenbanken auf.

Gefährlicher Zahn der Zeit

Die Massnahmen der US-Regierung gegen die Wissenschaft haben diverse Rettungsaktionen auf den Plan gerufen. Doch auch andere, weniger medienwirksame Gefahren bedrohen den Fortbestand von Forschungsdaten, erinnert Jürgen Enge, IT-Verantwortlicher der Universitätsbibliothek Basel. Da ist zunächst der Zahn der Zeit, der an den physischen Trägern digitaler Inhalte nagt. Zum Beispiel können winzige Bereiche einer Festplatte, auf der die Datenbits gespeichert sind, die Magnetisierung und damit die abgelegten Informationen verlieren.

Digitale Datenträger können ausserdem durch Feuer oder eine Überschwemmung beschädigt werden oder nach einem Erdbeben in Trümmern enden. Zur Risikoprävention hinterlegt die Basler Bibliothek deswegen Kopien der Datenspeicher in Institutionen, die sich an anderen Orten befinden, etwa bei der Schweizer Stiftung Switch. Besser nicht alle Eier in denselben Korb legen.

«Wertvolle Inhalte werden mehrfach auf verschiedene hochwertige Speichermedien kopiert.»Jürgen Enge

Solche Archive zu pflegen und sicher zu verwalten, ist heute eine zentrale Aufgabe von Universitätsbibliotheken. Sie beherbergen nicht mehr nur Bücher und Fachzeitschriften, sondern unterstützen die Forschenden bei der direkten Speicherung und Sicherung ihrer Daten. «Unser System gibt automatisch Anzahl und Art der Sicherungskopien an», erklärt Enge. «Wertvolle Inhalte werden mehrfach auf verschiedene hochwertige Speichermedien kopiert. Informationen, die sich reproduzieren lassen, etwa ein digitalisiertes Buch, werden seltener gesichert und die Speicherung ist günstiger.» Das System findet den optimalen Kompromiss zwischen Sicherheit und Kosten.

Beweise für Untaten sichern

Seit 2015 koordiniert die Schweizerische Friedensstiftung Swisspeace die Plattform «Safe Havens for Archives at Risk». Die internationale Initiative sichert Archive, die Verletzungen der Menschenrechte oder des humanitären Rechts dokumentieren. Diese können zum Beispiel durch Naturkatastrophen, bewaffnete Konflikte oder politische Einmischung bedroht sein.

Eine weitere Bedrohung ist, dass Dateiformate und Speichertechniken zwangsläufig veralten. Das kennt man etwa von der Musik, wo zuerst Vinylplatten auf den Markt kamen, dann Kassetten und CDs, inzwischen dominieren MP3-Dateien. Auch das Format der Daten von Hightech-Mikroskopen ist sehr speziell, sie lesen zu können erfordert häufig besondere Programme, deren Updates irgendwann ausbleiben könnten. Daher müssen die archivierten Daten regelmässig auf offene, modernere Formate übertragen werden – laut Jürgen Enge etwa alle fünf Jahre.

Instandhalten ist nicht sexy

Die grösste Gefahr sei allerdings wohl die fehlende Finanzierung, meint Sabina Leonelli von der Technischen Universität München, die sich mit Open Science und den Auswirkungen der Digitalisierung auf die wissenschaftliche Praxis befasst: «Es gibt kein tragfähiges Geschäftsmodell für die Infrastruktur von Forschungsdaten.

Die durch die Forschung generierte Datenmenge steigt aber exponentiell an, zum Beispiel durch die immer günstigere Gensequenzierung in der Biomedizin oder durch satellitengestützte Messungen in der Umweltforschung.» Es fehle eindeutig an langfristigen Investitionen, beklagt die Wissenschaftsphilosophin. Die Forschung selbst werde eher finanziert als die Instrumente zur sicheren Aufbewahrung der Ergebnisse. «Das ist ähnlich wie bei einer Regierung, die gerne den Bau einer Brücke finanziert, aber weniger motiviert ist, zwei Jahrzehnte später für die Instandhaltung aufzukommen, die keinen sichtbaren Mehrwert erzeugt.» Dieses Phänomen sei in der Wissenschaft und mit der Digitalisierung noch ausgeprägter.

«Der Einsatz von KI in der Forschung erfordert selbst eine sehr gut gepflegte Infrastruktur.»Sabina Leonelli

Manche Entscheidungsträger hofften, dass KI alles lösen wird, einschliesslich der Kuratierung von Datenbanken, fährt die Forscherin fort. «Aber das ist nicht das, was wir vor Ort feststellen. Im Gegenteil: Der Einsatz von KI in der Forschung erfordert selbst eine sehr gut gepflegte Infrastruktur.» Leonelli bedauert, dass die Unterstützung für die Datenpflege eingestellt wird, sobald ein Projekt zu Ende geht. Die Finanzierung des Hostings wird danach fachspezifischen Bibliotheken oder Datenarchiven überlassen. Und das, obwohl sich der vormals exponentielle Rückgang der Speicherkosten deutlich abflacht, wie Enge erinnert: «Bisher hat der Kostenrückgang mit den wachsenden Datenmengen Schritt gehalten, aber das ist nicht mehr der Fall. Wenn nicht bald neue, günstigere Technologien verfügbar sind, könnten die Kosten explodieren.»

Ein weiterer Aspekt, der zu Daten- und damit Wissensverlust führt: Doktorierende und Postdoktorierende verlassen ein Team oft kurz nach Abschluss des Projekts und nehmen wertvolle Kenntnisse zu den Daten und ihrer Anwendung mit. Frank Oliver Glöckner, Professor an der Universität Bremen, ist nun besorgt, dass durch die Politik der US-Regierung massiert solche wichtigen Kompetenzen verloren gehen. Der Erdsystemwissenschaftler leitet das Projekt Pangaea, eine Plattform für Umweltforschungsdaten, das sich nun an der Sicherung der Inhalte beteiligt, die an der Noaa gehostet werden.

«Viele dieser Fachleute der Noaa haben in letzter Zeit ihre Arbeit verloren oder gekündigt, und ich denke, dass die meisten nicht zurückkehren werden.»Frank Oliver Glöckner

«Die Arbeit der Noaa-Forschenden ist einzigartig», betont er. «Sie führen die sehr heterogenen Daten aus Messungen zusammen, die von internationalen Teams mit unterschiedlichen Instrumenten durchgeführt wurden. Aber viele dieser Fachleute haben in letzter Zeit ihre Arbeit verloren oder gekündigt, und ich denke, dass die meisten nicht zurückkehren werden. Die Umweltwissenschaften werden unter diesem Verlust leiden, andere Forschende werden sich diese Kompetenzen erst aneignen müssen.»

«Einfach die Inhalte in eine Datei zu kopieren ist nicht sehr kompliziert, aber auch nicht sehr hilfreich», meint er. «Denn man muss darauf dynamisch Zugriff haben und sich darin zurechtfinden.» Sein Team führt aktuell die anspruchsvolle Kuratierung der Inhalte der Noaa und deutscher Institutionen durch: Metadaten – die beispielsweise die Art der Messungen beschreiben – sollen konsistent gemacht und in eine strukturierte Datenbank integriert werden, die es ermöglicht, verschiedene Arten von Informationen zu verknüpfen.

Damit nichts vergessen geht

Auch das Schweizer Projekt Renku will über die blosse Datenpflege hinausgehen. Die Plattform soll es Forschenden ermöglichen, ihre Daten mit der für die Analyse verwendeten Software sowie mit der passenden Rechenumgebung zu verbinden.

«Wenn man Software installieren muss, bevor man Daten nutzen kann, stellt dies für viele Forschende eine Hürde dar», betont Rok Roskar, Entwickler von Renku am Swiss Data Science Center, einer Initiative der ETH, der EPFL und des PSI. Die Plattform stellt daher ein Paket mit Algorithmen zur Verfügung, mit denen sich die publizierten Ergebnisse reproduzieren und validieren lassen. Sie unterstützt auch die Integration dieser Ressourcen in ein neues Forschungsprojekt in einer anderen Disziplin.

«Wenn man Software installieren muss, bevor man Daten nutzen kann, stellt dies für viele Forschende eine Hürde dar.»Rok Roskar

Ziel ist es, die Wiederverwendung von Ergebnissen zu fördern und zu erleichtern – eine der zentralen Absichten der Open-Data-Bewegung. Damit soll vermieden werden, dass in Archiven abgelegte Daten dort letztendlich in Vergessenheit geraten. «Die Plattform stellt eine Schnittstelle zwischen den Servern der Institutionen her, die die Daten beherbergen», fährt der Ingenieur fort: «Das ist der etwas politische Aspekt meiner Arbeit. Für die Zukunft ist es entscheidend, dass sich alle Partner langfristig engagieren.»