Die Archivierung von digitalen Daten, insbesondere deren
Langzeitarchivierung ist ein bisher noch ungelöstes Problem; zum so
genannten digitalen Vergessen gibt es bisher nur wenige
Erfahrungswerte, und die bisherigen Erkenntnisse sind ernüchternd und
durchweg beunruhigend.
So enttarnen wissenschaftliche Forschungsergebnisse das Versprechen der
unbegrenzten und verlustfreien Kopierbarkeit digitaler Daten als Mythos,
und proprietäre Rohdatenformate
erweisen sich bereits jetzt als Zeitbomben, die nicht weniger
zerstörungsanfällig sind als die hochentflammbaren Trägermaterialien aus
der
Frühzeit der Fotografie und des
Films.
Die Problematik bei der Archivierung digitaler Daten ergibt sich aus dem
charakteristischen Merkmal der Digitalisierung: Digitale Daten sind für
den Menschen weder wahrnehm- noch lesbar. Es werden immer mehrere
technische Zwischenstufen benötigt, um digitale Daten lesbar
aufzubereiten: Speichermedien, Lesegeräte, Sichtgeräte wie Monitore oder
Displays etc. Den Inhalt eines Datenträgers kann man nicht so einfach
sichten wie ein
Diapositiv, das man mal gegen das Fenster halten kann.
Grundsätzliche Problemfelder bei der Archivierung digitaler Daten sind
Dateiformate.
Das Format, in dem die Film- oder Bilddateien auf dem jeweiligen
Archiv-Datenträger gespeichert werden, muss dauerhaft lesbar sein.
Offene Standards sind hier grundsätzlich proprietären Formaten
vorzuziehen; das schließt derzeit leider auch die meisten
Rohdatenformate aus.
Datenträger und
Datenträger-Formate.
Sowohl die Datenträger (wie CD-R/-RW, DAT, DLT etc.) als auch die
Formate der Datenträger (wie ISO9660, Joliet, UDF, Tar etc.) müssen
dauerhaft lesbar sein; auch hier sind grundsätzlich offene Standards
jeglichen proprietären Formaten vorzuziehen. Können proprietäre
Formate (wie Backup von
Windows NT)
nicht vermieden werden, ist zumindest auf die größtmögliche
Verbreitung zu achten: Hersteller von kommerziellen
Backup-Programmen verschwinden regelmäßig vom Markt und die
Aufzeichungsformate werden häufig nicht von anderen Produkten
unterstützt.
Lesegeräte.
Auch Lesegeräte müssen dauerhaft verfügbar sein; werden ältere
Technologien von aktuellen Versionen der Backup-Programme nicht mehr
unterstützt, sind die Daten verloren; dasselbe gilt für die
Lesegeräte selbst, die irgendwann nicht mehr produziert und nicht
mehr repariert werden können.
Administrative und desktiptive
Metadaten.
Sowohl das Archiv selbst als auch die Archivinhalte müssen durch
Metadaten erschlossen und dokumentiert werden. Fehlen Odnungs- oder
Objektdaten, wird die Archivbenutzung erschwert oder sogar
unmöglich.
Störungen in jedem dieser Bereiche können digitale Daten
unbenutzbar machen:
- Kann ein proprietäres Dateiformat nicht mehr gelesen werden,
sind alle Dateien verloren, die in diesem Format gespeichert wurden;
- kann ein Datenträger oder Datenträger-Format nicht mehr gelesen
werden, sind alle auf diesem Datenträger oder in diesem
Datenträger-Format gespeicherten Daten verloren;
- gibt es keine funktionsfähigen Lesegeräte mehr oder können
Altgeräte mangels Ersatzteilen nicht mehr repariert werden, sind
auch alle entsprechenden Datenträger und mit ihnen alle darauf
gespeicherten Daten verloren;
- sind Datenträger nicht eindeutig beschriftet oder sinnvoll
sortiert, und wurden die Bilddateien nicht mit sinnvollen Metadaten
erschlossen, sind die digitalen Daten – zumindest in größeren Archiven –
unauffindbar und damit faktisch verloren, zumindest aber nicht mehr
benutzbar.
Diese Problemfelder gelten übrigens prinzipiell für alle digitalen Daten, nicht nur für
Digitalfotos, sondern ebenso für den
digitalen Film oder digital
archivierte Musik.
Der intrinsische Zerfall analog gespeicherter Bilder – also des
Filmträgers oder des Fotopapiers – erfolgt im Verlauf von Jahrzehnten;
Kodachrome-Dias beispielsweise verändern sich innerhalb eines Jahrzehnts
nahezu überhaupt nicht. Selbst nach einem halben Jahrhundert sind solche
Kodachrome-Bilder bei vernünftiger Lagerung noch gut benutzbar.
Digitale Produktgenerationen »altern« dagegen in Jahren oder sogar
Monaten; nicht nur die Hardwarepreise verfallen, sondern auch die
De-facto-Standards von gestern: Jaz-Drives von Iomega sind ebenso aus
der Mode gekommen wie QIC-Streamerbänder. Disketten lassen sich
zuverlässig allenfalls einige Jahre lesen, und viele selbstgebrannte
CD-R-Medien sind deutlich weniger als zehn Jahr lesbar. Die einzige
Abhilfe besteht also im permanenten Umkopieren digitaler Daten; das ist
zeit- und kostenintensiv, fehleranfällig und kann ebenso zu
Generationsverlusten führen wie bei analogen Daten, zumindest bei
bestimmten Technologien wie der HDCAM.
Verlustfrei möglich ist dagegen das Umkopieren digitaler Daten
zwischen offenen oder zumindest gut dokumentierten Standards, also
beispielsweise von einem FAT32- oder NTFS-Datenträger auf ISO9660/Joliet
und umgekehrt. Verluste treten allerdings auch wieder auf bei der
Konvertierung von komprimierten Dateiformaten und im Falle so genannter
»kippender Bits«; nach aktuellen Forschungsergebnissen sind alle
komprimierenden Dateiformate hochgradig anfällig für solche
Speicher- und Kopierfehler, die sich systematisch allenfalls durch
Checksummen aufspüren lassen.
Besonders unsicher sind auch hier wieder Dateien, die in einem
Rohdatenformat gespeichert
werden: Diese bisher fast ausschließlich proprietären Formate sind weder
offen dokumentiert noch überhaupt legal dekodierbar, da beispielsweise
Nikon sogar Teile der Daten verschlüsselt; ein Entschlüsseln dieser
Daten ist – auch wenn es sich um Selbsthilfe zur Rettung eigener
Bilddaten handelt – illegal, da es sich um einen Verstoß gegen geltende
Copyright-Gesetzgebung handelt. Nicht zuletzt aus diesem Grund gibt es
derzeit auch keine Reparaturprogramme für beschädigte RAW-Dateien.
Folgende Richtlinien sind also insbesondere bei der Langzeitarchivierung digitaler Daten
zu beachten:
- Proprietäre Standards sind zu meiden, offene Standards sind zu
bevorzugen. Müssen proprietäre Dateiformate oder Datenträgerformate
genutzt werden, ist auf möglichst weite Verbreitung zu achten.
- Datensicherheit wird durch möglichst hohe Redundanz
gewährleistet, die Daten sollten also an möglichst vielen
geografisch möglichst weit verteilten Standorten archiviert werden.
- Die Datendateien müssen regelmäßig auf moderne Datenträger
umkopiert werden und somit zumindest in zwei Generationen separat
gepflegt werden.
- Die archivierten Medien müssen entsprechend den technischen
Empfehlungen aufbewahr werden, also beispielsweise bei konstanter
Temperatur, geringer Luftfeuchtigkeit, ohne direkte
Sonneneinstrahlung (insbesondere bei optischen Datenträgern) und
ohne Beeinflussung durch Magnetfelder (insbesondere bei
elektromagentischen Datenträgern).
Interessanterweise scheinen sich ausgerechnet Online-Datenspeicher
wie massive RAID-Arrays tendenziell besser zur Langzeitarchivierung zu
eignen als viele Offline-Datenspeicher: Das fehlerträchtige und
kostenintensive manuelle Umkopieren entfällt hier, da fehlerhafte
Datenträger von der Steuerlogik des Arrays erkannt und im laufenden
Betrieb ausgetauscht werden können. Ein Indiz für dieses Phänomen ist
die zuverlässige Verfügbarkeit von fünfzehn Jahre alten Daten auf Web-
und Netzwerk-Servern, deren vermeintliche »Sicherheitskopien« auf
Diskette und CD-R mittlerweile schon nicht mehr lesbar sind.