Drei entscheidende Faktoren bei der Langzeitarchivierung

Langzeitarchive lassen sich mit Festplatten-, Band- oder Cloud-Lösungen realisieren. Das Problem mit der Datenintegrität in den Archiven bleibt aber.

Der vorangegangene Tipp dieser Serie hat zwei Problemen bei der Langzeitarchivierung erläutert: Welche Daten müssen archiviert werden und wie lassen sich die Dateien effizient archivieren.

In diesem Tipp setzen wir uns mit drei weiteren Punkten auseinander:

  • Wie werden die Daten gespeichert?
  • Wie hält man die Datenintegrität aufrecht?
  • Wie lassen sich Technologieprobleme lösen?

Die Entscheidung, in welcher Form Sie Daten speichern, sollten Sie in zwei Teilen behandeln. Ein Teil beschäftigt sich mit den verwendeten Softwarecontainern oder -Wrapper. Dies spielt eine entscheidende Rolle bei der Eindämmung potentieller Probleme. Dazu gehört zum Beispiel, wie sich in Zukunft archivierte Daten lesen lassen, da die verwendete Software eventuell nicht mehr existiert. In diesem Fall haben Sie keinen Zugriff mehr auf die Daten. Im ersten Tipp zur Langzeitarchivierung habe ich bereits die Option beschrieben, handelsübliche Softwarecontainer zu verwenden. Dazu gehört Adobes Portable Document Format (PDF). Weiterhin sollten Sie den Quell-Code als Absicherung gegen künftige Unlesbarkeit behalten. Alternativ können Sie auch XML oder standardisierte Objekt-Wrapper einsetzen.

Bei diesem Schritt ist Vorsicht angeraten, um zu vermeiden, dass Sie die Daten wieder aus dem Archiv holen müssen, um sie in eine neue Versionen zu konvertieren. Die Archivare eines Museums hatten dieses Problem vor einigen Jahren, nachdem Sie ein frühes PDF-Format von Adobe für ihre Archiv-Container gewählt haben. Zu ihrer Verteidigung muss man sagen, dass Adobe den Container 30 Mal im ersten Jahr verändert hat.

Der zweite Teil der Frage, wie man Daten speichert, hängt mit der Datenträger-Technologie zusammen. Heute besteht die Wahl zwischen Bändern, Festplatten oder der Cloud, die in der Regel ein Band- oder Festplatten-basiertes Archiv ist und Remote-Zugriff erlaubt. Laut einer Umfrage der Enterprise Strategy Group sind Festplatten-Arrays mittlerweile die bevorzugte Archiv-Option. Allerdings bieten auch Cloud-Anbieter Archive als Service an.

Ein Festplattenarchiv hat den Vorteil, dass man es relativ einfach implementieren kann. Allerdings muss das nicht zwingend der Fall sein. Kombiniert man neuere Lösungen, wie zum Beispiel große SATA-Festplatten mit Funktionen wie Deduplizierung und Kompression sowie skalierbare Architekturen, erhält man eine wirtschaftlichere Lösung als älteren Festplattenarchiviere. Allerdings muss man ein Festplatten-Archiv kritisch im Bezug auf die Kosten betrachten. Auch wenn einige Modelle Stromspar-Mechanismen haben, müssen Sie Festplatten dauerhaft mit Strom versorgen. Das sind zwischen sieben und 21 Watt pro Festplatte. Eine Studie von INSIC, die sich mit der TCO eines 100-Terabyte-Festplattenarchivs im Zeitraum von fünf Jahren beschäftigt hat und eine Untersuchung der Clipper Group, die sich mit der gleichen Archivgröße innerhalb von zwölf Jahren auseinandersetzt, belegen hohe Energiekosten. Beide Studien kamen zu dem Schluss, dass die Stromkosten höher sind als bei einer vergleichbaren Lösung mit Bändern. Neben der Anschaffung der Plattform sowie Betriebs-, Energie- und Wartungskosten gibt es bei Festplattenarchiven ein weiteres Problem: Die Anfälligkeit der Festplatten.

Eine weitere Sorge betrifft die sogenannte Bitfehlerrate (Bit Error Rates) der Festplatten. Unentdeckte Bitfehler, manchmal auch Silent Corrution genannt, kommen etwa einmal pro 67 TB vor. Ein Bitfehler kann auf einem nicht genutzten Bereich einer Festplatte vorkommen und hat damit keine Konsequenzen. Es kann auch nur eine Datei betreffen, die nicht mehr lesbar ist. Im schlimmsten Fall kommt der Bitfehler in einem RAID Stripe oder auf einer Paritätsfestplatte vor. Dann sind alle Daten im RAID unbrauchbar. Bänder sind bei unentdeckten Bitfehlern robuster. Moderne Band-Medien weisen eine Bitfehlerrate zwischen einmal alle 1017 (alle 12,5 PByte ein Fehler) und einmal alle 1027 auf.

Bei den Kosten stechen Bänder Festplatten in mehreren Punkten aus. Zum einen ändert sich Band-Technologie ungefähr alle sieben Jahre. Jede Generation von Bandlaufwerken ist so gebaut, dass sie schreib- und lesen-kompatibel zum Vorgängermodell ist. Lese-Kompatibilität wird zu Vor-Vorgänger-Modellen garantiert. Disk-Arrays garantieren hingegen keine Rückwärts-Kompatibilität. Solche Arrays sind durchschnittlich 17 Monaten nach Markteinführung überholt.

Cloud-Services nutzen Festplatten oder Bänder. Diese sind attraktiv, da sie Storage relativ günstig anbieten. So bewirbt ein Anbieter die Kosten mit einem Cent pro GB gespeicherter Daten. Eine genauere Betrachtung zeigt allerdings, dass die Service-Kosten ein Cent pro GB pro Monat sind. Weitere Kosten entstehen, wenn der Abonnent mehr als fünf Prozent der archivierten Daten im gleichen Jahr abruft.

Archivintegrität und Technologie-Veränderungen

Die Wahl des Storage-Mediums ist genauso wichtig wie der verwendete Software-Container. Beim Design einer Plattform für Langzeitarchivierung müssen Sie das berücksichtigen. Bei der Analyse verschiedener Datenträger-Optionen tauchen zwei weitere Probleme auf: Sie müssen die Integrität des Archivs garantieren und Methoden wählen, um mit Technologie-Veränderungen fertig zu werden. Es ist nicht unüblich, dass Hersteller die Haltbarkeit der Datenträger explizit betonen, um das Problem anzusprechen.

Die Datenträgerbeständigkeit wird entweder in der Dauer definiert, die das Medium elektromagnetischen Zustände der Bits aufzeichnet oder in der Lebensdauer des Datenträgers, entsprechender Komponenten, des Arrays oder der Bibliothek. Das ist aber nebensächlich. Behandeln Sie Bänder ordnungsgemäß, haben die eine Lebensdauer von rund 30 Jahren. Laut den Herstellern liegt die erwartete Lebensdauer einer Festplatte bei fünf Jahren. Das bedeutet nicht, dass Sie Ihre Bänder nur alle 30 oder die Festplatten alle fünf Jahre erneuern müssen.

Setzen Firmen auf bandbasierte Archive, migrieren sie diese Daten zwischen den Band-Generationen in der Regel mit jeder zweiten Generation oder alle 14 Jahre. Häufiger geschieht dies im Rahmen einer Medienoptimierung. Nutzer von Festplatten unterhalten ihre Disk-Arrays normalerweise zwischen fünf und sieben Jahren. Die Kosten für die Erneuerung einer dreijährigen Garantie und Wartungsverträgen sind praktisch so teuer wie ein neues Array. Zudem ist nicht hundertprozentig sicher, dass sich ein Festplattenarchiv auf neue Hardware migrieren lässt. Das gilt auch, wenn die Hardware vom selben Hersteller stammt. Viele Anwender können bestätigen, dass Cross-Plattform-Migrationen sehr problematisch sein kann.

Schließlich lässt sich festhalten, dass Sie durch regelmäßige Überprüfung der archivierten Dateien und Objekte die Integrität garantieren. Sollten Sie Fehler entdecken, müssen Sie Daten entsprechend reparieren oder eine Kopie aus dem Backup einspielen. Durch das Ersetzen von Datenträgern und anderen Teilen lässt sich ein Array in der Regel ungefähr fünf Jahre betreiben. Eine Band-Bibliothek hat hingegen eine wesentlich längere Betriebsdauer und bietet Kompatibilität zwischen zwei Generation.

Artikel wurde zuletzt im Februar 2014 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Erfahren Sie mehr über Gesetzeskonforme Datenspeicherung

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchNetworking.de

SearchEnterpriseSoftware.de

SearchDataCenter.de

Close