Archivierungsmethoden: Smart Meta Tags, Archive-in-Place, FLAPE

Jon Toigo erläutert neue Archivierungsmethoden, mit denen Archive nützlich und funktionell bleiben. Datenklassifizierung ist hier wichtig.

Derzeit existieren ein paar neue Archivierungsmethoden, mit denen man vermeiden kann, dass das Archiv zu einer Müllhalde für ungenutzte Daten wird. Datenklassifizierung und Verfahren wie FLAPE spielen hier eine große Rolle.

Das Hauptziel eines Archivs ist es, Daten in einem sicheren, energieeffizienten und vernünftig organisierten Repository abzulegen, um auch noch in Zukunft verfügbar zu sein. Das klingt zunächst simpel. 

Aber selbst eine solch einfache Idee kann zu Problemen führen, wenn man nicht vorausschauend plant. Hier werden einige Entscheidungen dargelegt, von denen Erfolg oder Misserfolg Ihres Archivierungsprojektes abhängen.

Eines der meistdiskutierten Probleme bei der Archivierung ist, ob die Organisationsstruktur und das Datenformat zukunftstauglich sind und längere Zeiträume überstehen. Was, wenn die Art und Weise, wie Daten klassifiziert werden, irgendwann geändert werden muss? 

Dies wäre beispielsweise der Fall, wenn die rechtlichen Aufbewahrungszeiten für einen bestimmten Datentyp verändert werden. Was, wenn die Applikation, die heute die Daten schreibt, nicht mehr von irgendeinem Betriebssystem oder einer Hardware-Plattform unterstützt wird, sagen wir, in zehn Jahren? Muss man eine Kopie derzeit genutzter Applikationen und Prozessoren für die Zukunft „konserviert“ vorhalten? Dies sind wichtige Fragen, die es einfach und effektiv zu beantworten gilt.

Es hilft, sich die Entwicklung von Archivierungsmethoden anzusehen, um diese Fragen zu beantworten. In der Vergangenheit wurden Daten mittels Metadaten (oder auch mit Daten über Daten) klassifiziert, um sie in ein Archiv zu integrieren. 

Ein Datensatz oder File, das den Metadaten zufolge in 30, 60, 90 Tagen oder länger nicht gelesen oder verändert wurde, wurde ganz einfach vom Produktivspeicher ins Archiv migriert. Dieser Ansatz ist allerdings nicht sehr granular. Diese Art der Klassifizierung sagte nichts über die Bedeutung der Daten, ihre Relevanz für Geschäftsprozesse oder eine Verbindung zu rechtlichen Aufbewahrungsfristen aus. 

Somit archivierte man mit dieser Methode auch Datenmüll (Junk), Internet Cookies, Browser-Informationen und selbst alte Disk-Files virtueller Maschinen, die nur für kurze Zeit für Test- oder Entwicklungszwecke oder ähnliches angelegt wurden. Der Punkt ist, so lange Sie kein „Daten-Hygiene-Programm“ verwenden, das diese unnötigen Daten aussortiert, so lange besteht auch das Risiko, dass sich Ihr Archiv in einen Müllabladeplatz verwandelt.

Eine Option für nicht-granulare Datenauswahl ist, diese an klassifizierende Daten zu binden, die darauf basiert, wer den Datensatz erstellt hat. Arbeitet dieser Mitarbeiter in der Buchhaltung, so werden alle Daten von seinem Arbeitsrechner als „Buchhaltungs-Daten“ und entsprechend vorher definierten Policys für diese Datenklasse behandelt. 

Trotzdem öffnet diese Methode späteren Problemen Tür und Tor, beispielsweise, wenn der besagte Mitarbeiter seine Position von der Buchhaltung zum Vertrieb ändert. Hier gelten natürlich andere Policys für Daten. Ebenso wird es problematisch, wenn Social-Media-Aktivitäten zunehmen und die Tweets und Blogs über private Dinge neben seinen Arbeitsdaten im Archiv abgelegt werden. Das Resultat ist das gleiche: eine digitale Archiv-Müllhalde, auf der es schwer wird, etwas zu suchen, geschweige denn zu finden.

Daten-Klassifizierung an Abteilungs-Workflows koppeln

Die beste Art und Weise, Daten zu klassifizieren, ist, Konzepte für höchste Granularität zu kombinieren. Erstellen Sie Daten-Klassen, die an Workflows einzelner Abteilungen gebunden sind und nicht an Anwenderrollen. Dies ist besser auch als Klassifizierungen wie „zuletzt verwendet“ und „zuletzt verändert“ in den Metadaten zu nutzen, um dadurch zu bestimmen, wann die Informationen dann ins Archiv gehören. 

Einige aufstrebende Tiered-Storage-Architekturen wie FLAPE (Flash plus Tape) ermöglichen es, die Daten direkt im Archiv zu speichern, wenn sie aufs Primärsystem geschrieben werden (Flash, Disk oder beides). So müssen die Daten nicht erst zu einem späteren Zeitpunkt ins Archiv geschoben werden, eine Datei, die ihren Archivierungszeitpunkt erreicht hat, wird dann einfach vom primären Speicher gelöscht.

Im Allgemeinen versuchen Archivare keine Daten vorzuhalten, die zeit-gebunden sind. File-Systeme scheinen sehr stabil, aber die „Container“ speicherten Daten so, dass diese auch ohne die Original-Software verfügbar waren. Ein Beispiel sind Formate wie PDFs oder die Standard-basierten XML-Container. 

Das ist ein wenig problematisch. Ein großes US-Archiv entschied sich vor einigen Jahren für PDFs als ihren Daten-Container. Diese Entscheidung wurde schnell bereut, da sie alle Daten einem „un-jest“, einer Reformatierung sowie eines „re-ingest“ unterziehen mussten – und dies an die 30 Mal in den ersten zwei Jahren, da Adobe sein Format so häufig änderte.

Eine andere Herausforderung können die Erwartungen bei Stabilität und Langfristigkeit des File-Systems werden. File-Systeme ändern sich ständig und neue File-Systeme mit Funktionen wie Deduplizierung und Kompression als Speichermethoden oder Erasure Coding für Data Protection werden mittlerweile für jedes gängige Betriebssystem angeboten. 

Die flache Struktur von File-Systemen, die mit der Web-Entwicklung einhergeht, könnte hierarchische oder Baum-basierte Strukturen in Kürze ablösen. Hier entsteht nun ein neues Paradigma, bei dem Daten als Objekte abgelegt werden, die selbstbeschreibend oder mittels Datenbank-ähnlicher Struktur indexiert sind.

Object Storage für Archivierung

Neue, kommerzielle Technologien wie die Caringo-Software SWARM oder Black Pearl von Spectra Logic sind einige der Alternativen, die sich am Object-Storage-Markt zu reifen Lösungen entwickeln. Es gibt derzeit kein dominantes Modell und Standardisierungsbemühungen stecken noch in den Kinderschuhen. An einem bestimmten Punkt werden sich Object Storage und Archive überschneiden

Es gibt unterschiedliche Vorteile, Daten als Objekte abzulegen. Zum einen lassen sich umfangreiche Metadaten mit den Datensätzen speichern, um die Datenobjekte genauer zu identifizieren und klassifizieren, womit sich wiederum granularere Policys für Aufbewahrungszeit und Wartung angewendet werden können. 

Zum anderen kann die gesamte Speicher-Infrastruktur und die Daten darin holistisch verwaltet werden. Hier benötigt der Anwender keine besondere Software oder Appliance, um Data Protection oder Langzeitaufbewahrung zu gewährleisten. Das funktioniert, da die Regeln für die Datensicherheit aller Datenklassen in den mit den Metadaten verbundenen Richtlinien integriert sind.

Caringos SWARM-Technologie erlaubt es, Daten mittels Metadaten in ein Erasure-Coding-Schema einzubinden, das replizierte Teile der Objekte über die Speicher-Infrastruktur hinweg verteilen kann. Dadurch lässt sich ein Objekt von den verfügbaren Teilen der Infrastruktur her wiederherstellen, falls ein anderer Teil dieser Umgebung ausfällt. 

Bei anderen Datenklassen, die eine solche Datensicherheit nicht benötigen, kann der Administrator Objekte mittels Metadaten einfach in einer Spiegelungs-Policy zusammenfassen. Aufbewahrungsfristen lassen sich ebenso einfach anwenden, wodurch der Speicher zur allgemeinen Storage-Infrastruktur sowohl für Archiv als auch für primären Speicher wird.

Ein Grund für ein solche, so genannte „Archive-in-Place“-Strategie ist die Unterstützung von Big-Data-Analytics. Ein weiterer ist, die Kosten für Speicherdienstleistungen gleich zu halten. Für Archivare ist es auf jeden Fall eine Chance, eine einfachere Methode der Datenklassifizierung und Datenlangzeitaufbewahrung nutzen zu können.

Folgen Sie SearchStorage.de auch auf Facebook, Twitter und Google+!

Artikel wurde zuletzt im Dezember 2014 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Erfahren Sie mehr über Sichere Datenspeicherung

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchNetworking.de

SearchEnterpriseSoftware.de

SearchDataCenter.de

Close