Data Deduplication

Schlankheitskur für das Backup

14.02.2009 | Autor / Redakteur: W. Curtis Preston und Bernd Schöne / Nico Litzel

Die Originale ins Töpfchen, die Duplikate ins Kröpfchen.

Deduplication identifiziert und eliminiert redundante Daten und reduziert die Anzahl der Platten, die für die Speicherung dieser Daten benötigt werden. Sie ändert alle Regeln, die bislang für sekundären Speicher galten. Auch stimmt die gängige Annahme nicht mehr, dass Bandlaufwerke günstiger als Platten seien.

Mit großem Interesse verfolgen Storage-Profis die Diskussion über das Für und Wider der Daten-Deduplication. Mit Deduplication (zu deutsch auch: Deduplizierung) wird die alte Regel hinfällig, dass jedes Gigabyte primärer Speicher zehn Gigabyte an Backups nach sich zieht. Zu verlockend ist die Aussicht, die Datenlawine auf ein Zwanzigstel oder weniger drücken zu können. Anderseits fürchten sich die Anwender davor, ihre Dateien durch eine vergleichsweise neue Technik in sehr kleine Teile zerlegen zu lassen.

Doppelte Datenhaltung ist passé

Die verfügbaren Deduplication-Systeme eliminieren redundante Daten auf unterschiedliche Art, sie alle aber haben eines gemeinsam: Sie betrachten Dateien auf dem Subfile-Level (Block-Niveau), um festzulegen, ob das System diese Dateisegmente zuvor gesehen hat. Falls dies nicht der Fall ist, speichert das System diese bislang einmalige Bitfolge. Wenn das System die Daten zuvor gesehen hat, wird ein Verweis auf das „Original“ erstellt, der so genannte Zeiger bzw. die Referenz. Dieser Zeiger beansprucht wesentlich weniger Platz als die referenzierte Bitfolge.

Deduplication sorgt dafür, dass in folgenden Situationen immer wiederkehrende Daten nur einmal gespeichert werden:

  • Eine Datei, die bereits auf fünf verschiedene Server verteilt wurde.
  • Nur den Teil des wöchentlichen Voll-Backups, der in der Woche zuvor noch nicht gespeichert wurde.
  • Das tägliche Voll-Backup einer Datenbank, die keine inkrementelle Sicherung unterstützt.
  • Inkrementelle Backups von Dateien, die sich ständig ändern, wie beispielsweise Tabellen, die täglich aktualisiert werden.

Der größte Vorteil der Deduplizierung ist die Möglichkeit, Onsite- und Offsite-Backups zu erstellen, ohne ein Bandlaufwerk zu verwenden. Eine Deduplication-Appliance speichert nur die neuen Blöcke des nächtlichen Backups. Diese Blöcke repliziert man anschließend auf eine zweite Appliance, die aus Sicherheitsgründen am besten außerhalb des Rechenzentrums installiert wird. Das macht die Replikation wesentlich praktikabler und kostengünstiger, als täglich den gesamten Datenbestand zu spiegeln.

Weiter mit: Deduplizierung an der Daten-Quelle oder am Daten-Ziel

Inhalt des Artikels:

»1 »2 »3 »4 »5 »6 nächste Seite

Kommentar zu diesem Artikel abgeben

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)



Spamschutz 

Bitte geben Sie das Resultat dieser Rechenaufgabe (Addition) ein:
Kommentar abschicken

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 2004220)