Backup-Deduplizierung beschleunigen

Deduplizierung ist ein wichtiger Bestandteil des Backup-Prozesses. Obwohl die Technik diese Prozesse optimieren soll, verlangsamt sie Backup-Systeme.

Dieser Artikel behandelt

Daten-Deduplizierung

Deduplizierung ist zu einem wesentlichen Bestandteil des Backup-Prozesses geworden. Viele Unternehmen und Organisationen, die regelmäßig große Mengen an Daten erzeugen, haben jedoch feststellen müssen, dass Deduplizierung die Backup-Systeme verlangsamt, obwohl diese Technologie gerade zu einer Optimierung dieser Prozesse beitragen sollte. Einige Backup-Hersteller haben deshalb damit begonnen, Produkte zur Effizienzsteigerung von Deduplizierung und Backup herauszubringen.

Jeder Hersteller geht bei der Beschleunigung von Deduplizierung unterschiedlich vor. So offeriert zum Beispiel EMC ein umfassendes Feature, das den Workload der Backup-Appliance heruntersetzt, indem ein Großteil der Datenverarbeitung auf den Backup-Server verlagert wird. Dies erhöht eindeutig die Performance.

Das Prinzip der Workload-Verteilung auf verschiedene Instanzen findet sich auch in anderen Lösungen. Man überlässt nicht mehr nur einem Gerät den Deduplizierungsprozess, sondern verteilt ihn auf mehrere Systeme. Durch parallele Verarbeitung lässt sich die Dedup-Geschwindigkeit erhöhen, so wie schon Parallel Processing in der IT generell für mehr Performance eingesetzt wird – zum Beispiel im High Performance Computing (HPC). Ein effizienter Gebrauch der CPU-Ressourcen und der Bandbreiten im Netzwerk führen zu dem gewünschten Ergebnis.

Um die Funktionsweise der Deduplizerungs-Beschleunigung besser zu verstehen, genügt ein Blick darauf, wie Inline-Deduplizierung in der Regel abläuft. Diese Dedup-Architekturvariante setzt auf zwei oder mehr Backup-Server, die die Daten zu einer Backup-Appliance senden. Die Appliance überprüft jeden Datenblock, den sie erhält. Ist der Block ein Unikat, wird er im Backup-System abgespeichert. Ist er nicht einzigartig, muss festgestellt werden, ob es bereits eine Kopie dieser Daten im System gibt. Trifft das zu, wird ein entsprechender Logging-Eintrag ergänzt: Damit wird der (bereits früher gespeicherte) Datenblock mit dem aktuellen Backup-Vorgang verknüpft.

Obwohl diese Vorgehensweise funktioniert, ist sie nicht für alle Backup-Phasen geeignet. Denn sobald das zu speichernde Datenvolumen anwächst, kommt es vor, dass die Backup-Appliance nicht mehr alle Daten der Inline-Deduplizierung sofort verarbeiten kann. Ein Flaschenhals tritt auf. Eine Lösung, das Skalierungsproblem anzugehen, besteht darin, den Deduplizierungsvorgang aufzuteilen.

Klassisches Data Streaming muss man sich als einseitige Kommunikation vorstellen. In einer Systemumgebung, die auf Beschleunigung von Deduplizierung setzt, wird die eindimensionale durch eine wechselseitige Verbindung ersetzt. Mit anderen Worten: Der Backup-Server und die Backup-Appliance sprechen ständig miteinander, um den Dedup-Prozess effizienter zu gestalten.

Je nach Hersteller variieren hierbei die Methoden etwas, aber das Prinzip bleibt das gleiche: Der Backup-Server entscheidet darüber, ob Daten einzigartig (und noch nicht erfasst) sind und schickt sie dann an die Backup-Appliance weiter. Der Backup-Server kann eventuell auch einen Datenblock aufspalten (Hash) und die Teile nacheinander abschicken. Die Backup-Appliance vergleicht dann den Hash-Eingang mit einer Hash-Tabelle und entscheidet darüber, ob die Daten redundant sind oder für das Backup gespeichert werden müssen.

Je nach eingesetzter Software werden die Daten auf dem Weg zur Backup-Appliance komprimiert, um den Transport zu beschleunigen. Gleichzeitig wird durch diese Variante der Deduplizierung die WAN-Bandbreite weniger intensiv genutzt. So gibt EMC an, mit seinem Produkt „Data Domain Boost“ die Übertragungsgeschwindigkeit um 50 Prozent zu steigern, während die Auslastung des Netzwerks um 80 bis 99 Prozent gesenkt werden kann.

Arbeiten Backup-Appliances mit Inline-Data-Deduplizierung, besteht prinzipiell immer die Gefahr, dass die Appliance die Datenmenge nicht mehr schnell bewältigen kann. Senden mehrere Backup-Server ihre Daten an die gleiche Appliance, erhöht sich das Risiko. Deduplizierung-Beschleuniger entzerren die Übertragungsprobleme, indem sie einen Teil des Dedup-Workloads auf den Backup-Server verlagern. Ressourcen werden geschont, und die Backup-Deduplizierungslösung wird in die Lage versetzt, steigende Datenmengen ohne Rückstau zu bewältigen.

Über den Autor: Brien M. Posey, MCSE, hat den Microsoft MVP-Award für Exchange Server, Windows Server und Internet Information Server erhalten. Brien hat als CIO für eine große amerikanische Krankenhauskette gearbeitet und er war verantwortlich für das Information Management in Fort Knox. Seine persönliche Webseite ist http://www.brienposey.com/.

Artikel wurde zuletzt im Oktober 2013 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Erfahren Sie mehr über Daten-Deduplizierung und -Reduzierung

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchNetworking.de

SearchEnterpriseSoftware.de

SearchDataCenter.de

Close