Was Quellen-basierte Deduplizierung ist und wie man sie einsetzt

Datendeduplizierung reduziert die Backup-Datenmenge. In virtuellen Systemen spart das Speicherplatz, erhöht aber die Systemlast beim Backup.

Dieser Artikel behandelt

Daten-Deduplizierung

Julian Cooper, Senior IT-Administrator bei der Integrated Control Corp (ICC), hat vor Kurzem die Backup-Strategie des mittelständischen Unternehmens überarbeitet und in diesem Zuge dort eine Quellen-basierte Daten-Deduplizierung eingerichtet. Früher sicherte das Unternehmen seine Backups auf Bändern, war jedoch aufgrund langsamer Wiederherstellung sowie fehlgeschlagener Backups unzufrieden damit. Nach der Umstellung auf einen Festplatten-basierten Ansatz suchte Cooper noch nach einer Möglichkeit zur Verringerung des Datenvolumens für die Backups. Dabei konzentrierte er sich auf Technologien für Datendeduplizierung und Archivierung.

In diesem Artikel über Quellen-basierte Deduplizierung erfahren Sie, ob und wie dieses Verfahren die Backup-Zeiten in Ihrem Unternehmen verkürzen kann. Sie finden Informationen über Produkte für eine Quellen-basierte Deduplizierung sowie einen Vergleich zwischen Quell- und Target-basierter Deduplizierung mit den jeweiligen Vor- und Nachteilen dieser Verfahren.

TUTORIAL ZUR QUELLEN-BASIERTEN DEDUPLIZIERUNG

Auswahl einer Quellen-basierten Deduplizierung

So setzen Sie Quellen-basierte Deduplizierung ein

Quell- und Ziel-basierte Deduplizierung im Vergleich

AUSWAHL EINER QUELLEN-BASIERTEN DEDUPLIZIERUNG

Die meisten führenden Lösungen für Daten-Backups wie ArcServe Backup von CA, Simpana von CommVault, Avamar von EMC, Tivoli Storage Manager (TSM) von IBM oder Backup Exec und NetBackup von Symantec bieten mittlerweile auch Funktionen für eine Quellen-basierte Deduplizierung. ICC selbst ist Anwender von Symantec Backup Exec mit Onsite-Backup auf einem Dell PowerVault MD1000 Direct-Attached Storage (DAS)-Array; für Offsite-Backups wird der Symantec Online Backup Service verwendet. „Bei einem vollständigen Backup sichern wir zwischen 350 und 375 Gigabyte“, so Cooper. „Nach der Umstellung auf Deduplizierung hat sich das Datenvolumen bei vollständigen Backups um 50 GB verringert, was ein gewaltiger Fortschritt war.“

Schon vor deren Einführung hatte das Unternehmen Backup Exec verwendet. Doch Cooper nahm sich zunächst Zeit, um herauszufinden, wie sich die Quellen-basierte Deduplizierung auf die restliche Umgebung auswirken würde. Er machte sich die Entscheidung dafür also nicht leicht. „Ich wünschte, es wäre so einfach gewesen“, sagt Cooper. „Und ich wünschte, dass alle Produkte einfach immer funktionieren würden. Dann wäre alles ganz einfach. Ein Traum.“

Cooper berichtet weiter: „Für uns spielten mehrere Fragen eine Rolle. Wie hoch sind die Kosten? Wie steil ist die Lernkurve? Welche Kosten könnte eine eventuelle Erweiterung der Anzahl an Servern verursachen? Unsere vorhandenen Systeme effizienter zu nutzen, erwies sich letztendlich sinnvoller, als zusätzliche oder größere System zu kaufen.“

SO SETZEN SIE QUELLEN-BASIERTE DEDUPLIZIERUNG EIN

Wie der Name schon sagt, erfolgt die Deduplizierung auf dem Server mit der laufenden Backup-Software vor der Übertragung der Daten über das Netzwerk an das Backup-Ziel. Steht einem Nutzer nur wenig Bandbreite zur Verfügung, bietet dieses Verfahren natürlich einen erheblichen Vorteil. So könnte sich beispielsweise ein Unternehmen für eine Quellen-basierte Deduplizierung und damit eine Verringerung der zu übertragenden Datenmenge entscheiden, um die Daten einer Zweigstelle über das WAN in einem zentralen Rechenzentrum zu sichern. Laut Jeff Boles, Senior Analyst der Taneja Group, ist dieser Punkt heute ein wichtiges Argument für Quellen-basierte Deduplizierung: „Bei einer geringen Anzahl von Rechnern in einer Zweigstelle möchte ein Unternehmen verständlicherweise nicht gleich in eine teure Appliance für WAN-Optimierung investieren, wie sie beispielsweise von Riverbed angeboten wird“, so Boles.

Eine Verringerung der Datenmenge bereits an der Quelle kann das lokale Netzwerk sowie das Rechenzentrum entlasten. Dies ist vor allem in virtualisierten Umgebungen hilfreich. „Ein Blick auf die Daten innerhalb der Plattendatei einer virtuellen Maschine lässt jede Menge Redundanzen erkennen“, sagt Lauren Whitehouse, Senior Analyst der Enterprise Strategy Group. „Bei einem physischen System haben Sie ein Betriebssystem sowie Anwendungen und Daten. Auf einem Host mit mehreren virtuellen Maschinen finden Sie hingegen mehrere Instanzen des Betriebssystems.“

„Einen Punkt gilt es allerdings zu berücksichtigen:“, so Whitehouse weiter, „die für die Deduplizierung erforderliche I/O-Verarbeitung könnte die Performance des physischen Servers beeinträchtigen, auf dem die virtuellen Maschinen ausgeführt werden.“ Wie sie weiter ausführt, kann es während des Backups zu einem Wettbewerb um Ressourcen kommen. Dafür würde sich allerdings der Zeitaufwand für deduplizierte Backups deutlich verringern. Unternehmen müssten hier die Vor- und Nachteile gegeneinander abwägen.

Cooper ist im Moment damit beschäftigt, genau diese Frage für die Umgebung von ICC zu testen. Mithilfe der Hyper-V Plattform von Microsoft hat er bereits eine Server-Virtualisierung implementiert, auf die Virtualisierung von kritischen Tier-1-Anwendungen aber vorerst verzichtet. „Ich wollte vor allem herausfinden, wie sich die Deduplizierung auf die Performance des virtuellen Systems an sich auswirkt“, erklärt Cooper. „Jede Erweiterung des virtuellen Systems frisst Ressourcen, also muss man ein ausgewogenes Verhältnis zwischen den vermeintlichen Vorteilen und der zusätzlichen Belastung für den Server schaffen.“ Andererseits wird, wie Boles anmerkt, bei einer Quellen-basierten Deduplizierung auch weniger Rechenleistung im Storage-Ziel benötigt, da die Deduplizierung bereits vor der Übertragung erfolgt.

Cooper setzt für die Optimierung von Backups das Backup-Reporting-Tool von Symantec ein. „Die Berichte erleichtern die Arbeit erheblich und geben Antworten auf unsere Fragen, wenn wir in einem Monat mal 40 GB zusätzliches Datenvolumen haben“, sagt Cooper. „Was ist im Backup enthalten? Liegt eine Anomalie vor? Handelt es sich um normales Datenwachstum? Können wir Teile davon archivieren? Wir verstehen einfach besser, was in unserer Umgebung so vor sich geht.“

QUELLEN- UND ZIEL-BASIERTE DEDUPLIZIERUNG IM VERGLEICH

Für manche Unternehmen ist die Beeinträchtigung der Performance ihrer physischen Server durch die Quellen-basierte Deduplizierung nicht hinnehmbar. „In einer rechenintensiven Umgebung mit pausenlos hohen Anforderungen kann die Implementierung einer Quellen-basierten Deduplizierung zu einer echten Herausforderung werden“, so Boles. Solche Umgebungen profitieren eher von Target-basierten Systemen wie der DXi-Serie von Quantum, ProtectTier von IBM, der Hydrastor-Series von NEC, dem File-interface Deduplication System (FDS) von FalconStor Software oder der Data Domain-Serie von EMC.

Darüber hinaus eignet sich eine Ziel-basierte Deduplizierung auch besser für Unternehmen, deren Backup-Anwendungen nicht über eine integrierte Funktion für Deduplizierung verfügen oder in denen verschiedene Backup-Anwendungen zum Einsatz kommen. Manche Unternehmen könnten auch zu dem Schluss kommen, dass für bestimmte Backup-Jobs eine Quellen-basierte Deduplizierung sinnvoll ist, während bei anderen die Ziel-basierte Variante größere Vorteile bietet. Einige Anbieter von Backup-Software wie CommVault und Symantec tragen dem bereits Rechnung und bieten Produkte an, die eine Deduplizierung entweder an der Quelle oder am Ziel ermöglichen. Allerdings sind diese Produkte noch relativ neu.

Abschließend ist zu erwähnen, dass die Quellen-basierte Deduplizierung im Vergleich zur Ziel-basierten Deduplizierung allgemein als günstiger gilt. „Da sie in viele Backup-Lösungen integriert ist, halten Kunden sie oft auch für billiger“, so Whitehouse. „Allerdings verlangen die meisten Anbieter eine zusätzliche Gebühr für diese Funktion. Und nur weil man kein Ziel-basiertes System kauft, heißt das noch lange nicht, man könnte auf Storage verzichten. Betrachtet man die Gesamtkosten, könnte es unter Umständen sogar etwas günstiger sein.“

Artikel wurde zuletzt im November 2010 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Erfahren Sie mehr über Daten-Deduplizierung und -Reduzierung

0 Kommentare

Älteste Beiträge 

Passwort vergessen?

Kein Problem! Tragen Sie Ihre E-Mail-Adresse unten ein. Wir werden Ihnen eine E-Mail mit Ihrem Passwort schicken.

Ihr Passwort wurde an die folgende E-Mail-Adresse gesendet::

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchNetworking.de

SearchEnterpriseSoftware.de

SearchDataCenter.de

Close