Definition

Daten-Deduplizierung

Daten-Deduplizierung (oft auch als „intelligente Kompression“ oder „Single-Instance-Storage“ bezeichnet) ist eine Methode, die nötige Speicherkapazität durch Beseitigung von Redundanzen zu verringern. Nur eine einmalige Instanz der Daten wird tatsächlich auf dem Storage-Medium, etwa Disk oder Tape, gehalten. Redundante Daten werden durch einen Zeiger auf die einzige Datenkopie ersetzt. Enthält ein E-Mail-System beispielsweise 100 Instanzen desselben 1 MByte großen Dateianhangs, dann werden bei der Sicherung oder Archivierung dieser E-Mail-Plattform alle 100 Instanzen gesichert, was 100 MByte Speicherverbrauch bedeutet. Mit Daten-Deduplizierung wird nur eine Instanz des Anhangs gespeichert, jede folgende Instanz verweist nur zurück auf die gespeicherte Kopie. In diesem Beispiel kann der Speicherbedarf von 100 auf 1 MByte gesenkt werden.

Dazu kommen andere Vorteile. Die geringeren Kapazitätsansprüche verringern die Kosten für Festplatten. Der effizientere Einsatz von Festplattenplatz erlaubt es, Daten länger auf der Festplatte zu halten, was weniger Zeitbedarf für die Wiederherstellung von Daten (Recovery Time Objective, RTO) über eine längere Zeitspanne bedeutet und die Notwendigkeit von Backups verringert. Daten-Deduplizierung verringert auch die Datenmengen, die über das WAN für Remote-Backup, Replizierung und Disaster Recovery verschickt werden. In der Praxis wird Daten-Deduplizierung oft zusammen mit anderen Formen der Datenreduktion wie konventioneller Komprimierung und Delta-Differenzierung genutzt. Alle gemeinsam können diese drei Techniken die Nutzung von Speicherraum sehr effektiv optimieren.

Daten-Deduplizierung setzt im Allgemeinen auf der File- oder Blockebene an. Die Deduplizierung von Files beseitigt doppelte Files (wie im obigen Beispiel), ist aber bei der Deduplizierung nicht sehr effizient. Block-Deduplizierung betrachtet auch die Inhalte der Dateien und speichert einmalige Werte für jeden Block. Jedes Datenstück wird mit einem Hash-Algorithmus wie MD5 oder SHA-1 bearbeitet. Dieser Prozess erzeugt eine einmalige Kennziffer für jedes Stück, die dann in einem Index gespeichert wird. Wird eine Datei aktualisiert, speichert man nur die geänderten Daten. Wurden also nur einige Bytes eines Dokuments oder einer Präsentation verändert, werden auch nur diese gespeichert; die Veränderungen erzeugen keine vollkommen neue Datei. Dieses Verhalten macht Block-Deduplizierung weit effizienter. Allerdings braucht sie mehr Verarbeitungsleistung und einen weit größeren Index, um die individuellen Teile zu verfolgen.

Hash-Kollisionen sind ein potentielles Problem bei der Deduplizierung. Erhält ein Datenstück eine Kennziffer, wird diese Zahl mit dem Index der anderen Kennziffern verglichen. Ist die Kennziffer bereits im Index vorhanden, wird das neue Datenstück als Kopie des Stücks mit der bereits vorhandenen Kennziffer behandelt und nicht noch einmal gespeichert. Im anderen Fall wird die neue Kennziffer dem Index hinzugefügt und die neuen Daten werden gespeichert. In seltenen Fällen kann es geschehen, dass der Hash-Algorithmus dieselbe Kennziffer für zwei unterschiedliche Datenstücke berechnet. Im Falle einer solchen Kollision werden die neuen Daten nicht gespeichert, weil die Zahl bereits im Index steht. Das bezeichnet man als falsch positiv, das Ergebnis kann ein Datenverlust sein. Einige Anbieter kombinieren daher Hash-Algorithmen, um die Wahrscheinlichkeit solcher Hash-Kollisionen zu verringern. Andere Hersteller prüfen auch die Metadaten, um Daten zu identifizieren und Kollisionen vorzubeugen.

Es gibt verschiedene Arten der Deduplizierung: globale Deduplizierung, Inline-Deduplizierung sowie Quell-Deduplizierung und Target-Deduplizierung. Manche Verfahren kommen auch in Kombination zum Einsatz.

Folgen Sie SearchStorage.de auch auf Twitter, Google+ und Facebook!

Diese Definition wurde zuletzt im Mai 2016 aktualisiert

Erfahren Sie mehr über Disk-Arrays

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

File Extensions and File Formats

Powered by:

SearchSecurity.de

SearchNetworking.de

SearchEnterpriseSoftware.de

SearchDataCenter.de

Close