Photobank kiev - Fotolia

Mit Datenreduktion und guter Administration Kapazitäten optimiert nutzen

Nicht nur strategische Entscheidungen, sondern auch intelligente Technologien wie Deduplizierung und intelligente Anwendungen können Kapazitäten optimieren.

Im ersten Artikel zum Thema Kapazitätsoptimierung erklärten wir, wie wichtig strategische Entscheidungen bei der Datenspeicherung sind und wie hochkapazitive Systeme einen Beitrag zur besseren Nutzung von Storage leisten. Im zweiten Teil unserer Miniserie beschäftigen wir uns mit weiteren Technologien und dem Management der Daten, die zusätzlich zu einer besseren Ausnutzung bestehenden Speicherplatzes beitragen.

Technologien zur Datenreduktion haben in den letzten Jahren in den meisten Speichersystemen, bei Software-defined Storage (SDS) und sogar bei hyper-konvergenten Systemen an Bedeutung gewonnen. Diese Technologien schließen Thin Provisioning, Deduplizierung und Komprimierung ein.

Thin Provisioning reduziert nicht wirklich den Speicherverbrauch. Stattdessen sorgt sie für eine deutliche Verringerung an Speicher, die durch Über-Provisionierung entsteht – IT-Abteilungen neigen dazu, immer mehr Speicher anzuschaffen, als wirklich gebraucht wird. Und Anwendungen mögen es nicht, wenn sie auf zu wenig Speicherkapazität zugreifen können. Passiert es doch, kommt es zu einem klassischen Crash des Systems. Es entsteht keine empfehlenswerte Situation, sondern es ergeben sich unmittelbar ernsthafte IT-Probleme. IT-Manager versuchen im Allgemeinen, dies durch Over-Provisioning zu vermeiden und stellen den Anwendungen, besonders den geschäftskritischen, viel Speicherkapazität zur Verfügung. Dieses Mehr an Kapazität pro Anwendung kann nicht von anderen Anwendungen genutzt werden. Und dies schafft eine Menge an ungenutzter Speicherkapazität im Wartezustand – oft als verwaister Speicher bezeichnet.

Thin Provisioning virtualisiert im Kern diese Form von Über-Provisionierung, so dass jede Anwendung annimmt, sie verfüge über ihre eigene, für sie reservierte und überdimensionierte Speicherkapazität, aber in Wirklichkeit teilt sie einen einzigen Speicher-Pool mit jeder anderen Anwendung. Thin Provisioning eliminiert verwaisten Speicher und reduziert deutlich den Anteil von weiteren zusätzlichen Einkäufen von Speicherkapazität. Diese Reduzierung hat den gleichen Nettoeffekt wie die Senkung des Anteils an gespeicherten Daten.

Deduplizierung setzte sich zuerst bei Speichersystemen für Backup durch (erste Hersteller waren EMC DataDomain, ExaGrid, HP StoreOnce, NEC HYDRAstor und Quantum DXi). Heute verfügen die meisten Backup-Programme über integrierte Deduplizierungsfunktionen.

Deduplizierung hat aber auch Eingang gefunden in hybride Speicher- und All-Flash-Arrays sowie in traditionelle Storage-Arrays. Der Grund für die Integration von Deduplizierung in Arrays besteht darin, die Kosten für effektiv nutzbare Kapazität zu senken. Effektiv nutzbare Kapazität ist die Menge an Kapazität, die gebraucht würde, wenn keine Deduplizierung zum Einsatz kommt. Wenn zum Beispiel die erforderliche Kapazität ohne Dedup etwa 100 Terabyte beträgt, aber nur 20 Terabyte mit Datenreduktion, dann beträgt die effektiv nutzbare Kapazität dieses 20-Terabyte-Systems 100 Terabyte.

Es gibt allgemein betrachtet nicht so viele duplizierte Daten bei den Primary Data, wie es bei den älteren Backup-Daten der Fall war. Dies bedeutet, dass die Reduzierungsraten nach unten tendieren. Einige Workloads, wie zum Beispiel bei VDI, erzeugen eine Menge an duplizierten Daten. Andere, wie zum Beispiel Videodaten, haben wenig oder gar keine Duplikate. Außerdem muss man beachten, dass komprimierte oder verschlüsselte Daten nicht dedupliziert werden können.

Deduplizierungsraten

Deduplizierung reduziert deutlich die Menge gespeicherter Daten. Für primäre Workloads bei Flash-Storage (hybride oder All-Flash-Arrays) beträgt die durchschnittliche Reduzierung 4:1 bis 6:1 – je nach Datentyp. Für primäre Workloads bei Festplattenspeicher beträgt die durchschnittliche Reduzierung 2:1 bis 3:1. In beiden Fällen gibt es damit sehr viel weniger zu speichern.

Man sollte sich generell daran erinnern, dass Deduplizierung immer mit Performance-Problemen einhergeht. Inline-Deduplizierung ist die am meisten verbreitete Form der Datenreduktion: Sie erfordert, dass jeder Schreibvorgang mit den bereits gespeicherten Daten verglichen wird, um einzigartige Daten zu identifizieren – was natürlich zu Lasten der Performance geht.

Einzigartige, unverwechselbare Daten werden auf diese Weise gespeichert, und das System erzeugt einen Pointer für die duplizierten Daten. Der dafür notwendige Vergleich erzeugt zusätzliche Latenzzeit für jeden Schreibvorgang. In dem Maße, wie die Masse an gespeicherten Daten im System zunimmt, nehmen auch die Metadaten und die Latenzen zu. Und jeder Schreibvorgang erfordert, dass die Daten in ihren früheren Zustand versetzt oder vollständig gemacht werden müssen. Auch das erhöht die Latenzzeiten der Schreibvorgänge. Und diese Latenz nimmt zu mit der konsumierten Kapazität, ähnlich wie bei den Schreibvorgängen. Primäre Anwendungs-Workloads ziehen Zeitbeschränkungen bei den Antworten nach sich. Treten zu viele Latenzzeiten auf, kommt es zu einer Unterbrechung der Anwendung.

Dies hat zu zwei verschiedenen Varianten der Inline-Deduplizierung geführt: eine für Flash-basierten Storage und eine für Festplatten-Storage. Die dreifach niedrigere Latenz von Flash-Speicher erlaubt eine mehr in die Tiefe gehende Daten-Deduplizierung, was zu besseren Resultaten führt.

Der andere Typ von Deduplizierung besteht aus Post-Processing. Diese Form von Deduplizierung fügt bei den Schreibvorgängen keine Latenz hinzu, weil sie erst nach dem Schreiben der Daten durchgeführt wird. Der Reduktionsprozess geht ziemlich intensiv vonstatten und muss für einen mehr unbeschäftigten Zeitpunkt der IT eingeplant werden. Er erfordert auch mehr Kapazität für das Aufbewahren der Daten und unternimmt nichts, um die Leselatenz zu reduzieren.

Komprimierungstechnologien verfahren ähnlich wie Deduplizierung, sind aber auf die Durchführung innerhalb eines Blocks, einer Datei oder eines Objekts begrenzt. Die Resultate entsprechen in der Regel mehr oder weniger der Deduplizierung, während die Latenzprobleme ähnlich sind.

Man muss sich bei diesen Technologien der Datenreduzierung darüber im Klaren sein, dass sie sich nicht gegenseitig ausschließen. Sie können und sollten gemeinsam genutzt werden. Deduplizierung muss vor der Komprimierung durchgeführt werden. Komprimierte Daten können nicht dedupliziert werden.

Man sollte unbedingt beachten: Um die Daten aus einem Speichersystem heraus zu verschieben, ist allgemein, aber nicht immer, vorher ein Zurückführen der Daten auf ihren ursprünglichen Zustand durchzuführen.

Effiziente Anwendungen für den Datenschutz nutzen

Produkte für den Datenschutz schufen historisch betrachtet eine Menge an duplizierten oder kopierten Daten. Aber die meisten modernen Data-Protection-Produkte verfügen über eingebaute Deduplizierungsfunktionen. Viele IT-Verantwortliche empfinden, dass es ein eher umständlicher und lästiger Prozess ist, den Weg von traditioneller zu moderner Data Protection zu gehen. Diese Ansicht wird von ein paar falschen Annahmen untermauert.

Die erste Annahme geht davon aus, dass man früher geschützte Daten aus dem alten in ein neues System migrieren muss. Das ist nicht wahr. Alte Backups oder andere Typen von älteren geschützten Daten sind keine Archive und sollten nie als Archive verwendet werden. Die Daten müssten wiederhergestellt werden, um in ihnen Suchprozesse durchzuführen. Der einzige Grund, ältere Backups zu behalten, besteht in Compliance-Vorgaben. Das bedeutet nicht, dass diese Backups in neuere Datenschutzsysteme migriert werden müssen. Die Software kann so eingestellt werden, dass nicht ständig neue Backups gezogen werden. Die alten Backup-Daten lässt man solange in Ruhe, bis sie aus den Compliance-Anforderungen herausfallen – anschließend können sie zerstört werden. Die Originalsoftware kann weiter genutzt werden, um ältere Daten für solche Dinge wie eDiscovery wiederherzustellen.

Die zweite falsche Annahme besteht darin, dass die Einrichtung von moderner Data Protection so schwierig sei wie die von klassischen Datenschutzprogrammen. Viele moderne Datenschutzsysteme lassen sich relativ einfach implementieren.

Um den Konsum sekundärer Datenkapazität merklich zu senken, sollte man sichergehen, dass die eingesetzte Datenschutzsoftware auf dem neuesten Stand ist.

Datenkopien verwalten

Dragon Slayer Consulting beobachtete 376 IT-Abteilungen über einen Zeitraum von zwei Jahren und fand eine durchschnittliche Anzahl von acht Kopien derselben Daten. Kopien fanden sich oft auf den gleichen und auf verschiedenen Systemen. Kopien werden angelegt und genutzt für DevOps, Testumgebungen, Data Warehouses, Business Intelligence, Backups, Business Continuity, Disaster Recovery oder aktive Archive. Dies kann einen enormen Erweiterungseffekt auf den Speicherkonsum haben.

Um solche außer Kontrolle geratenen Kopien wieder einzugrenzen, sollte man verschiedene Varianten von Redirect-on-Write- oder sparsam provisionierte Copy-on-Write-Snapshot-Technologien einsetzen. Das kann innerhalb eines Speichersystems (unabhängig vom Hersteller, bei Software-defined Storage und sogar bei hyperkonvergenten Systemen) geschehen, aber auch abgetrennt unter Benutzung einer dedizierten Appliance oder mit Einsatz einer Software (zum Beispiel Actifio, Catalogic, Cohesity, IBM SVC oder Rubrik) auf einem billigeren Storage-System. Diese Snapshots sind im Grunde eine virtuelle Kopie. Sie entsprechen eigentlich einer realen Datenkopie. Und sie können geschrieben und verändert werden wie eine echte Kopie. Aber sie beanspruchen nur einen sehr kleinen Teil der Speicherkapazität.

Datenkopien zu verwalten ist eine wirksame Strategie, um mit der Kapazität zurechtzukommen – und enthält ein sehr großes Potential an Einsparungen im Umgang mit den Datenkapazitäten.

Folgen Sie SearchStorage.de auch auf Twitter, Google+ und Facebook!

Artikel wurde zuletzt im März 2016 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Erfahren Sie mehr über Kapazitätsoptimierung von Primärspeicher

0 Kommentare

Älteste Beiträge 

Passwort vergessen?

Kein Problem! Tragen Sie Ihre E-Mail-Adresse unten ein. Wir werden Ihnen eine E-Mail mit Ihrem Passwort schicken.

Ihr Passwort wurde an die folgende E-Mail-Adresse gesendet::

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchNetworking.de

SearchEnterpriseSoftware.de

SearchDataCenter.de

Close