Application-aware Storage ist wichtig – nicht die Storage-Kapazität alleine

Durch Application-aware Storage wird die reine Speicherkapazität zunehmend unwichtig. Viel entscheidender sind inzwischen darauf aufbauende Services.

Ob Tontöpfe, Holzfässer oder Storage-Arrays – Anbieter haben schon immer damit geprahlt, wie viele Güter ihre Lager zuverlässig speichern können. Je größer der Behälter, desto beeindruckender und gleichzeitig kostspieliger ist die Geschichte natürlich. Das gilt sowohl für die Anschaffung als auch für die Wartung. Sieht man lediglich die Größe als Maß für den Erfolg, dann scheint eine Bewertung und der Vergleich alleine aufgrund der angebotenen Menge angebracht. Allerdings ist das Wechselspiel zwischen physischem Storage und der Bereitstellung effizienter Data-Services in der heutigen Zeit immer stärker geprägt von Cloud Computing und Virtualisierung. Ein Megabyte an effektiv verfügbarem Storage kann man daher immer weniger mit einem Megabyte an tatsächlich physisch vorhandenem Storage in Verbindung bringen.

Die meisten Storage-Anbieter bieten inzwischen Optimierungsfunktionen in Bezug auf die Storage-Kapazität aus, zum Beispiel Thin Provisioning, Komprimierung und Deduplizierung der Daten. Nun sieht es so aus, dass Ihnen die Anbieter viele Megabytes an Daten-Kapazität verkaufen, die überhaupt nicht vorhanden sind. Ich bin auch der Meinung, dass die effektiv zur Verfügung stehende Storage-Kapazität und die daraus resultierenden Kosten das Wichtigste sind und nicht, was sich physisch tatsächlich unter der Haube befindet. Bei einem Auto beispielsweise sind natürlich auch der Motor und das Fassungsvermögen des Tanks interessant. Viel entscheidender ist aber doch, wie schnell und wie weit Sie damit kommen.

Durch Deduplizierung hinters Licht geführt?

Unternehmensdaten sind vielfältig und enthalten so unterschiedliche Komponenten wie Log-Files, VM-Images oder auch einfach E-Mails. Dedupliziert und komprimiert man diese Daten, lassen sie sich um das bis zu Zwanzigfache oder noch mehr schrumpfen. Besitzt ein modernes Flash-Array also nur zehn Terabyte an physisch tatsächlich vorhandenem Speicherplatz auf den Solid-State Drives (SSD), wird es aufgrund des zu erwartenden Deduplizierungs-Verhältnisses dennoch mit einer effektiven Kapazität von 100+ Terabyte verkauft. Aber beeindruckt uns diese Zahl immer noch? Wir wissen, dass unsere Rohdaten durch zu viele Kopien und zu wenig gemeinsamer Nutzung „aufgeblasen“ sind und man diese schon immer optimaler hätte speichern können.

Können wir dieser größeren Zahl Glauben schenken? Auf jeden Fall ist das Reduzierungspotenzial schwer einzuschätzen, das wir aus unseren Daten holen können, und trotzdem sollte man sich vor allem darauf konzentrieren. Allerdings hängt die mögliche Reduktion der Storage-Kapazitäten wesentlich vom Deduplizierungs-Algorithmus als auch von den Inhalten ab.

Big Data: Von Terabyte über Petabye bis hin zu Exabyte

Wir wissen alle, dass die Datenmenge stetig weiter wachsen wird. Das gilt dementsprechend auch für die Menge an Storage, die wir einsetzen und somit verwalten müssen. Strukturierte Datenbanken wachsen auf Terabyte-Größe an und weniger strukturiertes Big Data bewegt sich im Petabyte-Bereich. Mandanten-fähige Clouds summieren sich dann sogar auf Exabyte-Niveau.

Ich habe gerade im Bereich Big Data allerdings das Gefühl, dass diese Brutto-Kapazitäten keine so interessanten Kennzahlen mehr sind. Natürlich wird es immer mehr Daten geben und deswegen auch immer mehr Storage-Kapazitäten. Wir produzieren und speichern Daten in einer Geschwindigkeit, bei der Wert und Kosten der Speicherung wirtschaftlich ausbalanciert sind. Allerdings steigen die Storage-Kapazitäten pro Euro mit dem technischen Fortschritt zwangsläufig. Nachdem Storage-Kapazität immer günstiger wird und Big-Data-Analysen zeigen, wie man aus diesen immensen Datenmengen wertvolle Informationen extrahiert, behalten wir noch mehr Daten als früher. Somit ist vorprogrammiert, dass die Storage-Kapazitäten immer größere Dimensionen annehmen.

Das angestrebte Ziel: Daten nur einmal speichern

Storage-Gerätschaften mit großen Kapazitäten wie zum Beispiel HGSTs sechs TByte Helium-Datenträger sind heutzutage bereits verfügbar. Holographisches, optisches Storage ist im Kommen. Dichteres Flash und fortgeschrittene Arten an nicht-volatilem Speicher stehen ebenfalls vor der Tür. Kombiniert man dieses in modernen Arrays mit besserer Deduplizierung und Kompression durch zusätzliche CPU-Bandbreite, wird das zu gewaltigen Sprüngen im Terabyte-Bereich führen.

Heute werden auch wichtige Daten dedupliziert und oftmals gleichzeitig komprimiert. Anbieter bestehender Storage-Plattformen, wie zum Beispiel EMC Isilon, fügen Nachbearbeitungs-Deduplizierungs-Mechanismen ein. Diese bearbeiten das Storage offline, was sich günstig auf die Performance auswirkt. Einige neuere Anbieter nutzen innovative Flash-Designs, um erfolgreich linear zu deduplizieren. Dazu gehört zum Beispiel SimpliVity mit seinem hochperformanten ASIC.

Eine der großartigen Sachen bei Inline-Deduplizierung ist, dass die Performance beschleunigt wird, während gleichzeitig die benötigte Kapazität sinkt. Man eliminiert so I/O, das auf den Back-End-Datenträgern durch doppelte Blocks verursacht wird. Deswegen bekommt ein Client, der lesend auf die Daten zugreift, insgesamt eine schnellere Antwort. Ist zusätzlich Replikation im Einsatz, muss der Storage-Mechanismus lediglich die neuen Blöcke replizieren. In diesem Fall würden wir erwarten, dass man Daten auf der Storage-Seite einmal dedupliziert und sie dann in diesem Format für den weiteren Lebenszyklus im Storage behält, beispielsweise also für Archivierung, Operationen auf Metadaten-Ebene wie zum Beispiel VAAI, Backups und Wiederherstellungen etc.

Bei Storage kommt es darauf an, was Sie damit tun wollen

Da der Trend zur Reduzierung der Daten-Mengen weiter anhält, dürften in diesem Zusammenhang bald auch externe Applikationen eine Rolle spielen. Ein Beispiel wäre Oracles Hybrid Columnar Compression für seine strukturierte Datenbank. Bei Oracle ZFS werden Datenblöcke der Datenbank zum Beispiel nach und nach auf eine Weise komprimiert, bei der Daten statischer werden und deshalb von Clients schneller abgefragt werden können. Die komprimierten Blöcke sind nicht nur in einer komprimierten Form gesichert und archiviert, sondern werden bei Zugriffen in dieser Form auch in den Datenbank-Speicher eingelesen. Das führt zu weniger Overhead bezüglich I/O und zu spaltenorientierter/analytischer Format-Beschleunigung.

Tarmin GridBank ist ein skalierbares Storage-Netz, das Dateien unmittelbar nach dem Speichern global dedupliziert und den Datei-Inhalt nach gewünschten Metadaten parst. Anschließend können Sie global anhand von Filtern nach diesen Metadaten und Inhalten suchen. Weil das Storage-System seine Inhalte für den sofortigen Client-Gebrauch automatisch indiziert, bietet es ein höheres Niveau an Services an als andere Storage-Plattformen.

Application-aware Storage geht also darüber hinaus, einfach immer mehr Bits abspeichern zu können und bieten einen handfesten Mehrwert für Storage-Clients. Eines wird bei der Sache klar: Wenn Sie den Wettbewerbsvorteil von größeren Daten-Mengen nutzen möchten, ist die Erhöhung von Storage-Kapazität immer noch entscheidend. Allerdings ist das nur ein Teil der Gesamtlösung. Storage-Anbieter müssen sich von „lediglich“ zuverlässigen Bit-Speichern auf Datenträgern weg entwickeln und hochentwickelte Daten-Services anbieten, die ein höheres, Business-orientiertes Niveau adressieren.

Äpfel mit Birnen vergleichen

Es hat schon immer Faktoren gegeben, die mit Hinblick auf Datensicherheit die Anzahl physischen Storage beeinflusst haben, der für ein Megabyte effektiven Storage tatsächlich benötigt werden. Wir spezifizieren schon lange Storage-Klassen, die auf den bekannten RAID- und Replikations-Arten basieren. Diese benötigen alle unterschiedliche Mengen an physischem Storage. Nun sind allerdings komplexere Alternativen ins Rampenlicht getreten, die sich in Form von Erasure und Fountain Coding, Flash-spezifischen Datensicherheits-Ansätzen, Fortschritten beim automatisierten Storage-Tiering und bei Datenbank-Lösungen, die sich mehr wie langsame Festplatten verhalten und nicht wie Offline-Medien, zeigen.

Heutzutage ist das Maß der „reinen“ Kapazität nicht mehr so wichtig wie früher, um damit die tatsächliche Storage-Größe zu bestimmen. Die Frage ist nicht mehr länger, wie viele Daten Sie speichern können, sondern welchen Wert Sie aus diesen extrahieren. Das ist alles andere als ein einfacher Übergang. Allerdings würde ich gerne mehr Anbieter-Metriken und Lizenz-Modelle sehen, die sich auf den Mehrwert der Daten-Services fokussieren und nicht auf die blanke Größe des Storage. In ein paar Jahren wird die Bewertung von Storage anhand von Bytes noch unwichtiger sein. Die zum Storage dazugehörigen Services dagegen werden eine immer größere Rolle spielen.

Über den Autor:

Mike Matchett ist leitender Analyse und Consultant bei der Taneja Group.

Folgen Sie SearchStorage.de auch auf Facebook, Twitter und Google+!

Artikel wurde zuletzt im Juni 2014 aktualisiert

Erfahren Sie mehr über Storage-Marktforschungsreports

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchNetworking.de

SearchEnterpriseSoftware.de

SearchDataCenter.de

Close