Intelligente Speichersysteme mit Object Storage und Metadaten

Object Storage ist in der Lage, Nachteile von Block- und File-Storage aufzuheben, insbesondere bei Größe, Formaten und Zugriffsgeschwindigkeit.

Schon immer bestand das Ziel aller Storage-Arrays darin, eine einfache Aufgabe umfassend auszuführen: eine I/O-Anfrage so schnell wie möglich zu erledigen und diese Antwort dann an den entsprechenden Host zurückzuleiten. Es ist nicht wirklich überraschend, dass es für diese Hauptaufgabe gleich mehrere Gründe gab.

Erstens waren Festplatten (und sind es immer noch) langsame Geräte, und Prozessoren sind im Vergleich dazu um Lichtjahre schneller. Zweitens wurden Daten in der Regel in Blöcken gespeichert – in den allgegenwärtigen LUNs oder Volumes. Storage-Arrays hatten keinen Begriff davon, wie der Inhalt eines Blocks genauer aussah: Dies lieferte natürlich wenig Gelegenheit dazu, den Datenpfad oder den Datenfluss (data flow) zu optimieren, zum Beispiel durch die Integration von Features wie Quality of Service.

In dem Maße, wie sich Speichersysteme weiterentwickelt haben, sind sie mehr inhaltsbewusst geworden, ursprünglich durch die Einführung von NAS-Appliances und später dann durch Object-Speichersysteme. Beide, NAS und Object Storage, verfügen über die Fähigkeit, eigene Informationen darüber abzulegen, die die gespeicherten Daten näher beschreiben – Metadaten oder Daten über Daten. 

Im Fall von NAS sind die Daten in einem File-System gespeichert, die gegenüber dem Host mittels NFS- oder SMB-Protokollen dargestellt werden. Die Metadaten umfassen grundsätzliche Informationen wie Dateiname, Datum und Uhrzeit der Erstellung, Dateigröße und Zugangserlaubnisse. Doch diese Basisinformationen können durch zusätzliche Metadaten wie Anforderungen an Performance und Verfügbarkeit erweitert werden.

Object Storage

In Object-basierten Systemen werden die Informationen nicht in der Hierarchie eines Dateisystems gespeichert, sondern in einem „Flat Namespace“, in dem die Daten als Binär-Objekt erfasst werden, identifiziert mit einer Object-ID. Die Objekte können aus jedem möglichen Typus von Information bestehen – einschließlich traditioneller Dateien, Audio- oder Videomedien oder auch aus komplexeren Daten wie Satelliten- oder seismischen Daten. Die Object-ID dient auch dazu, die Daten bei einer zukünftigen Suche leicht zu finden. In der Zukunft werden wir wahrscheinlich in der Lage sein, Objektspeicher für die Verwaltung von Blockspeicher zu verwenden, indem zum Beispiel jedes Objekt einen Block in einer LUN repräsentiert.

Mit Object Storage können die Metadaten zusammen mit jedem Objekt abgelegt werden, in der Regel in einem Format, das als „Key/Value Pair“ bezeichnet wird. Der „Key“ identifiziert den Datentyp (zum Beispiel den Objekteigentümer), während der „Value“ aus jenen Informationen besteht, die besonders mit diesem Objekt verbunden sind (zum Beispiel Name des Anwenders oder der Abteilung).

Bisher wurden Objektspeicher als large-scale Repositories für Daten gebraucht, die nur auf einer unregelmäßigen Basis geöffnet wurden. Dies hängt damit zusammen, dass die Speicher- und Abrufmethode für Daten aus einem Object Store den Zugang für das ganze Objekt erfordert – was einen relativ langen zeitlichen Prozess bedeutet, wenn es sich um große Objekte handelt. Einige Plattformen erlauben allerdings auch den (schnelleren) Zugang zu Teilen eines Objekts. Das Speichern und Reaktivieren von Objekten kann auch dann langsam sein, wenn Datenschutzmaßnahmen wie Erasure Coding eingesetzt werden, besonders bei geographisch verteilten Konfigurationen. Wenn Datenbestandteile über verschiedene verfügbare Hardwarekomponenten verteilt sind, laufen die Zugriffe nur mit der Geschwindigkeit des langsamsten Servers oder Nodes.

Object Storage ist auch deshalb populärer geworden, da sich die Technologie explizit mit einem besonders verbreiteten Problem in großen Unternehmen befasst – dem Management des Datenwachstums. Systeme für blockbasierten Storage sind nicht für Daten entworfen worden, die im schnellstmöglichen Tempo anwachsen, was gerade für unstrukturierte und seit neuestem auch für maschinengenerierte Daten zutrifft. Dagegen ist Object Storage vorzüglich für diese Datentypen geeignet, weil diese Technologie abstrakte Datenformate (auf Basis der einfachen Speicherung großer binärer Objekte) verwalten und mit großen Mengen an Metadaten für jedes einzelne Objekt verbinden kann.

Intelligente Storage-Systeme

Bisher haben wir die Prinzipien von Object Storage dargestellt. Es stellt sich jedoch die Frage, wie können Objektspeicher und -metadaten genutzt werden, um intelligentere Speichersysteme zu erzeugen.

Skalierbarkeit. Objektspeicher sind in der Lage, innerhalb eines einzigen Systems bis in den Multi-Petabyte-Bereich hinein zu skalieren. Diese Kapazitätsgrenzen werden bisher nur durch die teuersten Highend-Speichergeräte, durch Scale-out-NAS-Systeme und Tape Libraries erreicht. Doch Objektspeicher sind wesentlich flexibler (und billiger), wenn es um wachsende Speicherkapazitäten geht, da sie einfach weitere Server oder Nodes zu der Konfiguration hinzufügen, die in vielen Fällen auf Commodity-Hardware aufsetzen. 

Diese Fähigkeit, in einer Scale-out-Manier zu wachsen, erhöht die Speicherzuverlässigkeit und kann zugleich für eine größere und stabilere geographische Verteilung der Nodes sorgen, als das im Vergleich bei monolithischen oder blockbasierten einzelnen Speichersystemen möglich ist. Die Metadaten in den Objektspeichern skalieren mit den eigentlichen Daten mit, entweder eingebettet in die Daten selbst oder verwaltet in dedizierten Teilen der Infrastruktur.

Verschiedene Versionen. Mit der Technologie von Objektspeichern ist es möglich, mehrere Versionen von Objekten vorrätig zu halten, je nach definierten Speicher-Policies. Zum Beispiel kann ein System so erlauben, bis zu zehn Objektkopien für eine bestimmte Zeitperiode zu speichern. Das Speichern von Objektversionen ermöglicht es auch, Data-Recovery-Features wie Snapshots oder Continuous Data Protection einzurichten.

Erweiterbarkeit. Im Prinzip sind Object-basierte Systeme ziemlich einfach aufgebaut: Sie speichern Objekte und die Metadaten von Objekten. Allerdings kann man mit dem Einsatz von Metadaten die Funktionsweise eines Object Store erweitern, indem diese gespeicherten Informationen dem System erlauben, die Objekte mit einem gewissen Grad an Intelligenz zu managen. Zum Beispiel kann ein Object Store dazu benutzt werden, bestimmte Niveaus für Storage-Tiering mit jedem Objekt zu verbinden: So wird eine automatische Migration zu billigerem Speicher entsprechend dem mit der Zeit zunehmenden Alter des Objekts eingebaut. Man kann aber auch die Zugriffe der User und die Updates einer bestimmten Datei aufzeichnen und nachverfolgen.

Indem man Daten Attribute zuordnen kann, lassen sich die Inhalte von Objektspeichern in einer automatischen Weise in bestimmte Richtungen anstoßen, ohne dass ein Speicheradministrator eingreifen muss. Man erreicht dies durch die Einrichtung von Policies, die zum Beispiel Service-Levels für Data Protection, Verfügbarkeit und Belastbarkeit festlegen. Solche automatischen Verfahren, basierend auf Policies, sind der Schlüssel, besonders hohe Skalierungsgrade zu erreichen, da dies in der Regel nicht durch manuelle Eingriffe erreicht werden kann.

Objektspeicher und -metadaten werden heute in zwei unterschiedlichen Arten eingesetzt. Erstens gibt es Plattformen für Object Storage, die für einfaches Speichern von Objektdaten dienen. In vielen Fällen werden sie durch Gateways oder zusätzliche Funktionen ergänzt, die den Gebrauch von nicht-Object-basierten Protokollen erlauben. Einige Hersteller wie zum Beispiel Scality integrieren Protokollunterstützung direkt in ihre Software und stellen somit die Fähigkeit zur Verfügung, Analytics-Methoden bei den Inhalten einzusetzen.

Hersteller intelligenter Storage-Systeme

Coho Data hat eine Speicherplattform entwickelt, die Software-defined Networking (SDN) mit einem Objektspeicher kombiniert, um eine Scale-out-Storage-Plattform mit Unterstützung des NFS-Protokolls bereitzustellen. Das System besteht aus einer Reihe von MicroArrays (kleinen Servern), die mit Paaren von redundanten Ethernet-Switches verbunden sind, die für das Management von Load Balancing und Datenplatzierung quer über die Infrastruktur sorgen. Das Produkt von Coho wurde für High-Performance-Umgebungen und besonders für Server- und Desktop-Virtualisierung entwickelt.

Data Gravity hat ein Produkt vorgestellt, das Data Analytics sowohl für File- und blockbasierte Inhalte zur Verfügung stellt – insofern sie mit einer ihrer Discovery-Appliances geschrieben und bearbeitet worden sind. Die Architektur basiert auf Dual-Controllern, wobei einer für die Daten da ist (der Primary Node) und sich der andere um Daten-Management und Analaytics (der Intelligence Node) kümmert. Das Design von Data Gravity geht davon aus, dass in einer Dual-Controller-Architektur mit einem active/passive Design der passive Controller im Allgemeinen nicht aktiv ist und für analytische Aufgaben genutzt werden kann. Data Gravity beansprucht, dass die Discovery-Plattform in der Lage ist, mehr als 400 verschiedene Datei- und Datentypen zu erkennen und zu analysieren.

Exablox hat in den letzten zwei Jahren sein OneBlox-System ausgeliefert. Das System stellt Scale-out-NAS-Fähigkeiten (mit SMB- und CIFS-Unterstützung) zur Verfügung, wofür Objektspeicher als grundlegende Architektur eingesetzt wird. Kunden kaufen die Appliance, stellen aber ihren eigenen Plattenspeicher dazu, wobei jedes SAS/SATA-Drive (einschließlich der jüngsten 6-Terabyte-Modelle) an das System angeschlossen werden kann. 

Features wie variable Block-Deduplizierung, Continuous Data Protection (CDP) und die Verwendung ungleicher Plattengrößen sind durch die Aufteilung von Files in Objekte möglich, die dann auf den Speicherring miteinander verbundener Geräte verteilt werden. Zum Beispiel kann man relativ leicht CDP durch das Abspeichern mehrerer Update-Versionen von Objekten einrichten – ein Standard-Feature aller Object-Storage-Technologien. Heute skalieren OneBlox-Systeme bis zu sieben Nodes, wobei jeder eine Rohkapazität von 48 Terabytes liefert.

Primary Data ist ein neues Start-up, das erst im November 2014 an die Öffentlichkeit getreten ist. Das Unternehmen kaufte eine Technologie, die von Tonian Systems entwickelt wurde – einem israelischen Start-up, das angeblich an einem Produkt rund um pNFS (parallel NFS) arbeitet. Das Speicherangebot von Primary Data funktioniert wie ein Daten-Hypervisor, aber sitzt nicht direkt mit den Daten zusammen. 

Stattdessen trennt es die Daten- von der Management-Ebene, indem ein Cluster von hoch verfügbaren „Data Directors“ eingesetzt wird, der Informationen auf dem physischen Ort der Daten auf Hardware-Niveau speichert. Diese Trennung entfernt den Overhead, alle Daten durch eine zentrale Appliance durchlaufen zu lassen, und erlaubt dem Produkt, wesentlich weiter zu skalieren, als es mit traditionellen Inline-Produkten möglich wäre. Jedoch besteht der Nachteil darin, eine Treibersoftware für jeden Client, der Zugang zu den Daten haben will, zu installieren – woher wahrscheinlich auch der frühere Ansatz einer pNFS-Software herrührt. Die Metadatendirektoren können die Daten innerhalb der Infrastruktur hin und her bewegen, um die Anforderungen an Performance und Verfügbarkeit jeweils am besten umzusetzen.

Qumulo hat ebenfalls erst vor kurzem den „Stealth-Modus“ verlassen und eine Plattform vorgestellt, die als „erstes NAS-System der Welt“ beschrieben wird, das „datenzentrisch und Scale-out-fähig“ ist. Das Unternehmen wurde von einer Gruppe der ursprünglichen Gründer von Isilon (von EMC übernommen) ins Leben gerufen. Gestützt auf die früheren Erfahrungen des Teams, kann man davon ausgehen, in ihrem neuen Hauptprodukt „Qumulo Core“ einige ähnliche Scale-out-Funktionen wie bei dem Isilon-NAS zu finden. Das Core-System wird als ein Set von Appliances (von vier bis zu 1.000 Nodes skalierend) ausgeliefert, aber der wesentliche Ansatz besteht auf der Software-Seite und im besonderen in Data Analytics, das sogar in Echtzeit funktionieren soll.

Wie bei vielen anderen Produkten üblich, hat Qumulo sein eigenes File-System entwickelt – Qumulo Scalable File System (QSFS) –, das über dem Speicher-Layer angesiedelt ist. Ein eigenes File-System zu besitzen erlaubt der Qumulo-Software, Statistikinformationen auf dem Datei-Level zu sammeln und zu analysieren. Dies sorgt für direktere und auswertbare Informationen, als man sie mit traditionellen Scale-out NAS-Systemen erhalten kann.

Folgen Sie SearchStorage.de auch auf Twitter, Google+ und Facebook!

Artikel wurde zuletzt im Juli 2015 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Erfahren Sie mehr über Data-Center-Storage

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchNetworking.de

SearchEnterpriseSoftware.de

SearchDataCenter.de

Close