Storage-Architekturen für Big Data: Kategorien, Stärken und Anwendungsfälle

Storage-Architekturen für Big-Data weisen Unterschiede auf bei Geschwindigkeit, Größe und Preis. Dieser Überblick hebt die wichtigsten Fakten hervor.

Die Storage-Architektur für Big Data verändert sich, um mit der stets wachsenden Menge an Datenvolumen mithalten zu können. Unternehmen sammeln und analysieren Informationen, um Konkurrenten gegenüber einen Wettbewerbsvorteil zu erzielen. Heutzutage benötigen Firmen eine Storage-Architektur mit ausreichend Bandbreite, damit größere Dateien kein Problem darstellen, die Speicher durch das Hinzufügen von Spindeln vergrößert werden können und dass es leichter ist, Milliarden von Datenobjekten zu skalieren.

Die Architektur von Big-Data-Storage kann in vier Kategorien unterteilt werden: weit verteilte Knoten (Distributed Nodes), Scale-out NAS (Network-attached Storage), SSD-Arrays und objektbasiertes Storage (Object-based Storage). Jede Variante hat ihre Stärken und Anwendungsfälle. Selbstverständlich schließen sie sich gegenseitig nicht aus, so dass sie bei Bedarf nebeneinander verwendet werden können.

Verteilte Knoten können im geographischen Sinn weit verteilt sein. Eine verteilte Architektur wird gewöhnlich mit Grid-Computing assoziiert, weil während des Rechenvorgangs parallel skaliert wird. Die passendste Anwendung sind viele kleine Dateien. Normalerweise fällt der Begriff Hadoop, wenn preiswerte Hardware gewünscht ist. Es ist die wahrscheinlich günstigste Variante.

In einigen Fällen wird ein Unternehmen sich dafür entscheiden, direkt am Server angeschlossenes Storage und Host-Speicher zu nutzen. Während dies sicherlich die am einfachsten zu implementierende Methode ist, enthält diese „Zurück-in-die-Zukunft-Architektur“ alle Einschränkungen, die sie von Anfang an in Verruf brachten. Gemeint sind die fehlende Skalierbarkeit, vergleichsweise langsame Funktionen (im Falle der internen Festplatten) und eine schwierige Handhabe.

Die am weitesten verbreiteten Lösungen werden JBOD-ähnliche Systeme in der Nähe des Computerumfeldes platzieren, um den Datendurchlauf, den Ort und die Rechenpower an ein und demselben Ort zu haben. Es handelt sich um eine „Shared-Nothing“-Architektur, was bedeutet, dass die Knoten die Daten nicht wie in einer NAS-Konfiguration teilen. JBOD ist zudem nicht mit einer Funktionalität für Datenmanagement ausgestattet. Datenservices können mit einer unabhängigen Software erlangt werden, wenn sie nötig sind.

Scale-out NAS könnten möglicherweise nicht zur kostengünstigen Hardware im Sinne von Hadoop passen, aber sie haben ihren Platz in der Welt der Big-Data-Analyse. Scale-out NAS haben die Fähigkeit, Datendurchlauf und Kapazität gleichzeitig oder unabhängig voneinander zu skalieren. Außerdem haben die meisten Lösungen für Scale-out NAS, im Gegensatz zu JBOD, komplexe Funktionen wie das automatisierte Storage-Tiering. Tiering hilft Administratoren, das System auf optimale Performance und geringste Kosten pro gespeichertem GByte einzustellen.

Hochwertige Scale-out-NAS-Systeme können viele Petabytes an Daten speichern, was für die meisten kommerziellen Anwendungen ausreicht. Sie enthalten dazu ihr eigenes verteiltes Dateisystem oder eine Clustervariante. Dies ist für Analyseanwendungen günstig, schränkt jedoch die Aufnahme von Daten auf bestimmte Formate ein und verlangt die Extrahierung, Transformierung und Vorverarbeitung vor dem Laden. Scale-out NAS können sicherlich Millionen oder Milliarden kleiner Dateien verarbeiten, aber die Stärke von Scale-out NAS liegt beim Verarbeiten größerer Dateien.

SSD-Arrays haben damit zu kämpfen, dass sie sehr teuer sind und nicht als logische Alternative für Big Data aufgefasst werden. Wie jedoch schon zuvor angemerkt, ist der Wert des Wettbewerbsvorteils möglicherweise höher als zunächst die Kosten für die Infrastruktur. Bedenkt man, dass Big Data ein Echtzeit-Prozess sind, wo I/O sich als Engpass erweisen kann, können SSD-Arrays Informationen deutlich schneller erlangen, als es traditionelle Architekturen vermögen.

SSD-Arrays sind von Natur aus nicht monolithisch und können für Hadoop wie JBOD angewendet werden (damit haben wir gerade ein Akronym erfunden: JBOSSD). Obwohl SSDs im Vergleich zu HDDs recht kostspielig sind, hat sich die Preisdifferenz im Laufe der letzten Jahre auf der „Pro-GByte-Basis“ verringert. SSD-Technologie hat einen großen Preisvorteil auf einer Pro-IOPS-Basis. Wenn Hunderttausende IOPS benötigt werden, gibt es für SSDs keinen Ersatz.

Objektbasiertes Storage ist kommerziell noch in den Kinderschuhen. Doch können sie signifikante Vorteile im Big-Data-Bereich bieten. Diese Speicherart kann bei verteilten Knoten auf JBOD-Hardware eingesetzt werden und Datenkonsistenz über das verteilte Netzwerk aufrechterhalten. Diese Speicherlösung verwendet eher Replikation und verteilte Hash-Tabellen anstatt RAID, um die Wiederherstellbarkeit von Daten sicherzustellen. Dazu kann objektbasiertes Storage Bit Torrent nutzen, ein Protokoll für P2P-Filesharing. Anstatt auf dem Blocklever zu arbeiten, verwenden diese Lösungen größenflexible Datencontainer (perfekt bei schwer einschätzbaren Datentypen).

Theoretisch ist ein Objektspeicher hochskalierbar und gut für Big Data geeignet, doch kommerzielle Beweise sind bislang spärlich. Unternehmen, die nach einer wirklich konkurrenzfähigen Möglichkeit Ausschau halten, könnten an einem Versuch interessiert sein, einen Objektspeicher zu implementieren.

Über den Autor: Phil Goodwin ist Storage-Consultant und freischaffender Autor.

Architektur von Big-Data-Speichern
Architektur Beschreibung Anwendungsfälle
Verteilte Knoten Am häufigsten implementiert als kostengünstige JBOD-Lösung; direkt an den Server angeschlossen; kann direkt angeschlossenes Storage sein oder sogar Serverspeicher Hadoop, kleinere verteilte Dateien
NAS NAS, das zugleich oder jeweils skalierfähig bei Durchsatz und Kapazität ist; hat gewöhnlich eigenes verteiltes Dateisystem oder ein Clustersystem Verarbeiten größerer Dateien; eher traditionelles Extrahieren, Transformieren, Laden und Implementieren von Big Data
SSD-Arrays Reine SSD-Arrays können wie JBOD oder verteilte Knoten implementiert werden oder als traditionelles, voll ausgestattetes Array Hochleistungsverarbeitung – wenn Zeit Geld ist
Objektbasiertes Storage Speichert Daten in flexiblen Containern, nicht in Blöcken; verwendet Hash-Tabellen und Replikation anstelle von RAID; gestattet P2P-Filesharing über die verteilten Knoten Unternehmen, die sich vor Experimenten nicht scheuen, um einen Wettbewerbsvorteil zu erzielen

 

Artikel wurde zuletzt im September 2013 aktualisiert

Erfahren Sie mehr über Enterprise-Storage: Planung und Management

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchNetworking.de

SearchEnterpriseSoftware.de

SearchDataCenter.de

Close