Die beste Storage-Lösung für die Big-Data-Analyse wählen

Die Analyse von Big Data bringt Vorteile gegenüber der Konkurrenz. Allerdings müssen Sie dafür insbesondere beim Storage die richtige Wahl treffen.

In diesem Artikel: Unternehmen aller Größen können Vorteile aus der Analyse von Big Data ziehen, um einen Vorteil gegenüber Ihren Konkurrenten zu erreichen. Das Problem ist aber, wie der unkomplizierte Datenzugang bei einer großen Menge an Informationen kosteneffektiv zu gestalten ist? Dieser Artikel stellt verfügbare Technologien vor und wie sie in der Welt der Big Data helfen können.

Big Data ist derzeit ein aktuelles Thema. Besonders hervorgehoben, im negativen Sinne, wurde die Thematik im Zusammenhang mit der National Security Agency (NSA) und ihrer massenhaften Erfassung von Telefondaten. Die Mehrheit der Ziele von Big Data ist aber eher alltäglicher Natur: zum Verbessern der Produktqualität durch Erhebungen aus dem Kundenservice. Um festzulegen, welche Produkte sich für optimales Merchandising am besten zusammen verkaufen. Um spezifische Preisdaten für konkrete Vorhaben zu vergleichen und Einsparungspotentiale zu finden. Tatsächlich gibt es Big Data in allen Industriezweigen: im Finanzbereich, im Gesundheitsbereich, im Handel, in der Politik, um nur einige zu nennen. Im Wirtschaftsbereich liegt der Nutzen auf der Hand: einen wettbewerblichen Vorteil zu erlangen und den Profit zu verbessern. Während der frühe Vogel den Vorteil und den Wurm hat, werden Nachzügler ihre Energie darauf verwenden müssen, den Abstand aufzuholen.

Storage-Lösungen sind der Schlüssel zu Big Data

Anbieter von Storage-Systemen konzentrieren sich auf Big Data, weil sie es sind, die diese Billiarden Bytes an Daten aufbewahren und verwalten. Aus der Perspektive eines Unternehmens hingegen geht es vor allem um die Analyse von Big Data oder von der Anwendungsseite, welche Erkenntnisse aus der gewaltigen Datenmenge abgeleitet werden können. Dies ist ein wesentlicher Unterschied: Ginge es lediglich darum, diese Datenmenge aufzubewahren, wäre die Architektur anders gestaltet – die größte Kapazität zu geringen Kosten und angemessene Datensicherung. Wenn es jedoch um den Wettbewerbsvorteil und die Gewinnmaximierung geht, rechtfertigen permanente Datenaktualität und maximale Rechenpower zur Auswertung einen höheren Preis. Unternehmen, die beispielsweise Änderungen im Kundenverhalten früher als Ihre Konkurrenten erkennen können, öffnen sich als Pionier die Tür zu potentiell lukrativen Märkten und Trends.

Die Bezeichnung „Big Data“ ist definitiv kein uneingeschränkt nützlicher Begriff, da er die Frage aufwirft, ab welcher Datenmenge die Größe „Big“ beginnt. Rein logisch stellt sich ebenfalls die Frage, ob es auch „Medium Data“, also mittelgroße Datenvolumen neben den großen Daten gibt. Sicherlich können Größenordnungen wie Petabytes an Daten anfallen, doch dies ist nicht zwangsweise der Fall. Es geht mehr um den analytischen Prozess, als um die schiere Menge der gespeicherten Daten. Im Begriff Big Data ebenfalls enthalten ist die unvorhersehbare Art der anfallenden Daten in Hinsicht auf Quelle und Format. Manche Beobachter werfen ein, zu Big Data gehörten traditionelle Systeme zum „Extrahieren, Transformieren und Laden“ (ETL), die Daten in kommerzielle, relationale Datenbanken einspeisen. Aktuell hört man von Big Data zumeist im Zusammenhang mit dem Open-Source-Framework Hadoop.

Theoretisch kann jedes Unternehmen, ob groß oder klein, von Big Data und deren Analyse profitieren. Der limitierende Faktor ist die notwendige Expertise zur Implementierung und um aus der Analyse brauchbare Informationen ziehen zu können, die nicht nur willkürliche Eingrenzung der Daten. Ein Storage-Manager würde als wesentliche Überlegung anführen, wie ein kosteneffektiver und agiler Zugang zu den Daten erfolgen soll, die eine unvorhersehbare und potentiell enorme Menge an Informationen enthalten können. Mit allen Technologien, die für Storage zur Verfügung stehen, sollte die reine Datenhaltung niemals das Hindernis bei der Analyse von Big Data sein.

Big Data oder Big I/O?

Ein besserer Begriff als Big Data, zumindest aus Sicht eines Storage-Managers, könnte „Big I/O“ sein. Die Unvorhersehbarkeit von Big Data hindert den Manager daran, einschätzen zu können, welche oder wie viele Daten gerade gefragt sind. Daher muss die Fähigkeit, bestimmte Anforderungen wie I/O vorherzusagen, eine ungenaue Wissenschaft bleiben. Storage-Manager wählen daher Systeme und Architekturen, die die höchstmögliche Flexibilität bieten, um jeden möglichen Parameter in der Performance-Gleichung bei Bedarf anpassen zu können.

Obwohl ETL undData-Warehouse-Umgebungen bereits als Big-Data-Anwendungen verstanden werden können, gibt es einen entscheidenden Unterschied zwischen diesen traditionellen Analyseansätzen und Big Data: Echtzeit-Verarbeitung (real-time processing). Stellen Sie sich ein Zusammentreffen von Online-Transaktionsverarbeitung (OLTP) und einem Data Warehouse vor. Es kommt ein weiteres Element der mangelnden Vorhersagbarkeit hinzu, weil das Verarbeiten neuer Daten nach anderen Daten verlangen kann, die auf Low-IOPS-Festplatten liegen. Aus der Storage-Perspektive heißt dies, dass Big Data die Datendurchsatzanforderungen von OLTP zusammen mit der Kapazität eines Data Warehouses hat.

I/O-Anforderungen werden auch von der Art der Daten beeinflusst. Millionen oder Milliarden von kleinen Dateien können recht wahllos im Zugriff sein. Einige wenige größere Dateien werden am besten in langen, sequentiellen Lesevorgängen ausgeliefert. Diese Unterscheidung hilft Storage-Managern einzuordnen, welche Architektur am besten zur Aufgabe passt.

Datenmanagement

Storage-Manager sind an eine große Bandbreite von Datenspeicherressourcen in Arrays gewohnt. Hier ist eine Zusammenfassung, wie einige davon im Rahmen von Big Data einzusetzen sind.

RAID

Die Nutzung von RAID mag auf der Hand liegen, aber es gibt einige Besonderheiten. So arbeiten weitverbreitete Datenspeicher gewöhnlich in einer RAID-5-Konfiguration. Im Gegensatz dazu benötigen große zentrale Datenspeicher eine RAID-6-Funktionalität in Anbetracht der Größe des Speichers. Durch jede weitere Paritätsplatte fällt jedoch ein Overhead in Verarbeitung und Kapazität an, der durch Rechenleistung ausgeglichen werden muss. Als Alternative können objektbasierte Speicher dienen, die aber kein RAID nutzen, dafür jedoch Replikation auf alle verteilten Knoten, um Datenschutz dort zu erlangen, wo er gebraucht wird.

Thin Provisioning

Da Datenvolumen im Rahmen von Big Data nicht vorhersehbar sind, kann Thin Provisioning sicherstellen, dass die benötigte Kapazität vorhanden ist, ohne Überkapazitäten zu generieren.

Verschlüsselung

Intuitiv würde Verschlüsselung nicht als notwendig erachtet werden, wenn es um eine Anwendung geht, die gewöhnlich firmenintern und kurzlebig ist. Falls es sich bei den eingehenden Daten jedoch zumindest teilweise um sensitive, nicht allgemein zugängliche Daten handelt, die unter den Datenschutz fallen, sollte eine Verschlüsselung in Erwägung gezogen werden.

Automatisiertes Tiering

Unvorhersehbare IOPS-Anforderungen können durch automatisiertes Tiering gelöst werden. Hier werden „heiße“ Daten auf schnellere Medien verschoben und „kalte“ Daten hingegen auf kostengünstige Festplatten (HDDs) mit hoher Speicherkapazität. Einige automatisierte Tiering-Varianten verschieben häufig kleine Datenmengen, was bei Systemen mit einem hohen Aufkommen an kleineren Daten ideal ist. Andere Varianten verschieben selten, aber dann große Blöcke, am besten geeignet für Umgebungen mit größeren Dateien.

Remote-Replikation

Echtzeitanwendungen für Big Data stellen häufig Ergebnisse aus Wochen oder Monaten des Verarbeitens dar. Solche Systeme werden im Laufe der Zeit akkurater. Gehen diese Datensammlungen allerdings verloren, wirft dies das Unternehmen massiv zurück. Einige der Daten können wahrscheinlich auch nicht reproduziert werden. Folglich ist eine Remote-Replikation erforderlich, um eine Downtime im Falle eines größeren Systemversagens zu vermeiden. Die RPO (Recovery Point Objective) ist hierbei folglich absolut kritisch, auch wenn die RTO (Recovery Time Objective) weniger bedeutend ist.

Schlussbemerkungen

Unternehmen werden feststellen, dass die Verwendung von Hadoop oder eines ähnlichen Stacks die effizienteste Implementierung für Big Data ist. Aus Sicht der IT ist die Implementierung aber so unterschiedlich, dass ein ausgereiftes Konzept notwendig ist. Ein improvisierter Einsatz wird sehr wahrscheinlich mit Frust und Versagen enden.

Unternehmen müssen berücksichtigen, dass Big Data die Wiedereinführung von Informationssilos im Datacenter bedeuten kann. Nachdem in der vergangenen Dekade versucht wurde, diese Silos zu vermindern, sind IT-Unternehmen verständlicherweise zurückhaltend bei deren Wiedereinführung. Dennoch können die Vorteile der Big-Data-Analyse die Herausforderungen bei weitem überwiegen und die Storage Manager dazu bringen, umzudenken und die nötigen Anpassungen vorzunehmen. Als Ergebnis kann eine spannende Technologie die Business-Welt von Grund auf ändern.

Über den Autor: Phil Goodwin ist Storage-Berater und freischaffender Autor.

Artikel wurde zuletzt im September 2013 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Erfahren Sie mehr über Tiered-Storage

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchNetworking.de

SearchEnterpriseSoftware.de

SearchDataCenter.de

Close