Die Auswirkungen von Big-Data-Analytics auf Storage-Systeme

Anwendungen für Big-Data-Analytics stellen hohe Anforderungen an das Storage, das oft für diese Apps eine neue oder überarbeitete Struktur benötigt.

Sei es nun aus Wettbewerbsgründen oder internem Geschäftsdruck, CIOs, CDOs und CEOs wollen heutzutage mehr Wertschöpfung, einen besseren Einblick und mehr Intelligenz aus ihren Daten ziehen. Sie können es sich nicht länger leisten, Informationen zu archivieren, ignorieren oder zu löschen, die nützliche Werte für die Firma darstellen könnten.

Auf den ersten Blick erscheint es einfach: Man muss einfach nur alle Daten analysieren und ihren tatsächlichen Nutzwert ermitteln. Aber das Vorhalten von Daten hat seinen Preis. Es kann zur Herausforderung werden, große und stets wachsende Datenbestände zu verarbeiten, und diese auf Primär-Storage vorzuhalten ist nicht immer sinnvoll.

Vor einiger Zeit noch war es schwierig, das Vorhalten von Daten zu rechtfertigen, es sei denn sie hatten einen Unternehmenswert, wie zum Beispiel Compliance-Daten, Informationen mit strategischen Einblicken oder intelligente Daten für die Prozessoptimierung.

Diese Sicht verändert sich allerdings, nicht zuletzt auch aufgrund der aufkommenden Applikationen für Big-Data-Analytics. Viele Daten haben wenig sofortigen Wert, können aber für die Zukunft großes Potenzial bergen. Deswegen sollte man diese Daten vorhalten, denn wenn sie gelöscht sind, können mögliche künftige Geschäftsoptionen verloren gehen.

Architekturen für Big Data

Um wirklich aus allen Daten einen Wert zu schöpfen, müssen nicht nur wachsende Datenbestände gespeichert werden, sondern das Unternehmen benötigt eine spezielle Systemarchitektur, die Daten auf verschiedene Art und Weise verarbeitet und analysiert. Lange Zeit war der Standardansatz der, bestimmte strukturierte/transaktionale Elemente in Data Warehouses (DW) und ähnlichen Architekturen zu aggregieren, um BI-Workflows damit zu bedienen. Ältere oder File-basierte Daten für Compliance und gezielte Suchanfragen wurden archiviert. Dadurch unterstützten die Firmen sehr teure, auf Performance ausgelegte Scale-up-Plattformen für strukturierte abfragebasierte Analytik neben kapazitätseffizientem Storage, um historische und Compliance-Daten so lange zu sichern, bis sie nicht mehr nötig waren. Beide Architekturen sind bei der Implementierung und im Betrieb komplex und teuer.

Dieser eingeschränkte bi-modale Ansatz berücksichtige viele Datenwerte nicht. Der Markt war also reif für Innovationen, die nicht nur günstigere aktive Analysen bei höherer Skalierbarkeit und besserer Performance bieten, sondern auch dort die Lücke schließen, wo die wertvollen, aber ungenutzten Daten liegen. So fingen Hersteller an, native Suchanalysen in ihre Archivarchitekturen zu integrieren, damit die gespeicherten, kalten (inaktiven) Daten wieder aktiv nutzbar wurden. Heutzutage, nach entsprechenden Verbesserungen von Performance und Skalierbarkeit, entwickeln sich frühere Datengräber in Web-scale Object Storage wie zum Beispiel AWS S3.

Das aufkommende Hadoop-Ökosystem brachte vom HPC-Umfeld inspirierte, parallele Verarbeitung auf günstiger Hardware auf den Markt. Damit kann die breite Masse an Unternehmen kosteneffiziente, hoch skalierbare High-Performance-Analysen durchführen. Als eines der ersten Einsatzgebiete eignet sich Hadoop für das Ablegen von Rohdaten und das Hosten von ELT/ETL (Extract, Load, Transform/Extract, Transform, Load) für sehr strukturierte BI/DW-Architekturen. Ebenso ermöglicht das Hadoop-Ökosystem, Nutzwert aus weniger strukturierten, umfangreicheren und schneller aggregierenden Daten-Streams zu ziehen. Heutzutage verbinden komplexe Hadoop- und Hadoop-konvergente Angebote strukturierte und unstrukturierte analytische Fähigkeiten, die in betriebsfokussierten Big-Data-Analytik-Apps resultieren.

Es gibt interessante, neue Beispiele konvergenter (und damit einfacherer) IT-Architekturen, die hoch-skalierbares Storage mit hoch-skalierbaren Compute-Ressourcen kombiniert. Die Optionen für Unternehmen, Daten gewinnbringend zu analysieren, sind zahlreich wie nie, aber die Anzahl der Storage-Möglichkeiten übertrifft dies bei weitem. Es kann zur Herausforderung werden, die beste Option für die eigene Firma aus all den Angeboten herauszukristallisieren.

Schlüsselfaktoren für erfolgreiches Big Data

Sollen Daten in großem Umfang gespeichert und analysiert werden, muss folgendes beachtet werden:

  1. Obwohl Storage und auch Compute und Memory immer günstiger werden, so wachsen die analytischen Daten doch ständig an und mit ihnen die Kosten. Für die Berechnung des Budgets sollten Gebühren für Datenübertragung und -migration, Datenzugriff über die Aufbewahrungszeit hinweg, Kosten fürs Löschen und andere administrative und betriebliche Faktoren wie Storage-Management und Opex berücksichtigt werden.
  2. Data Protection, Business Continuity, Hochverfügbarkeit und Security werden bei steigender Skalierung nicht gerade einfacher. Speichern Unternehmen ihre Daten nur in ein oder zwei Standorten, so ist das Risiko hoch, bei Ausfällen oder Problemen Informationen zu verlieren.

Viele analytische Anforderungen lassen sich mit Batch-orientierter Datenverarbeitung adressieren. Allerdings werden mehr und mehr Resultate in Echtzeit umgesetzt, um damit dynamische Geschäftsprozesse zu unterstützen, wie das Adressieren potenzieller Kunden oder Kundenwünsche zu erkennen. Diese schnelllebigen operativen Erkenntnisse benötigen Workflows, die über multiple Systeme verlaufen, sowie meist viel Flash-Cache oder In-Memory-Verarbeitung.

Storage für umfassende analytische Datenbestände

Was braucht ein Unternehmen, das mehr und größere Daten nutzbringend speichern und analytisch auswerten will? Offensichtlich müssen die meisten Firmen mehr und größere Datenbestände verwalten können und somit dieses Problem adressieren. Ein gängiger Ansatz ist die Nutzung eines Scale-out-Designs, dem zusätzliche Storage-Nodes hinzugefügt werden können, wenn der Bedarf nach Speicherkapazität wächst. Scale-out-Produkte gewährleisten ebenso eine lineare Skalierung der Performance, um dem Datenwachstum standzuhalten. Weitere Kapazitäts-Nodes bedeuten auch mehr Nodes für IOPS. Bestimmte Architekturen ermöglichen es, Flash-basierte Nodes für die Optimierung der Latenz und kapazitätsreiche Nodes hinzuzufügen, die wiederum den Storage-Pool erweitern.

Viele Scale-out-Lösungen sind als Software-defined Storage (SDS) auf dem Markt. Das heißt, sie sind als Software erhältlich und lassen sich auf kosteneffizienterer Hardware installieren. Allerdings kaufen die meisten Anwender SDS als Appliance, vorkonfiguriert und konvergent, um den Aufwand der eigenen Implementierung zu umgehen.

Des Weiteren ist bei großen Analytiksystemen zu beobachten, dass die analytische Verarbeitung mit der Storage-Infrastruktur verbunden wird. Natürlich büßt die I/O-Performance ein wenig ein, wenn die zu analysierenden Daten auf einem separaten Storage-System gespeichert werden. Je mehr die Daten anwachsen und die Analysen umfassender werden, desto größer können diese Einbußen sein, bis sie zu einem regelrechten Problem werden.

Betrachtet man das immer populärer werdenden Hadoop-Ökosystem (YARN, MR oder SPARK), so erkennt man einen Paradigmenwechsel. Das Hadoop Distributed File System (HDFS) wurde konzipiert, um auf Scale-out-Clustern betrieben zu werden, die auch über hohe Rechnerleistung (Compute) verfügen. Parallelisierte Algorithmen und Job Scheduler verteilen die Analyseaufgaben an verschiedene Nodes, damit diese relevante Teile lokal gespeicherter Daten verarbeiten. Mit dem Hinzufügen von Nodes kann die Kapazität erhöht werden, während die gesamte Performance relativ konstant bleibt.

Da Hadoop eine Scale-out-Plattform für den Betrieb auf Standardservern ist, ist somit das HDFS eine SDS-Lösung für Big Data. Trotzdem gibt es einige Probleme bei der direkten Hadoop-Implementierung. Dazu gehören die gleichzeitige Verwaltung verschiedener Arten von Daten, gemischte Nutzer/Workloads mit variierenden Betriebssystemen und Multi-stage-Datenströme. Innerhalb eines Hadoop-Clusters kann es schwierig sein, Kapazität und Performance separat zu skalieren. Darüber hinaus müssen sich Hadoop-Produkte erst noch im Bereich des Daten-Managements etablieren, obwohl Hersteller wie Hortonworks und Cloudera hier die verbleibenden Lücken stetig schließen.

Die Tatsache, dass Unternehmensnetzwerke immer schneller werden, bedeutet für einige Anwendungsgebiete, dass der Einsatz eines separaten Scale-out-Storage, das eng verbunden ist mit dem Scale-out-Verarbeitungssystem, nützlich und sinnvoll sein kann. Anstatt die Verarbeitung mit Storage zu konvergieren, können lose miteinander verbundene Infrastrukturdomänen bestehende Management-Plattformen nutzen und Zugriffe auf Shared Daten mit unterschiedlichen Protokollen ermöglichen.

Bevor man bestehendes Storage nutzt, sollte man seine Analyseanforderungen in Betracht ziehen: Ist eine traditionelle Storage-Plattform für das Teilen zentraler Daten mit vielen ähnlichen Client-Workloads in der Lage, extrem viele unterschiedliche kleine Files (oder einige große Files) an die Analyse-Applikationen gleichzeitig zu verteilen? HDFS unterstützt zum Beispiel Analysen, die große Streams an seriellen Leseprozessen erfordert, während traditionelle NAS-Systeme sich auf Tiering oder Caching für aktive Daten konzentrieren, um Schreib- und Leseoperationen kleiner Files zu gewährleisten.

Großes Storage für Analysen verwalten

Wichtige Faktoren:

  1. Kapazitätsplanung. Große Datenbestände in einer mehr oder weniger endlos skalierbaren Scale-out-Infrastruktur zu verwalten ist nicht einfach. Die Kapazität muss ständig beobachtet und geplant werden, um Kosten zu optimieren und um genügend Speicherplatz zu gewährleisten.
  2. Cluster. Cluster jeglicher IT-Infrastruktur können bis auf Hunderte oder Tausende Nodes anwachsen, was ein effizientes Cluster-Management essentiell macht. Patching, Bereitstellung und andere Aufgaben werden ohne hochqualitatives Management umso schwieriger.
  3. Big-Data-Workflows. Gestaltet das Unternehmen ein effizientes Storage-System, so muss es die Daten aus einer End-zu-End-Perspektive (Lifecycle Management) betrachten. Dabei muss man den Daten von der Quelle, über die Resultate bis hin zur Content-Verteilung und zum Content-Gebrauch folgen – und natürlich auch zurück.
  4. Data Protection. Bei einer Skalierung ist es umso wichtiger, die Daten vor Verlust oder Beschädigung zu schützen und Wiederherstellungen zu ermöglichen. Hier helfen Snapshot-, Replikations-, Backup- und DR-Technologien, die für große Datenspeicher konzipiert wurden.

Blick in die Zukunft: Konvergente Data Lakes

Es scheint, als gehöre den konvergenten und hyper-konvergenten Systemen die Zukunft. Die Hadoop-Architektur ist nur ein Beispiel dafür. Mit dem Aufkommen von Container-Technologien können nun auch traditionelle Storage-Arrays direkt datenintensive Applikationen hosten.

IT-Konvergent geschieht auf verschiedenen Ebenen. Dazu gehört auch die Integration von Storage, Compute und Networking sowie das Mischen unterschiedlicher Datentypen, was dann zusammen komplexe Anwendungen unterstützt. Viele Hersteller propagieren das Konzept der Big Data Lakes, in denen alle relevanten Unternehmensdaten zunächst in einem Scale-out-Hadoop-Cluster aufgefangen, vorgehalten und verarbeitet werden. Daten aus diesem Master-Repository würden dann von Big-Data-Analyse-Anwendungen Anwendern direkt für verteilte Zugriffe bereitgestellt.

Die größten Herausforderungen des Data-Lake-Konzepts sind Governance und Security. Daten müssen sich exakt verfolgen lassen. Damit kann man herausfinden, was in welchem Analyseszenario wirklich nützlich ist und welche Daten verdeckt werden müssen, wie zum Beispiel Kreditkartennummern. Da der Zugriff über multiple Nodes auf den stets sich ändernden Data Lake erfolgt, lässt sich auch schwer verfolgen, wer wann auf welche Daten zugreifen darf und zugegriffen hat. Für die Datenqualität müssen Anwender wissen, welche Informationen die aktuellsten sind, woher sie stammen und was davon validiert wurde.

Cloud als Option

Gleichzeitig kommen auch wieder vermehrt HPC-ähnliche Umgebungen in die Rechenzentren, um hochskalierbare Analyseprozesse zu unterstützen. Dazu gehören unter anderem Lösungen wie PanFS von Panasas, Lustre-basierte Arrays wie EXAscaler von DDN oder Spectrum Scale mit GPFS von IBM.

Ebenso gehen Public-Cloud-Storage und erweiterbare Analyseverarbeitung Hand in Hand, wie AWS S3 oder Amazon Elastic MapReduce. Viele Cloud-Security-Systeme sind besser als einige RZ-Security-Ansätze. Somit werden Clouds zur realen Option, da sie auch sämtliche Compliance-Vorgaben bedienen können.

Entscheidende Punkte bei der Cloud-Betrachtung sind die Kosten und die Zeit, die das Verschieben der Daten in und über Clouds hinweg benötigt. Aber für viele Anwendungen müssen die Informationen nur einmal in die Cloud transferiert werden. Danach müssen nur noch Inkremente migriert werden. Cloud-Storage erzeugt langfristig auflaufende Kosten, die sich aber budgetieren lassen.

Mit SDS, Scale-out-Storage, konvergenten Infrastrukturen, Virtualisierung, Containern und Cloud-Ansätzen können Unternehmen nun kosteneffiziente, skalierbare Storage-Umgebungen aufbauen, die jede erdenkliche Analyseanforderung erfüllen.

Folgen Sie SearchStorage.de auch auf Twitter, Google+ und Facebook!

Artikel wurde zuletzt im April 2016 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchNetworking.de

SearchEnterpriseSoftware.de

SearchDataCenter.de

Close