Essential Guide

Big Data: Anwendung, Datenschutz und Technologie

Eine umfassende Auswahl von Artikeln, Videos und mehr, die von unseren Redakteuren gewählt wurden.

Big Data und Hadoop: Data Center für Daten-Management und Analysen fit machen

Integrieren Storage-Administratoren Big Data und Hadoop in Storage-Umgebungen, erleichtert dies das Daten-Management und die Analyse im Data Center.

Mittlerweile sieht es so aus, als wäre Big Data überall. Allerdings ist Big relativ, der eigentliche Fokus sollte auf Data liegen. Die Analyse von Big Data benötigt sehr viele Daten. Das Speichern und Absichern von Daten, sowie die Bereitstellung dieser, setzt Anstrengungen beim Daten-Management voraus.

Viele Big-Data-Plattformen, wie zum Beispiel Hadoop und NoSQL- sowie nicht-relationale Datenbanken verwenden eine sogenannte Shared-Nothing-Architektur. Allerdings ist diese Form von Architektur für Storage-Manager problematisch.

Viele Storage-Profis haben Jahre, wenn nicht Jahrzehnte damit verbracht, Daten auf so wenige Storage-Silos wie möglich zu konzentrieren. Anwendern hat man eingeimpft, alles auf dem Server zu speichern, damit man diese Daten sauber sichern und angemessen managen kann. RAID-Systeme wurden optimiert, um maximale Performance und Zuverlässigkeit in Mandanten-fähigen und gemeinsam genutzten Storage-Systemen anzubieten.

Doch dann kam Hadoop und warf diese Ordnung über den Haufen. Hadoop lässt sich am besten in einer verteilten Umgebung mit lokalem Server-Storage betreiben. Dieses Storage-Modell passt überhaupt nicht in das Unternehmenskonzept von Zuverlässigkeit, Verfügbarkeit und Betriebsfähigkeit. Tatsächlich könnte man der verteilten Natur der Shared-Nothing-Architekturen sogar unterstellen, nicht für Unternehmen geeignet zu sein.

Das große Storage-Problem mit Big Data

Viele Unternehmen sammeln derzeit immer noch erste Erfahrungen mit Big Data. Somit ist es möglicherweise klug, eine separate Infrastruktur für das Big-Data-Projekt zu erstellen. Dafür sollte man sich an die Empfehlungen halten, die der Plattform-Hersteller für die Infrastruktur gibt. Im Fall von Hadoop sind das viele verteilte Nodes und lokales Storage, das über herkömmliches LAN verbunden ist. Der Vorteil eines solche Szenarios ist, dass es die Sandbox des Hadoop-Projekts von der produktiven Umgebung trennt.

Allerdings ist dieses Design in einigen Schlüsselbereichen nicht optimal:

  • Daten werden dupliziert.
  • Es gibt sehr viele Datenverschiebungen, die aus ETL-Prozessen (Extract, Transform und Load) resultieren.

Wie bereits erwähnt, haben Storage-Administratoren viel Zeit investiert, um die gespeicherten Daten zu normalisieren. Damit diese Normalisierung so effizient wie möglich ist, gibt es spezielle Produkte wie zum Beispiel Deduplizierungs-Appliances. Erstellt ein Unternehmen nur für Big Data eine abgetrennte Umgebung, kommen viele Vorteile von Daten-Deduplizierung und -Kapazitäts-Optimierung nicht zur Geltung.

Neben dem Management von deduplizierten Daten besteht eine weitere Herausforderung darin, die Datenmenge aus den Data-Warehousing- in die Big-Data-Umgebungen zu verschieben. Dabei kommt es auf das Design der Big-Data-Umgebung an. Vielleicht repliziert man Daten und diese sind permanent in der Big-Data-Umgebung vorhanden. In vielen Fällen importiert man die Daten bei jeder Iteration. Dieser Import ist auch als ETL bekannt. Daten werden von der Quelle, wie einem Data Warehouse, extrahiert. Im Anschluss transformiert man die Daten, um diese mit der Big-Data-Umgebung kompatibel zu machen. Danach lädt man diese in die Ziel-Umgebung ein. Der ETL-Prozess kann für das Storage-Netzwerk aber eine Stresssituation erzeugen.

Wenn wir nun annehmen, dass die Big-Data-Infrastruktur von der restlichen Unternehmens-Umgebung separiert ist, können Sie herkömmliche und existierende Daten-Management-Applikationen wahrscheinlich nicht verwenden. Damit lässt sich die Big-Data-Umgebung nicht managen, optimieren und aufrechterhalten.

Das „Storage-Nirwana“ ist möglich (mit HDFS)

Im Idealfall sollten Daten über alle Plattformen hinweg normalisiert sein, von OLTP zu OLAP zu Big Data und so weiter. Dieses Konzept bezeichnet man häufig als „Single Source of Truth“. Das Design ist dabei auf Performance, Kapazitäts-Effizienz, Verfügbarkeit und Verwaltbarkeit optimiert.

Um dieses „Storage-Nirwana“ erreichen zu können, müssen sich Storage-Manager damit abfinden, dass Big-Data-Analyse mit absoluter Sicherheit ins Data Center einzieht. Storage-Administratoren sollten bereits mit den Vorbereitungen beginnen, um den Weg für das neue Infrastruktur-Design zu ebnen. Am besten fangen Sie an, indem Sie Protokolle wie HDFS (Hadoop Distributed File System) zur Verfügung stellen und damit eine neue Art des Datenzugriffs ermöglichen.

Diesee Ansatz ist nicht nur für Unternehmen geeignet, sondern auch für Big Data. Derzeit sind nur eine handvoll Storage-Systeme in der Lage, HDFS als eine Schnittstelle anzubieten (am bekanntesten sind wohl die Isilon Storage Arrays von EMC). Eine Alternative ist, eine Big-Data-Distribution mit Hadoop einzusetzen, die herkömmliche Storage-Protokolle unterstützt, wieetwa NFS. In diesem Fall bietet die Hadoop Distribution von MapR Technologies native Unterstützung für NFS.

Schließlich werden Storage-Administratoren ihre bestehenden Storage-Systeme und -Architekturen weiterentwickeln müssen, damit sie eine durch Objekte adressierbare Storage-Architektur erstellen (auch Object-based Storage genannt) können. Vielen Storage-Managern ist dabei nicht bewusst, dass es sich bei Hadoop nicht um eine einzelne Software, sondern um ein Framework handelt. Der für das Storage verantwortliche Teil des Frameworks ist HDFS.

Als ein Dateisystem stellt HDFS ein gewisses Niveau an Daten-Management zur Verfügung.  Tatsächlich kann HDFS seine Eigenschaften einsetzen, um eine Umgebung zu erschaffen, die sich komplett von Objekten adressieren lässt. Immer mehr unabhängige Softwareanbieter bieten Gateways zu HDFS an, damit sich das Hadoop-Dateisystem in herkömmliches Netzwerk-Storage integrieren lässt. Möglicherweise verwerfen einige Unternehmen in Zukunft sogar traditionelle POSIX-konforme Dateisysteme und ersetzen diese durch Storage-Systeme, die auf HDFS basieren.

Beim Storage-System EMC Isilon handelt es sich beispielsweise um eine skalierbare Storage-Architektur. Sie können EMC Isilon mit existierenden Storage-Management- und Data-Center-Management-Lösungen wie zum Beispiel VMware vCenter verwalten. Durch die Skalierbarkeit und die Unterstützung für HDFS lässt sich die Performance bei EMC Isilon optimieren, indem Sie I/Os auf mehrere Controller Nodes verteilen. Entscheidend ist aber, dass die Daten an einem Platz bleiben. Für die Big-Data-Analyse müssen Sie die Daten nicht verschieben.

Kommen Daten von einem Endgerät wie einem Smartphone, Tablet, Desktop oder Notebook, werden diese anfangs möglicherweise mithilfe einer SMB-Schnittstelle geschrieben. Unternehmenskritische Anwendungen holen sich diese Daten via NFS. Dieselben Daten können mithilfe der HDFS-Schnittstelle auch Teil des Hadoop Frameworks sein. Dabei müssen diese Daten niemals von einem System extrahiert, transformiert und auf ein anderes geladen werden.

Dieser Ansatz bietet einige attraktive Vorteile für Unternehmen:

  • Die Daten lassen sich je nach Firmen-Policy komprimieren oder deduplizieren.
  • Sie können Backups der Daten erstellen und diese managen, wie Sie das mit herkömmlichen Storage-Systemen gewohnt sind.
  • Der Ursprung der Daten lässt sich nachvollziehen, was wiederum positiv für die Konformität ist.

Das Konzept eines per Objekt-adressierbaren Storage unterscheidet sich nicht von einer Datei-Synchronisations-Umgebungen wie Box oder Dropbox. In diesem Fall nutzen aber nicht Endgeräte die Daten, sondern unternehmenskritische Anwendungen. Die Übertragbarkeit der Daten bietet neue Optionen, wie diese von Unternehmen genutzt werden können. Der Ansatz minimiert zudem den Druck, der sowohl auf dem LAN als auch dem SAN liegt, da sich ETL beseitigen lässt.

Anwender sollten Ihre Storage-Anbieter ermutigen, dass die Integration von HDFS beschleunigt wird. Gleichzeitig sollten Anwender Storage-Anbieter misstrauisch betrachten, die (konvergente) Infrastrukturen anbieten und die für den Einsatz mit diversen Hadoop-Distributionen designt wurden. In den meisten Fällen bedeutet das, dass der RAID Controller viele LUNs erstellen kann und mehrere Block-Verbindungen zu einem Hadoop Cluster erlaubt. Das heißt aber nicht, dass das Storage-System via HDFS mit Hadoop kommuniziert.

Eine Reihe von Anbietern haben Appliances auf den Markt gebracht, die speziell für Hadoop geschaffen wurden. Dazu gehören die Referenz-Architekturen NetApps FlexPod Select for Hadoop, die Hortonworks Data Platform verwendet, Pivotals Data Computing Appliance (DCA) und IBMs PureData System for Hadoop Appliances. Diese Angebote beinhalten die eng verknüpften Komponenten Server, Netzwerk, Storage und Hadoop-Distributionen. Damit will man neben dem Einsatz auch die Wartung optimieren. Allerdings bieten die darunter liegenden Storage-Systeme keine nativen HDFS-Schnittstellen. Im Fall von Pivotal DCA ist das Storage für jedes Node lokal. Anbieter mit Storage-Systemen inklusive nativer HDFS-Integration sind unter anderem EMC Isilon und Hewlett-Packard Vertica Connector for Hadoop.

Ausnahmen bestätigen die Regel

Die obige Diskussion beschäftigt sich zum Großteil mit der Integration von HDFS in das Storage. Es gibt allerdings noch eine Möglichkeit, wie sich Storage und Hadoop vereinen lassen. Wie bereits erwähnt, handelt es sich bei Hadoop um ein Framework. HDFS ist wiederum ein Modul, das mit Hadoop interagiert. Die Ausnahme wäre in diesem Fall, HDFS erst gar nicht zu verwenden. Man würde es mit einem anderen Dateisystem ersetzen, das sich ebenfalls mit Hadoop verbinden lässt.

GPFS (General Parallel File System) von IBM ist beispielsweise eine Alternative zu HDFS. Im Endeffekt würde ein Storage-Administrator einige Verantwortungen bei der Integration des Datenspeichers an den Hadoop-Administrator abtreten. Eine Schwierigkeit bei diesem Ansatz ist, dass die Komplexität der Big-Data-Umgebung deutlich wächst. Die Wartung der Big-Data-Umgebung ist ebenfalls fraglich. Nebenbei bemerkt benutzt IBMs PureData-Lösung GPFS. Sollte Ihre Big-Data-Umgebung komplett „Blue“ sein, dann ist der von IBM eingeschlagene Weg für Ihr Unternehmen wohl der empfohlene.

Storage für Big Data

Big Data und Hadoop sind ein großartiger Anreiz, um die Storage-Infrastruktur in Ihrem Unternehmen zu überprüfen und zu bewerten. Storage-Administratoren müssen sich überlegen, wie sie die existierenden Infrastrukturen flexibler, dynamischer und freundlicher für viele Anwendungen gestalten können.

In der nächsten Generation von virtualisierten Data Centern werden die Daten im Mittelpunkt stehen und nicht das Computing. Storage-Administratoren müssen sich bewusst sein, dass Sie die Verantwortung haben, eine Infrastruktur zu erschaffen, die die Verschiebung von Daten zwischen Applikationen minimiert oder im Idealfall sogar komplett eliminiert. Storage-Manager müssen sich außerdem damit befassen, wie diese Entwicklung Backup- und Disaster-Recovery-Strategien beeinflusst.

Das wichtigste ist aber, dass sich Storage-Administratoren bewusst sind, dass es sich um eine Evolution und keine Revolution handelt. Nehmen Unternehmen diese Entwicklung schneller an, haben sie gegenüber der Konkurrenz möglicherweise einen Vorteil.

Eine Sache ist bei Big Data aber klar: Sollten Sie die Technologie nicht einsetzen, wird es Ihre Konkurrenz tun. Deswegen sollten Sie der Entwicklung offen gegenüber stehen und die IT-Abteilung von einem Kosten-Faktor in einen dynamischen Informations-Service-Provider verwandeln.

Über den Autor: Ben Woo ist Gründer und Geschäftsführer der Marktforschungs-Firma Neuralytix. Ben schreibt regelmäßig Artikel für SearchStorage.com sowie andere TechTarget-Publikationen und hält Vorträge bei Storage Decisions.

Folgen Sie SearchStorage.de auch auf Facebook, Twitter und Google+!

Artikel wurde zuletzt im Juni 2014 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchNetworking.de

SearchEnterpriseSoftware.de

SearchDataCenter.de

Close