Red Hat Storage Server: Big Data und Open Source

Zusammen mit dem Red Hat Storage Server erlaubt Open Source wie Hadoop, OpenStack und Savanna Big-Data-Anwendungen auf Basis offener Standards.

Die große Mehrheit der Big-Data-Anwendungen läuft heute unter Linux. Einer der Gründe dafür: Rasant wachsende Datenvolumina und anspruchsvolle Analytics-Berechnungen erfordern eine leistungsfähige, zuverlässige, ressourceneffiziente und skalierbare Server- und Storage-Infrastruktur.

GlusterFS und OpenStack

Das skalierbare, verteilte Dateisystem GlusterFS unterstützt die drei Storagemodi von OpenStack: File, Block und Object. Dabei arbeitet GlusterFS auch mit RDO (Red Hat Distribution OpenStack) zusammen, einer von der Community unterstützten OpenStack-Version. Die Befehle zum Einsatz von GlusterFS mit OpenStack sind für die nativen OpenStack-Storage-Interfaces Swift, Cinder und Glance dokumentiert.

In vielen Branchen gerät die explosionsartig wachsende Menge unstrukturierter Daten außer Kontrolle, die als Dokumente, E-Mails, Bilder, Video- und Audio-Files sowie im Social-Media-Umfeld erzeugt werden. Die Marktforscher von IDC schätzen, dass sich die Datenmengen, die innerhalb eines Jahres produziert, vervielfältigt und konsumiert werden, bis 2020 alle zwei Jahre verdoppeln – und 90 Prozent des digitalen Universums besteht aus unstrukturierten oder semistrukturierten Daten. Fast alle Unternehmen stehen bei der Verarbeitung und Speicherung der Daten vor erheblichen Herausforderungen.

Softwarebasierte Speicherlösungen wie der Red Hat Storage Server adressieren den steigenden Bedarf nach kostengünstigem und skalierbarem Speicher. Sie unterstützen Unternehmen dabei, das explodierende Volumen unstrukturierter Daten zu bewältigen. Eine wichtige Rolle in diesem Szenario spielen Innovationen, die aus der Open-Source-Community stammen.

Das gilt etwa für das verteilte Dateisystem GlusterFS von Gluster, einem Open-Source-Anbieter von Scale-Out -Storage-Lösungen zur Verwaltung unstrukturierter Daten. Red Hat hat Gluster im Herbst 2011 übernommen. Heute ist GlusterFS der zentrale Baustein des Red Hat Storage Server und damit von Big-Data-Infrastrukturlösungen, die eine Zusammenführung von File Storage und Object Storage ermöglichen. Sehr große Datenmengen lassen sich so gemeinsam in einem einzigen Storage-Pool speichern. Die Kombination von File und Object Storage vereinfacht die Verwaltung unterschiedlichster Daten und bietet eine höhere Speicher- und Informationsflexibilität. Unternehmen sind damit in der Lage, das rasante Wachstum unstrukturierter Daten zu bewältigen und können schneller sowie kostengünstiger auf die Daten zugreifen.

Gezielte Auswertung von Big Data

Als Basistechnologie zur Auswertung sehr großer und komplexer Datenmengen hat sich seit einigen Jahren Hadoop etabliert, ein in Java erstelltes Framework für datenintensive verteilte Anwendungen auf x86-basierten Systemen. Seit dem Jahr 2008 ist Hadoop ein Projekt der Apache Foundation. Hadoop basiert unter anderem auf dem MapReduce-Algorithmus von Google, der eine automatische und parallele Verarbeitung von Arbeitsaufträgen vorsieht. Dabei werden die Daten in zahlreiche kleine Work-Fragmente unterteilt und zu einem beliebigen Knoten des Clusters transportiert. Die Map-Funktion erzeugt aus dem gesamten Input eine Liste von Zwischenresultaten, die anschließend durch die Reduce-Funktion komprimiert und weiter aufbereitet und analysiert werden.

Das auf Cluster-Knoten verteilte Dateisystem HDFS (Hadoop Distributed File System) ist neben MapReduce der zweite zentrale Bestandteil von Hadoop. HDFS speichert in der Regel Daten in 64 MByte großen Blöcken, unterstützt so paralleles Verarbeiten und eignet sich zum Lesen großer Datenmengen. Ein wichtiges Merkmal von HDFS ist die eingebaute Redundanz. Die Architektur sieht vor, dass HDFS auf hunderten von x86-Standard-Servern laufen kann, von denen auch einige ausfallen können. Daher speichert Hadoop in der Standardeinstellung jeden Datenblock dreimal. Allerdings führt diese Art der Replikation zu einer erhöhten Latenz und einem geringeren Durchsatz.

So arbeitet Apache Hadoop heute. (Quelle: Red Hat)

Als Schwachpunkt des HDFS gilt der NameNode, er ist der Single Point of Failure. Der NameNode enthält die Metadaten einer Konfiguration und fungiert als eine Art File Allocation Table für ein HDFS-Cluster. In einer Master-Slave-Architektur bearbeitet der NameNode die Anfragen, verteilt die Aufgaben an die Slave-Knoten und speichert die Metadaten. Fällt der NameNode aus, ist das HDFS nicht mehr verfügbar.

Dagegen enthält der Red Hat Storage Server, mit seinem verteilten Dateisystem als Herzstück, keinen Metadaten-Server und damit keinen Single Point of Failure. Der Red Hat Storage Server platziert und lokalisiert Dateien mit einem Hashing-Algorithmus. Dabei wird ein Hashwert für den Dateinamen und -pfad berechnet.

Kombination aus MapReduce und Filesystem ohne Metadaten-Server

Bislang kommt Hadoop vorwiegend in Cloud-Umgebungen zum Einsatz, etwa bei Amazon, Google oder Facebook. Diese Firmen nutzen Hadoop jeweils auf Basis eines proprietären Frameworks und Stacks. Mit einem Hadoop Plug-in für Red Hat Storage eröffnet sich eine Storage-Option für den Unternehmenseinsatz von Hadoop. Die API-Kompatibilität wird beibehalten und ein lokaler Datenzugriff ist möglich. Red Hat Storage Server lässt sich damit entweder zusammen mit HDFS oder an dessen Stelle einsetzen und öffnet Hadoop-Implementierungen für datei- oder objektbasierte-Applikationen. Im weiteren Verlauf dieses Jahres will Red Hat das Hadoop Plug-in an die Hadoop-Community übergeben.

So arbeitet Apache Hadoop mit Red Hat Storage zusammen. (Quelle: Red Hat)

Einer der Vorteile des Hadoop Plug-ins: Es umgeht die Schwäche des HDFS NameNode als Single Point of Failure. Statt des zentralen NameNode übernimmt der verteilte Hadoop Tasktracker die entscheidenden Aufgaben. Das skalierbare Dateisystem von Red Hat Storage Server läuft auf den x86-Servern, auf denen auch MapReduce ausgeführt wird. Unternehmen können so ihre bereits vorhandene IT-Infrastruktur effizienter nutzen, indem sie einen Teil der Server für Big-Data-Analysen einsetzen. Dazu müssen die Daten nicht von einem Speichersystem zu einem Compute-Knoten transportiert werden.

Stattdessen sind die benötigten Daten lokal auf dem Red Hat Storage Server verfügbar und es kommt zu keiner Netzwerk-Latenz. Das Hadoop Plug-in ist laut Red Hat vollständig kompatibel mit HDFS, zuvor mit Hadoop verwendete MapReduce-Routinen müssen nicht angepasst werden. Da Red Hat Storage POSIX und Geo-Replication unterstützt, können Hadoop-Anwender das Filesystem beispielsweise mit NFS und CIFS mounten und damit Features wie High Availability und Disaster Recovery nutzen, über die Hadoop standardmäßig nicht verfügt – und dies alles auf Basis von Apache-Open-Source-Software.

Mit Hadoop vom eigenen Rechenzentrum in die Cloud

Das Open-Source-System Hadoop hat das Potenzial, bei Big Data weitreichende Standards zu setzen. Amazon, Google und Co. haben anfangs Hadoop in reinen Cloud-Umgebungen eingesetzt und ihre Frameworks kontinuierlich weiterentwickelt. Das Hadoop Plug-in ermöglicht Unternehmen auf Basis offener Standards Big-Data-Anwendungen On-Premise zu implementieren. Der nächste Schritt besteht darin, dass Unternehmen Big Data im Rahmen von offenen hybriden Clouds nutzen, gewissermaßen als Alternative zu Elastic MapReduce von Amazon Web Service.

Die Big-Data-Infrastrukturlösungen und Applikationsplattformen von Red Hat für den Einsatz in offenen, hybriden Cloud-Umgebungen. (Quelle: Red Hat)

Dazu haben Hortonworks, Anbieter einer Hadoop-Distribution, Red Hat und der US-amerikanische OpenStack-Systemintegrator Mirantis im April 2013 angekündigt, dass sie Hadoop unter dem Projektnamen Savanna in einer OpenStack-Cloud anbieten wollen. OpenStack ist ein Framework zur Erstellung und Verwaltung von Public, Private und Hybrid Infrastructure-as-a-Service (IaaS) Clouds, das aus den zentralen Komponenten Compute (bekannt auch unter dem Namen Nova) und Object Storage (Swift) besteht. In der Regel wird Hadoop heute auf physischen Servern installiert. Ziel von Savanna ist es, Hadoop in virtuellen Maschinen zu betreiben, die von OpenStack Nova verwaltet werden.

Ferner soll Savanna vorübergehend ungenutzte Rechenressourcen einer OpenStack-Cloud für Hadoop zur Verfügung stellen. Zunächst lassen sich mit Savanna virtuelle Hadoop-Cluster auf OpenStack-Basis einrichten. Für die zweite Implementationsphase sollen Anwender auch komplexe Cluster-Operationen nutzen können. Im Endausbau sollen umfangreiche Funktionen für „Analytics as a Service“ bereitstehen. Anwender können dann je nach Bedarf Rechenkapazitäten für aufwendige Big-Data-Analysen im eigenen Unternehmen und in offenen, hybriden Clouds nutzen.

Über den Autor: Gerald Sternagl ist EMEA Business Unit Manager Storage bei Red Hat

Artikel wurde zuletzt im Juli 2013 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Erfahren Sie mehr über Storage-Anbieter

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchNetworking.de

SearchEnterpriseSoftware.de

SearchDataCenter.de

Close