echiechi - Fotolia

Hadoop-Distributionen verbessern HDFS

Die drei kommerziellen Hadoop-Distributionen Hortonworks, Cloudera und MapR helfen Unternehmen bei Installation und Betrieb von Hadoop-Umgebungen.

Das Open-Source Framework Apache Hadoop und das mit dieser Technologie verbundene Hadoop Distributed File System (HDFS) werden für Speicher und Analyse in Big-Data-Umgebungen benutzt. HDFS weist jedoch einige Beschränkungen auf: Dazu gehören schwacher Datenschutz, großer Ressourcenaufwand bei der Analyse und umfangreiche Lernprozesse.

Es gibt drei größere kommerzielle Hadoop-Distributionen, nämlich Hortonworks, Cloudera und MapR.  Diese können Unternehmen dabei helfen, HDFS-Fallstricke zu vermeiden. Von diesen drei unterhält Hortonworks die Implementierung, die Apache HDFS am nächsten ist. Cloudera bietet Verbesserungen in der Form von Projekten an, die dem Projektkatalog von Apache Hadoop hinzugefügt sind. MapR entdeckte frühzeitig, dass HDFS zuviel Ballast mit sich schleppte und so in den Rechenzentren von Unternehmen Probleme schaffen würde. Deshalb stieg MapR zugunsten seines eigenen Symmetrical File Systems bei HDFS aus.

Hortonworks: Die Open-Source-Plattform zu 100 Prozent

Das Management von Hortonworks legt Wert darauf, dass die Kunden begreifen, dass ihre Hortonworks Data Platform (HDP) zu 100 Prozent Open Source ist. Das Geschäftsmodell des Unternehmens basiert auf einer komplett unterstützten, Enterprise-ready Hadoop-Plattform, die den Unternehmenskunden das größtmögliche Wachstumspotential bietet. Hortonworks geht von einer Kundenbasis von 800 Unternehmen aus, bei einem jährlichen Umsatz von 122 Millionen Dollar (Stand Anfang 2016).

Hortonworks beabsichtigt, Innovationen auf den höheren Schichten des Hadoop-Stacks zu liefern. Innerhalb des letzten Jahres führte der Hersteller Hortonworks Data Flow (HDF) – basierend auf Apache NiFi, Kafka und Storm – für das Routing von Daten sowie für  die Logik von Transformations- und Systemvermittlung ein. HDF und HDP können separat oder zusammen erworben werden. Die Integration kann besonders nützlich sein, wenn Hadoop als zentrale Datenverdichtung und Prozessgrundlage für Anwendungen im Bereich von Internet of Things benutzt wird.

Die Vorgaben der Apache Foundation werden mehr auf der Speicherseite eingehalten – einschließlich von HDFS, Falcon für das Management von Data Lifecycle sowie von Atlas für Data Governance und Compliance.

Cloudera liefert Open Hadoop-Distributionen mit proprietären Add-ons

Cloudera hat laut eigenen Angaben 850 Unternehmenskunden für seine kommerzielle Hadoop-Distribution mit Namen Cloudera Data Hub (CDH). So wie Hortonworks positioniert sich auch Cloudera selbst als eine Enterprise-ready Hadoop-Distribution mit einem Open-Source-Code von Apache im Zentrum. Cloudera ist jedoch stärker bereit, komplementäre und proprietäre Add-on-Projekte anzustoßen und zu entwickeln, die auch der Open-Source-Community für eine gemeinsame Entwicklung angeboten werden.

So wird etwa Apache Kudu  als eine neue Speicher-Engine für das Hadoop-Ökosystem positioniert. HDFS war ursprünglich dazu entworfen worden, um MapReduce-Prozesse in großem Umfang zu unterstützen. In dieser Form war Kudu besonders performant unter Umgebungen mit großen Blöcken und sequentiellem Zugang. HBase wurde dann geschaffen, um Online Transaction Processing (OLTP) für SQL-Datenbanken hinzuzufügen, und funktionierte gut in Umgebungen mit kleinen Blöcken und wahlfreiem Zugang. Kudu kombiniert im Prinzip die Skalierbarkeit von HDFS mit dem OLTP-Aspekt von HBase.

Der Cloudera Navigator ist ein Produkt für Data Governance in Hadoop-Umgebungen, das Data Discovery, Continuous Optimization, Audit, Abstammung, Metadaten-Management und Policy-Durchsetzung bietet. Das Programm kann auch dazu benutzt werden, sich mit Informationen zu Lifecycle Management und Compliance-Anforderungen zu befassen.

Cloudera ist offen für Hadoop-Anwendungsfälle, in denen HDFS-Speicher vom Compute-Layer abgetrennt ist. In einem zukünftigen Release wird CDH Intels 3D-XPoint-Technologie als ständigen hoch-performanten Speicher einsetzen. Knotenbasierendes beständiges Memory wird für Hot Data zur Verfügung stehen, während weniger häufig aufgerufene Daten den zentralen HDFS-Speicher benutzen. Erasure Coding wird von Cloudera in dem nächsten größeren Release von CDH unterstützt werden.

Cloudera hat ferner eine enge Beziehung mit EMC. EMC Isilon wird als externe Speicherplattform für Hadoop unterstützt, wobei zusätzliche Funktionen für zukünftige Releases geplant sind. Cloudera arbeitet mit EMC zusammen, um Hadoop zu EMC DSSD Flash-Produkten zu übertragen.

MapR: Die HDFS-freie Alternative

MapR hat sich für einen anderen Ansatz bei der Weiterentwicklung seiner kommerziellen Hadoop-Distribution entschieden, die Converged Data Platform. Der Hersteller hat sich die Barrieren für einen Unternehmenseinsatz von Hadoop näher angesehen, sobald man auf sie gestoßen ist. Dieser Prozess begann mit der Implementierung eines grundlegenden Hadoop-File-Systems, das kritische Probleme, die man vorher mit Apache HDFS – wie zum Beispiel eine NameNode-Schwachstelle – identifiziert hatte, umgeht. Und der Prozess weitete sich aus bis hin zu einer robusten Einführung von Snapshots sowie Features für Data Governance und Datenreplikation für Disaster Recovery (DR).

Dieses Vorgehen gibt es auch in MapRs jüngst ausgelieferter Zeta Architecture. Bei Zeta lesen und schreiben alle MapR-Anwendungen – einschließlich der Standard-Programme MapReduce, HBase und Spark – auf ein gemeinsames, skalierbares und verteiltes File System. Dies impliziert einen MapReduce-Prozess, bei dem HBase-Daten diese Daten nicht mehr importieren müssen, weil sie sich bereits im Zeta-Speicherlayer befinden. Für Analyse in Echtzeit unterstützt die Zeta-Architektur den Einsatz von Datenbanken einschließlich HBase und MapR-DB. Andere unterstützte Datenbanken sind HPE Vertica, MySQL und SAP Sybase IQ. Die unterstützten Standards für Speicherprotokolle umfassen NFS und S3.

Anders als die Hadoop-Distributionen von Cloudera und in einem gewissen Ausmaß auch von Hortonworks zieht es MapR vor, seine proprietären Speicherumgebungen so zu positionieren, dass sie keine Hilfestellung von externene Speicherplattformen brauchen.

Speichernahe Tools und zusätzliche Anwendungen bei Hadoop

In den letzten paar Jahren hat sich eine Anzahl von Startups näher mit den Problemen bei dem Hadoop Distributed File System (HDFS) beschäftigt. Zwei Beispiele sind Dataguise mit Data Governance und Security sowie WANdisco mit Datenreplikation und Disaster Recovery.

Dataguise bietet eine Plattform für Datensicherheit und Governance, die Datengruppen in Echtzeit feststellt, prüft, sichert und überwacht, wo immer sie sich befinden und über verschiedene Datenspeicher hinweg bewegen. Alle drei beschriebenen Hadoop-Distributionen werden unterstützt.

Die Fusion Platform von WANdisco liefert Kernfunktionen für kontinuierliche Verfügbarkeit und Performance mit garantierter Datenkonsistenz über mehrere Cluster hinweg: Diese können in jeder Kombination von Hadoop-Distributionen, Hadoop-kompatiblen Speichersystemen oder Cloud-Umgebungen installiert sein. Dabei spielt es keine Rolle, in welcher Entfernung sich diese Daten befinden und ob sie auf Clustern oder in geografisch entfernten Rechenzentren abgelegt sind.

Folgen Sie SearchStorage.de auch auf Twitter, Google+, Xing und Facebook!

Nächste Schritte

Essential Guide: Mit dem Hadoop Distributed File System (HDFS) Big Data bewältigen.

Kostenloses E-Handbook zu Hadoop 2: Stärken und Schwächen des Frameworks.

Wie Apache Hadoop beim Big Data Management helfen kann.

Wann Sie Hadoop einsetzen sollten – und wann nicht.

Artikel wurde zuletzt im August 2016 aktualisiert

Erfahren Sie mehr über Datenmanagement-Tools

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchNetworking.de

SearchEnterpriseSoftware.de

SearchDataCenter.de

Close