Einführung in Big-Data-Analytik

Cloud-Computing ist die Grundlage für Big-Data. Um die anfallenden Daten auswerten zu können, bedarf es einer ausgeklügelten Analyse.

Der Cloud-Computing-Zug verliert allmählich an Fahrt, und schon springen die Anbieter auf den nächsten auf: Big Data. Wie oft bei solchen Hype-Zyklen führt das zu Verwirrung, weil die Anbieter mit jeweils eigenen und teils widersprüchlichen Definitionen des Begriffs arbeiten.

Eine häufige Quelle der Verwirrung sind zum Beispiel Verwechselungen zwischen Storage und Analyse bei Big Data. Der Begriff „Big Data“ stammt aus der Open-Source-Community. Dort wurde versucht, Analyse-Verfahren zu entwickeln, die schneller und besser skalierbar sind als traditionelles Data Warehousing und man dabei in der Lage ist, aus den Riesenmengen unstrukturierter Daten, die Web-User täglich produzieren, Wertvolles zu extrahieren.

Big-Data-Storage hängt damit zusammen. Auch hier geht es um die riesigen Mengen an unstrukturierten Daten, die in Unternehmen zu immer größeren Beständen führen. Die hier eingesetzten Technologien allerdings, wie Scale-Out-NAS und objektbasierte Speicherung, gibt es schon seit Jahren, weshalb sie relativ gut verstanden sind.

Auf einer sehr einfachen Ebene ist Big-Data-Storage nichts weiter als die Speicherung von enormen Mengen an unstrukturierten Daten aus Anwendungen. Gebraucht wird sie etwa beim Streaming von hochauflösenden Videos, bei Öl- und Gasexploration oder in der Genforschung – bei den üblichen Verdächtigen also. Ein Marketing-Manager bei einem großen Storage-Anbieter, der in diesem Bereich bislang weder eine offizielle Position noch Produkte hat, erzählte mir, dass sein Unternehmen darüber nachdenkt, seine künftigen Angebote als „Huge Data“ zu vermarkten.

Big-Data-Analytik wiederum ist ein Gebiet, das sich durch schnell wachsende Vielfalt auszeichnet. Aus diesem Grund ist es wahrscheinlich gar nicht sinnvoll, sich hier an einer Definition zu versuchen. Nützlich dagegen ist es, die Merkmale zu identifizieren, die alle heute zu Big-Data-Analytik gezählten Technologien gleichermaßen auszeichnet. Dies sind unter anderem:

  • die Wahrnehmung, dass konventionelle Data-Warehousing-Prozesse zu langsam und zu schwierig zu skalieren sind
  • die Fähigkeit, Daten aus unterschiedlichen Quellen zu konsolidieren, sowohl strukturierte als auch unstrukturierte
  • die Erkenntnis, dass es für die Gewinnung von Wert aus Datenquellen wie mobilen Geräten, RFID, dem Web und einer wachsenden Zahl von automatisierten Sensor-Technologien entscheidend darauf ankommt, wie schnell die nötigen Informationen vorliegen.

Zusätzlich gibt es mindestens vier bedeutende Entwicklungsstränge, die dabei helfen, Big-Data-Analytik zu definieren. Dabei handelt es sich um MapReduce, skalierbare Datenbanken, Stream-Verarbeitung in Echtzeit und Big-Data-Appliances.

MapReduce

Ein guter Ausgangspunkt zur Beschäftigung mit MapReduce ist Apache Hadoop. Das Konzept dafür stammt aus einem Paper, das 2004 bei Google entstand. Es beschrieb einen Prozess zur Parallelisierung der Verarbeitung von Web-basierten Daten, genannt MapReduce. Wenig später entstand als Open-Source-Implementation dieses Prozesses Apache Hadoop. Die Community darum herum wächst rapide und produziert reihenweise Add-ons, die seinen Einsatz in Rechenzentren von Unternehmen erleichtern.

Nutzer von Apache Hadoop bauen üblicherweise eigene parallelisierte Rechen-Cluster aus Standard-Servern, jeder davon mit eigenem Storage in Form eines kleinen Disk-Arrays oder in letzter Zeit zwecks besserer Performance zunehmend auch mit Solid-State-Speichern (SSDs). Hier ist oft von „shared-nothing“-Architekturen die Rede – Storage-Area Networks (SAN) oder Network-Attached Storage (NAS) sind zwar skalierbar und robust, gelten aber hinsichtlich der für diese Cluster nötigen I/O-Performance als nicht leistungsfähiger als gewöhnliche Data-Warehouses. Aus diesem Grund ist die Speicherung bei Hadoop als Direct-Attached Storage (DAS) ausgelegt. Allerdings findet als „sekundärer“ Speicher zunehmend auch SAN und NAS Verbreitung.

Für potenzielle Hadoop-Nutzer gibt es eine wachsende Zahl an Auswahlmöglichkeiten von reinem Open Source bis zu hochgradig kommerzialisierten Versionen. Auf der Projekt-Website für Hadoop stehen Apache Hadoop und dazu gehörige Werkzeuge kostenlos zur Verfügung. Cloudera Inc. bietet eine kommerzielle Version mit eigenen Erweiterungen und Support an. Andere Open-Source-Varianten, etwa die Facebook-Distribution, sind von Cloudera ebenfalls erhältlich. Zu den kommerziellen Versionen zählt auch die von MapR Technologies, die inzwischen in Hadoop-Appliances von EMC Corp. zum Einsatz kommt.

Skalierbare Datenbanken

Hadoop zieht zwar die meisten Schlagzeilen auf sich, weil es in der Lage ist, unstrukturierte Daten in einer Data-Warehouse-artigen Umgebung zu verarbeiten. Doch es gibt noch viele weitere interessante Entwicklungen im Bereich Big-Data-Analytik.

Auch strukturierte Daten bekommen viel Aufmerksamkeit. NoSQL etwa ist eine nicht-relationale, verteilte und horizontal skalierbare Sammlung von Open-Source-Datenbankstrukturen für Websites mit hohem Datenaufkommen und Streaming-Medien. Um sie herum ist eine lebhafte und schnell wachsende Community entstanden. Zu ihren Dokument-orientierten Implementationen zählen MongoDB (eine Anspielung auf „humongous“ – gigantisch) und Terrastore.

Eine weitere Analytik-orientierte Datenbank aus der Open-Source-Community ist SciDB, entwickelt für Anwendungsfälle wie Umweltbeobachtung, Radioastronomie oder Seismologie.

Die Anbieter von traditionellen Data-Warehouse-Lösungen sehen diesem Treiben nicht etwa tatenlos zu. Orcale Corp. etwa arbeitet an „next generation“ Big-Data-Plattformen, bei denen für Informationsgenerierung in Echtzeit seine Analytik-Plattform und In-Memory-Computing zum Einsatz kommen. Teradata Corp. hat vor kurzem Aster Data Systems Inc. übernommen, um die SQL-MapReduce-Implementation dieses Unternehmens in sein Produktportfolio aufnehmen zu können.

Stream-Verarbeitung in Echtzeit

Mit Hilfe von StreamSQL ist es seit 2003 möglich, Echtzeit-Analysen an mehreren Datenströmen gleichzeitig vorzunehmen. Bislang konnte StreamSQL damit erst ein paar kleinere Nischenmärkte bei Finanzdienstleistungen sowie Überwachung und Monitoring von Telecom-Netzen erschließen. Angesichts des neuerdings wuchernden Interesses an allem, was mit Big Data zu tun hat, dürfte StreamSQL bald aber mehr Aufmerksamkeit und Marktchancen bekommen.

StreamSQL ist ein Nebenprodukt eines Zweigs der Informatik-Forschung namens Complex Event Processing (CEP), einer Technologie für die Verarbeitung von Daten aus der physischen Welt mit geringer Latenz. Produkte gibt es hier sowohl von IBM – InfoSphere Streams – als auch von StreamBase Systems Inc.

 Big-Data-Appliances

Mit dem Vordringen von Big-Data-Analytik in die Rechenzentren gewöhnlicher Unternehmen ergibt sich für Anbieter zudem die Chance, Big-Data-„Appliances“ zusammenzustellen. In diesen werden Server, Netzwerk und Storage so in ein gemeinsames Gehäuse integriert, dass die auf ihnen installierte Analytik-Software schnellere Ergebnisse liefert. Zielgruppe für diese Appliances sind Unternehmenskunden, die vor allem an einfacher Implementation interessiert sind und deren Anforderungen gut dazu passen. Zu den Anbietern in diesem Bereich zählen EMC mit seinen Appliances auf Grundlage der Datenbank-Engine Greenplum, Netezza von IBM, die vor kurzem angekündigte kommerzielle Hadoop-Version von MapR sowie Oracle und Teradata mit vergleichbaren, vorintegrierten Systemen.

Big-Data-Storage für Big-Data-Analytik

Wer in der Praxis mit Big-Data-Analytikprozessen zu tun hat, steht Shared Storage meist eher feindlich gegenüber. Bevorzugt wird DAS in seinen unterschiedlichen Formen von SSDs bis zu SATA-Festplatten mit hoher Kapazität, die an parallelen Rechenknoten hängen. Shared-Storage-Architekturen wie SAN und NAS werden meist als zu langsam, zu komplex und vor allem zu teuer wahrgenommen. Diese Eigenschaften sind schlecht vereinbar mit Big-Data-Analytiksystemen, die hinsichtlich Performance, standardisierter Infrastruktur und Kosten einiges zu bieten haben.

Eines der definierenden Merkmale von Big-Data-Analytik ist Informationsgenerierung in Echtzeit oder Beinahe-Echtzeit. Daten im Arbeitsspeicher sind deshalb gut; Daten am anderen Ende einer SAN-Anbindung über Fibre Channel sind nicht gut. Vielleicht am schwersten aber wiegt, dass die Kosten für ein SAN in einer für Analytik-Anwendungen nötigen Größenordnung prohibitiv hoch sein können.

Trotzdem gibt es auch Argumente, die für Shared Storage bei Big-Data-Analytik sprechen – allerdings wurden sie von Storage-Anbietern und der Storage-Community bei Big-Data-Praktikern noch nicht überzeugend vorgebracht. Dabei gibt es als gelungenes Beispiel etwa die Integration der ParAccel Analytic Database (PADB) mit SAN-Storage von NetApp.

Entwickler von Storage-Technologien gehen mittlerweile dazu über, Storage nicht mehr als physische Einrichtung zu verstehen, sondern eher als virtuelles und abstraktes Gebilde. Als Folge davon könnten und sollten Big-Data-Praktiker Shared-Storage durchaus als ein Gebiet betrachten, das ihnen gute Dienste leisten kann. Dazu zählen:

  1. Schutz von Daten und System-Verfügbarkeit: Storage-basierte Kopierfunktionen, die kein Ruhen der Datenbank erfordern, ermöglichen Neustart-fähige Kopien nach Systemabstürzen oder Fällen von Daten-Korruption.
  2. Geringerer Zeitaufwand für den Einsatz neuer Anwendungen und automatisierte Prozesse: Wenn neue Anwendungen mit Hilfe von wiederverwendbaren Daten-Kopien vorbereitet werden können, lassen sie sich schneller zum Laufen bringen; dies steigert die geschäftliche Agilität.
  3. Change-Management: Shared-Storage hat das Potenzial, die Auswirkungen erforderlicher Änderungen und Upgrades auf die Live-Produktionsumgebung zu verringern, weil es „always on“-Funktionalität unterstützt.
  4. Lebenszyklus-Management: System-Evolution und der Austausch überholter Anwendungen werden erleichtert, wenn Shared-Storage als Database of Record dient.
  5. Kostenersparnis: Die Verwendung von Shared-Storage als Ergänzung zu DAS in einer „shared nothing“-Architektur verringert die Kosten und Komplexität von Prozessor-Knoten.

Big Data ist ein „Big Deal“

Konventionelles Data-Warehousing ist eine große, aber relativ langsame Quelle von Informationen für die Geschäftsanalytik. Es arbeitet mit begrenzten Daten-Ressourcen und ist angewiesen auf reiterative Extract-, Transform- und Load-Prozesse (ETL). Heute jedoch wollen Anwender schnellen Zugang zu Informationen, die auf der ständigen Auswertung multipler Datenquellen auf verwertbare Schätze beruhen. Bis zu einem gewissen Grad ist Big-Data-Analytik definiert durch die Notwendigkeit, große Datensätze aus unterschiedlichen Quellen zu durchforsten und Informationen in Echtzeit oder Beinahe-Echtzeit zu generieren.

Big-Data-Analytik bietet eine große Gelegenheit. Heute beschäftigen sich IT-Organisationen mit den oben vorgestellten Technologien, um Web-basierte Datenquellen auszuwerten oder um vom Boom bei sozialen Netzwerken zu profitieren. Jedoch bahnt sich bereits eine noch größere Chance an: das „Internet der Dinge“ als neue Datenquelle. Cisco Systems Inc. schätzt, dass es derzeit etwa 35 Milliarden elektronische Geräte gibt, die sich per Kabel oder drahtlos ans Internet anschließen lassen – selbst Autohersteller sehen für ihre Fahrzeuge mittlerweile eine Netz-Anbindung vor. Vernetzte Autos werden zunehmend allgegenwärtig und Millionen von flüchtigen Datenströmen generieren.

Bei der Nutzung von vielfältigen Datenquellen wie dem Internet der Dinge werden Technologien gefragt sein, die über traditionelles Data-Warehousing weit hinausgehen. Die eingesetzten Prozesse werden ähnlich funktionieren müssen wie das menschliche Gehirn. Unsere Hirne nehmen riesige Ströme an sensorischen Daten auf und bilden die nötigen Korrelationen, die uns wissen lassen, wo wir sind, was wir tun und letztlich, was wir denken – alles in Echtzeit. Genau diese Art der Datenverarbeitung ist es, die auch in der Big-Data-Analytik erreicht werden soll.

ÜBER DEN AUTOR: John Webster ist Leitender Partner bei der Evaluator Group Inc., wo er Storage-Technologien in den Bereichen Hardware, Software und Service-Management untersucht.

Artikel wurde zuletzt im August 2011 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Erfahren Sie mehr über Enterprise-Storage: Planung und Management

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchNetworking.de

SearchEnterpriseSoftware.de

SearchDataCenter.de

Close