Essential Guide

Big Data: Anwendung, Datenschutz und Technologie

Eine umfassende Auswahl von Artikeln, Videos und mehr, die von unseren Redakteuren gewählt wurden.

Big Data in der Cloud speichern

Es hängt vom Datentyp ab, ob und welche Big-Data-Informationen sich in der Cloud oder besser am lokalen Standort speichern lassen.

Der Begriff Big Data beschreibt zwei Datentypen: Zum einen Daten von Sensoren in Dingen oder an Lebewesen, die aus Millionen kleinen Log-Files bestehen, und zum anderen Rich-Media-Daten, die aus wenigen, dafür aber sehr großen Files zusammengesetzt sind. Der erste Datentyp wir meist als Teil eines Big-Data-Analytics-Projekts analysiert, während das zweite Datenformat Teil großer Big-Data-Archive ist.

Beide Datentypen benötigen viel Speicherkapazität und Administratoren versuchen noch immer genau zu bestimmen, was die richtige Methode ist, Big-Data-Informationen zu speichern. Im Allgemeinen entscheiden sich Firmen oft für Scale-out-Data-Lakes als Ablageort. Die nächste Frage ist dann, wo dieser Data Lake vorgehalten werden soll: auf lokalen Ressourcen, in einer Public Cloud oder in einer hybriden Infrastruktur. Um hier eine Entscheidung treffen zu können, müssen IT-Verantwortliche abwägen, welche Kosten das Sichern von Big-Data-Informationen in der Cloud hervorruft und was Compute-Ressourcen für diese Daten kostet.

Kosten für das Sichern von Big Data in der Cloud

Big Data trägt seinen Namen aufgrund der riesigen Speicheransprüche. Analysedaten bestehen aus Millionen und Milliarden an relativ kleinen Files, in Summe ergeben sie meist Petabytes. Video- und Medieninformationen sind meist weniger Files, dafür größer pro individuelles File. Auch hier können Petabytes an Speicherkapazität zusammenkommen. Um Nutzeranfragen schnell bedienen zu können, müssen sich die Daten auf einem System mit geeigneter Performance befinden, meist ein Scale-out-Festplattensystem. Auch hier spielt der Standort des Arrays eine Rolle, es kann lokal sein, in der Cloud oder eine Kombination aus beidem bieten.

Die Cloud erscheint hierbei auf Anhieb sinnvoll, da sie geringe Anfangskosten und periodische Abrechnungen offeriert. Darüber hinaus muss das Anwenderunternehmen keine Investitionen in Strom, Kühlung oder Rechenzentrumsplatz aufwenden. Allerdings können genau diese Rechnungen für Petabytes an Speicherplatz über Jahre hinweg sehr teuer werden.

In vielen Fällen, selbst unter Berücksichtigung der „weichen“ Kosten, ist das Sichern der Big-Data-Informationen am lokalen Standort günstiger – vorausgesetzt, es handelt sich um mehr als ein Petabyte an Daten. Die meisten Unternehmen mit solchen Datenbeständen haben bereits in IT-Infrastruktur, Prozesse und Mitarbeiter investiert.

Compute-Kosten für Big Data

Bei den Kosten für Big-Data-Speicher müssen auch die Kosten für Compute beachtet werden und wie diese Rechnerleistung den Daten zur Verfügung gestellt wird. Beim Analysieren der Datensätze ist es das Ziel, diesen Prozess so schnell wie möglich abzuarbeiten, eine Antwort zu erhalten und die nächste Anfrage abzuwarten. Die Cloud hat hier einen entscheidenden Vorteil, da Compute-Ressourcen effizienter nach oben oder nach unten skaliert werden können als bei lokalen Infrastrukturen.

Die Cloud ist eigentlich der ideale CPU-Standort, da die CPU-Anforderungen oft stark variieren und die Cloud-Ressourcen sich diesen Veränderungen dynamisch anpassen können. Wichtiger ist es jedoch, dass ein Unternehmen hier nur für die Kapazitäten bezahlt, die es auch wirklich nutzt. Im Vergleich dazu bleibt lokaler Storage konstant, Daten müssen hier stets gesichert werden, das System lässt sich nicht herunterskalieren und muss oft für eine bestimmte (längere) Zeit im Betrieb bleiben.

Die Public Cloud ist sehr effizient beim Skalieren von Comupte-Ressourcen und kann die Kosten ausgleichen, die das Speichern von Big Data in der Cloud kostet.

Big Data in der Cloud speichern: Der hybride Ansatz

In einem hybriden Cloud-Storage-Modell wird die Cloud als Storage-Tier genutzt. Die Daten werden lokal gespeichert und verarbeitet und nach einem bestimmten Zeitraum in die Cloud verschoben. Der Nachteil dieses Ansatzes ist der, dass die Rechenleistung vorgehalten werden muss und die Cloud als Langzeitaufbewahrungsort dient, obwohl es sich eher für Kurzeitspeichern eignet. Es gibt derzeit zwei hybride Cloud-Modelle, die die Stärken des Rechenzentrums in die Cloud tragen:

  • Direct-to-compute Cloud. Hierbei gehört dem Unternehmen das Storage und verfügt über eine direkte Verbindung zu den Compute-Ressourcen des Cloud-Providers. Damit ist der Storage der Firma sehr nah an den Public-Cloud-Ressourcen. Der Anwender kann die Rechenleistung skalieren und hat sofortigen Zugriff auf die Daten im eigenen Storage.
  • Cached-to-Cloud. Bei diesem Modell wird eine Standard-Caching-Technologie rückwärtsgewandt eingesetzt. Das heißt, die aktivsten Daten werden in der Cloud zwischengespeichert (cached), so dass die Firma die Compute-Ressourcen der Public Cloud zur Verarbeitung der Daten in Anspruch nimmt. Allerdings liegen die Daten im Rechenzentrum des Unternehmens.

Beide Ansätze verbinden die Vorteile des Rechenzentrums mit denen der Public Cloud.

Bei Big-Data-Installationen wird die Entscheidung, welches Modell man benutzt, essentiell. Verfügt das Rechenzentrum über weniger als ein PByte an Informationen, so ist wahrscheinlich ein reines Public-Cloud-Modell sinnvoll. Liegt der Datenbestand darüber, so wird es ein wenig komplizierter. Hier sollte die lokale Architektur auf jeden Fall Teil der Lösung sein, sei es für die lokale Verarbeitung der Daten oder in einem der beschriebenen hybriden Ansätze.

Folgen Sie SearchStorage.de auch auf Twitter, Google+ und Facebook!

Artikel wurde zuletzt im November 2015 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchNetworking.de

SearchEnterpriseSoftware.de

SearchDataCenter.de

Close