shyshka - Fotolia

Tipps für eine Data-Lake-Architektur

Viele Unternehmen setzen die Kosten von Data-Lake-Storage in den Fokus, wobei Robustheit und Security eine weitaus größere Rolle spielen.

Ein Data Lake speichert Informationen aus verschiedenen Quellen, unter anderem von Internet-of-Things-Geräten oder Menschen. Big Data Analytics oder Big-Data-Archive greifen auf diese Data Lakes zu, um vom Anwender angeforderte Informationen – meist nur ein Teil der Gesamtdaten – zu verarbeiten oder bereitzustellen. Eine Data-Lake-Architektur muss allerdings mehr sein als einfach nur eine riesige Festplatte.

Während die meisten IT-Planer sich in der Regel um die Kosten eines Data Lakes sorgen, sind es aber eher die Datenlanglebigkeit und die Security, die hierbei Priorität sein sollten. Viele Optionen bieten einen annehmbaren Preis pro GByte, aber nur wenige können die Langzeitspeicheranforderungen eines Data Lake bedienen. Die eigentliche Herausforderung liegt darin, dass viele Daten im Data Lake nie gelöscht werden. Der Wert der Daten liegt darin, dass sie analysiert und mit anderen Daten über Jahre hinweg verglichen werden können. Das treibt natürlich die Kapazitätskosten in die Höhe.

Hier wird die Langlebigkeit beziehungsweise die Robustheit der Lösung wichtig und die zwingende Notwendigkeit, dass die Daten in den fünf oder zehn Jahren ihrer Speicherzeit immer lesbar sein müssen. Alle Medientypen verschleißen nach einer gewissen Zeit. Ein Data-Lake-System muss gegen den Verschleiß geschützt werden, indem es stets überwacht und geprüft wird. Wird ein korrupter oder beschädigter Datensatz gefunden, muss mittels Replikation oder Erasure Coding eine neue Kopie erstellt werden.

Die Daten innerhalb der Data-Lake-Architektur zu schützen ist eine weitere Herausforderung, die oft übersehen wird. Security ist für diesen Storage-Typ weitaus wichtiger als für andere. Ein Data Lake umfasst per Definition alle vorhandenen Daten. Wird die Security eines einzigen Storage-Repository durchbrochen, so kann eine unautorisierte Person möglicherweise auf alle Unternehmensdaten zugreifen. Die meisten Daten sind hier in einem einfach zu lesendem Format gesichert, beispielsweise als JPEG oder PDF. Das bedeutet, wenn die Data-Lake-Architektur angegriffen wird, so sind diese Informationen leicht zu lesen.

Deswegen ist es ratsam, verschiedene Security-Ebenen einzuführen:

  • Verschlüsseln Sie alle Daten im Data Lake. Werden die Daten nach Kategorien mit separaten Schlüsseln generiert, verringert dies die Angriffsmöglichkeiten und gewährt Anwendungen trotzdem vollständigen Zugriff.
  • Datenkopien im Data Lake sollten an einem Standort gespeichert sein, der offline und nicht verbunden ist. Die Offline-Kopien können auf einer Tape-Library oder auf einem Disk-System gespeichert sein, das physisch nicht angebunden ist, außer wenn die Kopie erstellt oder aktualisiert wird.

Folgen Sie SearchStorage.de auch auf Twitter, Google+ und Facebook!

Artikel wurde zuletzt im November 2015 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Erfahren Sie mehr über Data-Center-Storage

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchNetworking.de

SearchEnterpriseSoftware.de

SearchDataCenter.de

Close