Definition

Data Lake

Ein Data Lake ist ein Speicherbehälter, der eine große Menge an Rohdaten in ihrem ursprünglichen Format aufbewahrt, bis sie gebraucht werden.

Während ein hierarchisch aufgebautes Data Warehouse Daten in Dateien (Files) oder Behältern (Folders) speichert, benutzt ein Data Lake eine flache Architektur, um Daten abzulegen. Jedes Datenelement in einem solchen Lake („See“) ist mit einem bestimmten, einzigartigen Kennzeichen ausgestattet und verfügt außerdem über einen ganzen Satz von Metadaten. Wenn sich zum Beispiel eine geschäftliche Fragestellung ergibt, kann der Data Lake nach relevanten Daten durchsucht werden, und der daraus resultierende kleinere Datensatz kann dann für sich analysiert werden, um zu einer Lösung des Geschäftsproblems beizutragen.

Der Begriff „Data Lake“ wird oft in Verbindung zu Hadoop-orientiertem Object Storage gebraucht. In solch einem Szenario werden die Daten eines Unternehmens zuerst in eine Hadoop-Plattform geladen und dann werden Tools für Business Analytics und Data Mining für diese Daten eingesetzt. Die Daten befinden sich dabei auf Cluster-Nodes von Hadoop aus Standard-Computern.

Wie auch Big Data wird der Begriff Data Lake manchmal fälschlicher Weise als reines Marketing-Label für ein Produkt interpretiert, das Hadoop unterstützt. Der Ausdruck wird jedoch zunehmend akzeptiert als ein Versuch, jeden großen Datenpool zu beschreiben, in denen solange kein Schema und keine Datenanforderungen definiert sind, bis die Daten durchsucht werden.

Folgen Sie SearchStorage.de auch auf Twitter, Google+ und Facebook!

Diese Definition wurde zuletzt im Dezember 2015 aktualisiert

Erfahren Sie mehr über Data-Center-Storage

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

File Extensions and File Formats

SearchSecurity.de

SearchNetworking.de

SearchEnterpriseSoftware.de

SearchDataCenter.de

Close