Essential Guide

Big Data: Anwendung, Datenschutz und Technologie

Eine umfassende Auswahl von Artikeln, Videos und mehr, die von unseren Redakteuren gewählt wurden.

Die Folgen von Big Data: Wie man aus Backup- und Archivdaten neuen Nutzen zieht

Backup- und Archivsysteme speichern große und nicht genutzte Datenmengen. Sie lassen sich für zusätzliche Zwecke wie Suche und Analytics verwenden.

Historisch betrachtet repräsentieren Backup- und Archivdaten die bedeutendsten Informationsbereiche in vielen Unternehmen, die man unbedingt oder für einen späteren Gebrauch aufbewahren wollte. Aber diese Daten werden selten für mehr gebraucht, als aus Versehen gelöschte, beschädigte oder sonst wie verlorene Daten wiederherzstellen. Dies ist natürlich eine außerordentliche löbliche Aktivität, aber die wachsende Popularität von Big Data und Analytics hat einige Anwender zu dem Glauben verführt, dass entschieden mehr Wert in ihren mit der Zeit aufgehäuften Datensammlungen stecken könnte. Während sicher einiges an diesem neuen Interesse unbegründet sein dürfte, gibt es durchaus Anlass, auch zusätzlichen Nutzen aus den nicht gerade geringen Backup-und Archivkosten zu ziehen. Aber um dieses Ziel wirklich zu erreichen, muss man unbedingt den Backup-Prozess neu überdenken.

In diesem Artikel geht es darum, wie man bestehende Daten eines Unternehmens für eventuelle Nutzanwendungen bereit stellt und wie man dafür bereits gespeicherte Daten zugänglich macht und durchsucht. Es geht nicht darum, wie man komplexe Big-Data-Vergleiche anstellt, bei denen man Datenquellen vereinheitlichen oder in unterschiedliche Formate umwandeln muss. Ein Beispiel hierfür wäre, Kundendaten zu finden, die spezifischen Kriterien wie Einkaufsverhalten oder demographischen Vorgaben entsprechen. Ein anderes Beispiel bestünde darin, bestehende Daten-Sets wie gespeicherte Fotos oder Videos nach Informationen zu durchsuchen, die für ein aktuelles Projekt von Interesse sein könnten.

Index und Suche

Um gespeicherte Backups zu durchsuchen und zugänglich zu machen, muss die Backup-Anwendung einen Datenindex für die Datenobjekte (Files) zur Verfügung stellen, der bestimmte Kriterien erfüllt. Dies ist deshalb erforderlich, weil die Backup-Anwendungen Daten in der Regel in einem proprietären Format speichern. Die meisten dieser Applikationen wurden entwickelt, um schnelle Backups zu liefern und dabei den Umfang der zu speichernden Daten so klein wie möglich zu halten. Aber einige Hersteller, darunter CommVault und Hewlett-Packard, liefern auch umfangreichere Such- und Archivierungsfunktionen.

CommVault sammelt Backup- und Archivdaten über einen Single-Pass-Prozess und speichert die Daten in einem Repository. Die Backup-und Archivdaten werden in einem Index katalogisiert, und die Anwender können von einer einzigen Oberfläche aus alle Daten durchsuchen. Während diese Funktion sehr oft aus Compliance-Gründen eingesetzt wird, kann sie auch Daten für Business Analytics bereitstellen.

Snapshots sind eine weit verbreitete Technologie, um schnellere und effizientere Backups zu erreichen. Aber sie gestalten auch die Datenwiederherstellung komplexer, besonders wenn möglicherweise Hunderte von Snapshots erstellt werden. Inzwischen haben einige Hersteller ihren traditionellen Backup-Programmen Index- und Such-Funktionen hinzugefügt, um IT-Abteilungen, die sich als Teil ihrer Datenschutzstrategie stark auf Snapshots stützen, den Datenzugang zu erleichtern.

Eine andere Möglichkeit, proprietäre Datenquellen zu durchsuchen, besteht in der Erstellung eines externen Indexes. Unternehmen wie Index Engines haben einen Geschäftszweig ins Leben gerufen, der dem Gerichtswesen mit neuen Produkten dabei hilft, das Netzwerk zu durchforsten und unstrukturierte Daten zu katalogisieren – einschließlich von Daten, die in Backup-Systemen gespeichert sind. Der hauptsächliche Anwendungsfall für diese Produkte sind E-Discovery-Anforderungen, alle für einen Rechtsfall relevanten Datenobjekte ausfindig zu machen und dem Gericht zur Verfügung zu stellen. Solche Indexierungsverfahren können auch für Suchprozesse im Zusammenhang mit Business Analytics eingesetzt werden.

Unstrukturierte Daten archivieren

Den größten Anteil am Datenwachstum in den letzten Jahren hatten die unstrukturierten Informationen – besonders der so genannte „Digital Content“, relativ große Dateien wie Fotos, Video und Audio, die nur selten geändert werden. Diese Datenobjekte haben häufig einen finanziellen oder privaten Wert, so dass sie über lange Zeiträume und manchmal sogar für immer aufbewahrt werden. Aber sie müssen auch für einen unmittelbaren Zugriff zur Verfügung stehen, zum Beispiel für Anwendungen, die mit aktuellen Ereignissen oder Marktbewegungen zu tun haben. Ihre Eigenschaften – großes Volumen, lange Aufbewahrung und statische Beschaffenheit – prädisponieren sie zugleich in idealer Weise dafür, aus den traditionellen Backup-Systemen herausgenommen und in einem Archiv abgelegt zu werden. Daten aus einem Backup- in einen Archivkontext zu verschieben, verbessert die Suchfunktionen und hilft dabei, zusätzlichen Wert aus den abgespeicherten Daten zu ziehen.

NAS-Systeme, die sich auf der Basis von Festplatten (am besten Near-line SAS) oder Tape leicht skalieren lassen, stellen eine effektive Art und Weise dar, um Digital Content zu speichern, aber weiterhin verfügbar zu halten. Lösungen wie StrongBox von Crossroads Systems sind in der Lage, Archivfunktionen in eine NAS-Architektur zu integrieren, die die im Vergleich sehr hohen Kosten pro Gigabyte bei traditionellen Festplatten deutlich senkt. Während diese Speichersysteme selbst keine Suchfunktionen mitliefern, lässt sich diese Aufgabe aber leicht mit speziellen Applikationen und standardisierten Dateiformaten erfüllen.

Für bestimmte Datenbereiche, die sehr große Volumen annehmen können, aber gleichzeitig auf Festplatten verbleiben müssen, bieten Plattformen für Object Storage mit integriertem File-System oder NAS-Gateway eine geeignete Alternative. Diese Art von Architekturen findet sich bei den meisten Storage Providern für Public Clouds und bei vielen Unternehmen mit Private Clouds. Während Systeme für Object Storage meistens nur als Repository für unstrukturierte Daten benutzt werden, lässt sich mit Object-basierten Architekturen zugleich mehr Wert aus den langfristig abgespeicherten Daten ziehen.

In den Data Lake eintauchen

Unter „Data Lake“ versteht man ein neues Konzept für „wirkliche“ Big-Data- oder Analytics-Ansätze, im Unterschied zu einfacheren Such- und Zugangsprozessoren für Daten. Es gibt verschiedene detaillierte Definitionen für „Data Lake“, aber die meisten stimmen darin überein, dass es unternehmensweite Daten-Repositorys gibt, die für das Speichern von Objekten in ihren ursprünglichen Dateiformaten und unter Verwendung Object-basierter Architekturen entwickelt wurden – im Unterschied zum isolierten Speichern von Dateiformaten, wie sie von bestimmten Applikationen verwendet werden.

Die Zielsetzung dieser Speichervariante besteht darin, mehr aus den Daten eines Unternehmens für Analytics herauszuholen, ohne dass man die Dateiformate umwandeln oder einander annähern muss. Die meisten Diskussionen um Data Lakes drehen sich um Hadoop-basierte Anwendungen, mit denen man solche Datenmengen nutzbar machen kann, oder auch direkt um ihre Verwaltung.

Management von Datenkopien

Unternehmen sind auch mit einer Ansammlung von Datenkopien für verschiedene Anwendungen konfrontiert, zum Beispiel für Data Protection, Disaster Recovery, Test und Entwicklung, Business Analytics und so weiter. Systeme für das Kopieren von Daten stellen im wesentlichen ein Single-Instance-Repository zur Verfügung, indem sie diese redundanten Daten durch einen gemeinsamen Speicherbereich ersetzen. Diese Produkte verwenden verschiedene Methoden, aber ein wichtiger Prozess besteht darin, eine „Golden Copy“ von jeder zu verwaltenden Datei zu schaffen und eventuelle Änderungen dort festzuhalten. Diese Kopie wird dann dazu verwendet, virtuelle Kopien für bestimmte Anwendungen wie zum Beispiel Data Protection oder Business Analytics zu erzeugen.

Es gibt Systeme zum Kopieren von Daten, die sowohl unstrukturierte Daten als auch strukturierte Einträge aus Datenbanken speichern können und damit Backups für die Datenobjekte ersetzen, die sie speichern. Da sie Dateien in ihren ursprünglichen Formaten speichern, sind solche Systeme besonders für die Unterstützung von Data Mining und von Business Analytics geeignet.

Was die Zukunft bringt

Schon bald werden Technologien und Funktionen auf den Markt kommen, die uns heute noch nicht zur Verfügung stehen. Zum Beispiel werden Object-basierte Speicherarchitekturen die Flexibilität besitzen, größeren und komplizierteren Metadaten-Storage zu unterstützen, als das mit traditionellen File-Systemen möglich ist. Auf diese Weise können mehr Informationen über jedes Objekt direkt in ihm gespeichert werden, was eine vertiefte inhaltsspezifische Suche und eine detailliertere Analyse ermöglichen wird.

Verbesserte Erfassung von Metadaten steht auf der To-do-Liste der Hersteller von Object Storage, aber die meisten von ihnen haben dies noch nicht zu ihren Produkt-Features hinzugefügt.

Systeme für Object Storage können diese verbesserte Metadaten-Funktion auch bei wachsendem Datenvolumen unterstützen, ohne dabei Einbußen bei der Speicher-Performance verzeichnen zu müssen. Diese Funktionalität spielt eine entscheidende Rolle bei dem Erfolg, den Objekt-basierte Architekturen bereits bei Cloud Storage erzielt haben.

Fazit

Data Mining stellt ein Konzept dar, das auf breiter Front bei Unternehmen Anklang findet. Die Idee, ursprünglich für einen anderen Zweck (zum Beispiel Backup) gespeicherte Daten noch einmal zu verwenden, ist in der Tat populär. Backup-Anwendungen erfassen die meisten Daten, die ein Unternehmen erzeugt oder nutzt, wodurch sie eine ideale Datenmenge für Business Analytics zur Verfügung stellen. Wenn die jeweils eingesetzte Backup-Applikation über adäquate Suchfunktionen verfügt, ist ein Unternehmen in der Lage, zusätzlichen Wert aus den gespeicherten Backups zu ziehen.

Viele Unternehmen speichern jedoch bereits große Datenmengen außerhalb ihrer Backup-Systeme, um die Suchfunktionen zu verbessern und Geld zu sparen, besonders wenn die Datenobjekte sehr groß sind oder für lange Zeit gespeichert werden sollen. Diese Daten sind in ihrem ursprünglichen Dateiformat gespeichert, weshalb sie sich gut für Suche und Analyse benutzen lassen, vorausgesetzt man verfügt über dafür geeignete Tools oder Anwendungen.

 

Folgen Sie SearchStorage.de auch auf Twitter, Google+ und Facebook!

Artikel wurde zuletzt im April 2015 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchNetworking.de

SearchEnterpriseSoftware.de

SearchDataCenter.de

Close