Feature

Schutz im Petabyte-Maßstab: Best Practices für Backups bei Big Data

Big Data, also das Aufbewahren und Analysieren riesiger Datenmengen, bringt eine Reihe von neuen Herausforderungen mit sich. Eine davon ist die Sicherung dieser vielen Daten in Ihrer Storage-Umgebung.

Datenspeicher in Petabyte-Größe können Backup-Fenster schwer durcheinander bringen, und traditionelle Backup-Methoden eignen sich schlecht für Millionen kleiner Dateien. Die gute Nachricht: Nicht alle Informationen im Big-Data-Bereich müssen wie gewohnt gesichert werden.

Kostenlose Registrierung notwendig

  • Um diesen Artikel vollständig zu lesen, melden Sie sich bitte kostenlos an. Falls Sie schon ein Mitlgied sind, loggen Sie sich einfach oben links auf der Webseite an.

Mit dem Einreichen Ihrer Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Sie sich außerhalb der Vereinigten Staaten befinden, stimmen Sie hiermit zu, dass Ihre persönlichen Daten in die Vereinigten Staaten übertragen und dort verarbeitet werden. Datenschutz

Hilfreich ist beispielsweise ein intelligenterer Umgang mit den Daten für Backups, sagt Nick Kirsch, Chief Technology Officer für Isilon, die Scale-Out-NAS-Plattform von EMC. Bevor Sie über die Sicherung Ihrer Daten nachdenken, so sein Rat, sollten Sie wissen, welcher Teil davon überhaupt gesichert werden muss. Von Maschinen generierte Daten – etwa Berichtsdaten aus einer Datenbank – lassen sich oft leichter reproduzieren als sichern und wiederherstellen.

Unter Umständen brauchen Sie für Big Data trotzdem ein größeres sekundäres Storage-System, mehr Bandbreite und längere Zeitfenster für Backups. Vergleichen Sie die Kosten dafür mit denen für eine Wiederbeschaffung der Daten. In vielen Fällen, so Kirsch, wird man die Quell-Daten sichern müssen, aber alle darauf folgenden Prozesse lassen sich oft günstiger reproduzieren als es wäre, ihre Ergebnisse zu sichern.

Sicherung der Daten

Als Schutz gegen Fehler von Anwendern oder Anwendungen können bei Big-Data-Backups Snapshots helfen, sagt Ashar Baig, leitender Analyst und Berater bei der Taneja Group. Für schnelle und einfache Wiederherstellung empfiehlt er außerdem ein lokales System auf Festplatten-Basis. „Suchen Sie nach einer Lösung, die eine Option für lokale Kopien von Daten bietet, so dass lokale Wiederherstellungen möglich sind – die sind viel schneller“, sagt er. „Lokale Kopien und Image-basierte Technologien für schnelle Snapshots und Replikation sorgen für mehr Tempo und sind eine Antwort auf Performance-Sorgen“.

Wenn Sie auf der Suche nach einem neuen Backup-System für Big Data sind, empfiehlt Baig, die aktuelle Ausstattung und Software dafür nicht außer Acht zu lassen. „Alles, was Sie für Big Data kaufen, muss eine ergänzende Technologie für Ihre bestehenden Systeme sein“, sagt er, „das ist die echte Welt. So leben und atmen Administratoren“.

Für externe Daten-Sicherung ziehen Big-Data-Kunden auch Band-Systeme und Cloud-Provider in Betracht, berichtet Jeff Echols, Direktor für Produkt- und Lösungsmarketing beim Backup-Softwareanbieter CommVault. Manche würde alte Band-Systeme wegen ihrer niedrigen Kosten oder bestehender Infrastruktur behalten, sie aber zunehmend statt für primäre Backups nur noch für Archive nutzen.

Schnelleres Scannen ist nötig

Eines der Probleme bei Backup-Systemen für Big Data sind Scans bei jedem Mal, wenn Lösungen für Backup und Archivierung ihre Jobs beginnen. Alte Systeme durchsuchen das Datei-System bei jedem Backup- und jedem Archivierungsjob. Bei Datei-Systemen in Big-Data-Umgebungen kann das sehr zeitraubend sein.

„Bei Backups wurde seit jeher so vorgegangen, dass das Datei-System bei jedem Backup gescannt wurde“, sagt Echols von CommVault. Dabei habe keine Rolle gespielt, ob es um vollständige oder inkrementelle Backups ging – immer habe zuerst der Scan-Prozess abgewartet werden müssen. Im heutigen Umfeld könne das aber die gesamte Operation zum Scheitern bringen.

CommVaults Lösung für das Scan-Problem in seiner Software für Datensicherung Simpana ist die Funktion OnePass. Nach Angaben des Unternehmens ist OnePass ein auf Objekt-Ebene konvergierter Prozess für das Sammeln von Backup-, Archiv- und Berichtsdaten. Die Daten werden nach dem Einsammeln vom primären System in ein virtuelles ContentStore-Repository verlagert, von dem aus die Operationen zur Sicherung beendet werden.

Wenn ein kompletter Scan durchgelaufen ist, platziert die CommVault-Software im Datei-System einen Agenten, der über inkrementelle Backups informiert, Dies macht den Prozess noch effizienter.

Wie Echols erzählt, hat er von Kunden auch von Techniken mit Snapshots und Replikation gehört. An irgendeinem Punkt aber müsse man die Daten vom primären System wegbewegen. Um die Last zu verringern und Compliance-Daten auf dem primären System zu schützten, komme man um ein Archivieren oder Löschen mancher Daten nicht herum.

Die Gruppe für Research Computing and Cyber-Infrastructure an der Penn State University (PSU) hat eine weitere Möglichkeit gefunden, um das Scannen zu beschleunigen. Hier wurde ein Array mit Solid-State Storage eingerichtet, dass hunderte von Millionen Dateien scannt, berichtet Michael Fenn, System-Administrator an der PSU.

Die Gruppe nutzt das General Parallel File System (PGFS) von IBM, verbunden mit einem Storage-Array des Typs Dell PowerVault MD2000. Bei GPFS sind Daten von den Metadaten getrennt und auf jeweils eigenen LUNs untergebracht.

Laut Fenn hatten Scans der vielen Dateien Backups quälend langsam gemacht, also verlagerte er Backups der Metadaten auf ein Array mit Flash-Storage, RamSan-810 von Texas Instruments. Vorher hatte er rund 200 SAS-Laufwerke mit 15.000 Umdrehungen pro Minute für Übernacht-Backups von Metadaten provisioniert. Dadurch war die Backup-Dauer von zwölf bis 24 auf nur noch etwa sechs Stunden zurückgegangen. Mit dem Umstieg auf Flash dauern sie jetzt nur noch eine Stunde.

Die Backups der Gruppe werden mit Hilfe von IBMs Tivoli Storage Manager auf Bändern gespeichert. „GPFS muss in die Metadaten schauen, um herauszufinden, wo sich Blöcke mit Daten befinden, und bei jeder einzelnen Datei im Datei-System prüfen, ob sie seit dem letzten Backup geändert wurde“, erklärt Fenn, „unsere Backups dauerten zwölf bis 24 Stunden, hauptsächlich weil all diese Dateien gescannt werden mussten“.

Laut Fenn kommt ein einzelnes RamSan-810 auf bis zu 150.000 IOPS, der Betrieb von zweien davon in einem redundanten Paar steigert diesen Wert auf 300.000. „Wir sind von 20.000 IOPS auf 300.000 gekommen“, sagt er. Damit sei der Metadaten-Scan nicht mehr der limitierende Faktor bei Backups.

Wie Fenn berichtet, sichert die Gruppe etwa 150 Millionen von Nutzern geschaffene Dateien. Dies sei nur ein geringer Anteil aller von Maschinen oder Nutzern generierter Dateien. Trotzdem: „Das ist eine Menge Material zum Scannen. Manche der Daten lassen sich neu generieren. Die Nutzer wissen, welches Datei-System gesichert wird und welches nicht. Wir haben zum Beispiel ein temporäres Datei-System mit ein paar Millionen Dateien, für das es keine Backups gibt. Wenn die Leute Dateien dort speichern, wissen sie, dass die verloren gehen können“.

Außerdem vergibt Fenn Quoten für diejenigen Datei-Systeme, für die ein Backup erfolgt. Dies solle dafür sorgen, „dass die Leute darüber nachdenken, wofür wirklich ein Backup gebraucht wird“.

Casino will bei Backups keine gefährlichen Spiele wagen

Das Pechanga Resort & Casino in Kalifornien ist im Februar mit einem Cluster aus 50 Knoten des Typs EMC Isilon X200 in den Live-Betrieb gegangen, der Daten seiner Überwachungskameras sichert. Dafür stehen dem Casino 1,4 Petabyte an nutzbarer Kapazität zur Verfügung. Dies ist unverzichtbar für den Betrieb: „Bei Glücksspielen ist eine Überwachung vorgeschrieben“, erklärt Michael Grimsley, System-Direktor bei der Pechanga Technology Solutions Group, „wenn sie ausfällt, muss auch das Spielen aufhören“.

Wenn es zu einem sicherheitsrelevanten Zwischenfall kommt, stellt das IT-Team das Material von den X200-Knoten zusammen, verlagert es auf WORM entsprechendes Storage und sichert es mit NetWorker-Software auf Ziel-Appliances des Typs EMC Data Domain DD860 für Deduplizierung. Das Casino braucht für WORM-Fähigkeit keine Bänder, weil WORM schon in der Isilon-Software SmartLock berücksichtigt ist.

„Nach den Vorschriften muss ein Teil unseres Storages die WORM-Vorgaben erfüllen“, erklärt Grimsley, „jedes Mal, wenn es einen Vorfall gibt, stellen wir das Videomaterial dafür in diesen Speicher. Wir haben Richtlinien dafür, dass es nicht gelöscht wird.“

Vor dem Überspielen auf Videokassetten hebt das Casino seine Aufzeichnungen 21 Tage lang auf. Grimsley will nach eigenem Bekunden bald noch mehr Kamerabilder sichern können und denkt darüber nach, ein größeres Data-Domain-Gerät anzuschaffen, mit dem tägliche Backups möglich wären. „Das ist nicht vorgeschrieben, aber wir würden es trotzdem gerne tun“, sagt er.

Eine weitere Möglichkeit wäre, zusätzlich eine Replikation an einem Standort für Disaster Recovery (DR) vorzunehmen. Damit könnte das Casino nötige Daten schnell wiederherstellen, wenn das Überwachungssystem ausfällt.

Scale-out-Systeme können helfen.

Eine weitere Option für das Lösen von Problemen mit Performance und Kapazität bieten Backup-Systeme nach dem Prinzip Scale-out, ähnlich wie bei Scale-out-NAS, aber mit dem Zweck der Daten-Sicherung. Bei zunehmender Menge an zu schützenden Daten kann man hier zusätzliche Knoten mit weiteren Ressourcen für Performance und Kapazität hinzufügen.

„Jede Backup-Architektur, vor allem in der Big-Data-Welt, muss eine Balance zwischen Performance und Kapazität finden“, sagt Jeff Tofano, Chief Technology Officer bei Sepaton Inc. Anders sei letztlich keine gute Lösung für den Kunden zu realisieren, und sie werde teurer als nötig.

Eine modulare virtuelle Band-Bibliothek (VTL) von Sepaton, genannt S2100-ES2, wurde speziell für datenintensive Großunternehmen entwickelt. Nach Angaben des Unternehmens sichert ihr 64-Bit-Prozessor Backup-Daten mit bis zu 43,2 Terabyte pro Stunde, unabhängig vom Daten-Typ, und kann bis zu 1,6 Petabyte speichern. Pro Cluster lassen sich nach Bedarf bis zu acht Performance-Knoten hinzufügen, für mehr Kapazität sind zusätzliche Platten-Regale möglich.

Ein weiteres Sepaton-Modell, S2100-DS3, ist auf Daten-Sicherung und Replikation für Zweigstellen im zentralen Enterprise-System oder auf einem externen Standort für Disaster Recovery ausgelegt. Die Backup-Performance liegt hier bei 5,4 TB pro Stunde, zu den Funktionen zählen Remote-Backups, Deduplizierung, Replikation und Restore-Management.

Beide Sepaton-Systeme enthalten die Technologie Secure Erase, die eine auditierbare Vernichtung von VTL-Cartridges erlaubt. Dadurch lässt sich Speicherkapazität freimachen, wenn Aufbewahrungsfristen abgelaufen sind.

Der Schutz einer Big-Data-Umgebung erfordert neues Denken über den Umgang mit alten Werkzeugen und die Beschäftigung mit neuen Technologien, die mit Ihrem Daten-Wachstum Schritt halten können. Mit am hilfreichsten dabei ist es, das zu sichernde Daten-Volumen zu verringern und/oder ihre Backup-Umgebung entsprechend größer zu gestalten. So sind ihre wichtigen Daten vor einfachen und katastrophalen System-Fehlern geschützt.


Artikel wurde zuletzt im Juni 2012 aktualisiert

Ihre Meinung zum Artikel Kommentar

Teilen
Kommentare

    Ergebnisse

    Tragen Sie zu dem Gespräch bei

    Alle Felder sind erforderlich. Kommentare werden unterhalb des Artikels erscheinen.