Jag_cz - Fotolia

Disaster Recovery: Wenn das Rechenzentrum brennt, geht alles schief

Niemand ist wirklich auf einen Brand im Rechenzentrum vorbereitet. Dieser Erfahrungsbericht aus der Praxis zeigt, was alles schiefgehen kann.

Menschliches Versagen ist der Grund für 75 Prozent aller Ausfälle. Aber aus den schlechten Erfahrungen anderer kann man lernen. Der folgende Bericht beruht auf einer wahren Geschichte und zeigt, was im Katastrophenfall so alles schiefgehen kann.

Um drei Uhr früh meldete sich mein Handy mit einem Alarm. Seit wir das neue Infrastruktur-Management-System für unser Rechenzentrum installiert hatten, passierte das zehnmal täglich, aber bisher hatte es nie etwas Ernstes bedeutet.

In diesem Fall lag die Temperatur im Rechenzentrum noch unterhalb der Vorgaben des Berufsverbandes American Society of Heating, Refrigerating and Air-Conditioning Engineers (ASHRAE), aber oberhalb unserer eigenen Unternehmensrichtlinien und sie stieg rasch an.

Unser Finanzchef hatte das Budget für das Rechenzentrum festgelegt, bevor wir überhaupt ans Design gegangen waren und unsere Mittel reichten vorne und hinten nicht aus. Deswegen mussten wir ständig unsere Policies für die Disaster Recovery an das Budget anpassen. Ich hatte auf zusätzlichen Luftkühlanlagen und Redundanz bei unseren unterbrechungsfreien Stromversorgungen (USV) bestanden. Trotz allem hatten uns die Planer versichert, unser Rechenzentrum erfülle die Kriterien für Tier III des Uptime Institute. Es gebe keinen Grund, Geld für eine Zertifizierung auszugeben.

Ich setzte mich mit der Sicherheitsabteilung in Verbindung. Die hatten denselben Alarm erhalten, aber niemand war in der Nähe, um diesen zu überprüfen. Danach rief ich den Facility Manager an, der mir zusicherte, er werde jemanden ins Rechenzentrum schicken. Danach machte ich mich selbst auf den Weg.

Ein Gefühl wie in der Sahara

Eine Stunde später traf ich ein. Beim Betreten des Rechenzentrums hatte ich ein Gefühl wie in der Sahara. Überall blinkte es, die Rotoren liefen auf Höchstgeschwindigkeit. Acht unserer zehn Luftkühlanlagen waren ausgefallen. Einige Server schalteten sich bereits selbst ab. Unser ausgearbeiteter Disaster-Recovery-Plan lag in Trümmern.

Die graphische Oberfläche unseres Infrastruktur-Management-Systems war verwirrend und undurchschaubar. Eine Tabelle zeigte, dass die Temperatur bereits seit Stunden gestiegen war. Warum war ich nicht vorher alarmiert worden? Ich fand dann ein elektrisches Diagramm, das anscheinend aus Hieroglyphen bestand. Dabei handelte es sich wohl um eine Übersicht über unsere USV-Systeme.

Ich wollte zu unseren Serverschränken und ich wusste, wo sich deren Kontrollen befanden. Aber die Aufschriften bestanden aus undefinierbaren Abkürzungen und die Türen waren verschlossen.

Als unser technischer Mitarbeiter eintraf, konnte er nur bestätigen, was ich schon wusste: Der Strom war fast überall ausgefallen. Er überprüfte die Schalter und konnte keine Fehler entdecken. Wir konnten jetzt nichts mehr tun, bevor ein Elektriker eintraf. Dafür riefen wir erneut beim Facilty Manager an.

Ich schaltete nun die Server einzeln ab, um katastrophale Crashs zu vermeiden. Der Elektriker kam wenig später. Er wusste, wo sich die elektrischen Kontrollen befanden, in einem verschlossenen Raum. Er hatte die Schlüssel dabei und in dem Raum war es angenehm kühl. In dem Raum befanden sich auch die USP-Systeme und eine spezielle Kühlanlage. Aber weil es eben nur eine einzige Kühlanlage war, waren die USV-Systeme verwundbar, wenn diese ausfiel.

Es wird heiß

Nachdem der Elektriker die Hauptsicherung neu gestartet hatte, sprangen die USV-Systeme wieder an. Aber die Freude währte nicht lang, denn bald schlugen Flammen durch schmale Spalten der Bedienungs-Panels. Unsere Rauchmelder hätten uns eigentlich warnen sollen, bevor es ernst wurde. Eigentlich hätten wir so Probleme beheben sollen, bevor der Hauptfeuerschutz in Aktion trat. Die Rauchmelder entdeckten nun auch den Rauch und überall ertönten Sirenen.

Der Hauptfeuerschutz begann mit dem Countdown zur Freisetzung von Stickstoff. Aber im Data Center brannte es gar nicht und ich wollte den Hauptfeuerschutz abschalten. Der Override-Knopf funktionierte allerdings nicht.

Die Feuerwehr traf nun ein. Ich wollte ihnen noch zurufen, dass es nicht brannte, sondern es nur ein Problem mit den Luftkühlern gab, aber sie hörten mich nicht, griffen zum Not-Aus-Schalter und lösten den Hauptfeuerschutz aus. Einen Augenblick später strömte der Stickstoff aus. Die Feuerwehr sprühte Löschschaum auf die glühenden Boxen.

Ein kalter Empfang

Als mich später meine auswärtigen Kollegen anriefen und sich wunderten, warum in ihren Büros nichts funktionierte, versicherte ich Ihnen, das Problem werde behoben, sobald unser ausgelagerter Disaster-Recovery-Standort den Betrieb aufnehme. Der Provider dieses Standorts hatte aber eine unangenehme Überraschung für uns in Petto. Obwohl wir einen Vertrag abgeschlossen hatten, war der Disaster-Recovery-Standort nicht betriebsbereit. Wir hatten tägliche Backups dorthin durchgeführt, aber bevor der Betrieb wieder aufgenommen werden konnte, würde erhebliche Zeit vergehen. Und der Provider informierte uns, dass nur unser eigenes Team den Betrieb neu einrichten könnte.    

Im Elektrizitätsraum war mittlerweile das Feuer gelöscht und der Strom abgeschaltet. Wir arbeiteten unter Notbeleuchtung. Wir stellten fest, dass das Bedienungs-Panel völlig zerstört war.

Es blieb nichts anderes übrig, als zum ausgelagerten Standort zu fahren, dort weiterzuarbeiten und über einen neuen Disaster-Recovery-Plan nachzudenken. 

Folgen Sie SearchStorage.de auch auf Twitter, Google+, Xing und Facebook!

Nächste Schritte

Ein Kommunikationsplan ist unabdingbar für effektive Disaster Recovery

Disaster Recovery: Cloud und Tape sollten Sie in Ihre Strategie einbeziehen

So aktualisiert man den Disaster-Recovery- und Business-Continuity-Plan

Disaster Recovery in der Cloud in sechs Schritten

Artikel wurde zuletzt im April 2017 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Erfahren Sie mehr über Disaster Recovery

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchNetworking.de

SearchEnterpriseSoftware.de

SearchDataCenter.de

Close