Essential Guide

Notfall-Management mit Business Continuity und Disaster Recovery

Eine umfassende Auswahl von Artikeln, Videos und mehr, die von unseren Redakteuren gewählt wurden.

High Availability: Hochverfügbare IT-Systeme - Baustein für das Disaster Recovery

Disaster Recovery zielt auf eine schnelle Wiederaufnahme des IT-Betriebs. High Availability schützt geschäftskritische IT-Systeme in Unternehmen.

Die wichtigste Aufgabe eines Disaster-Recovery-Plans ist die schnelle Wiederherstellung des IT-Betriebs nach einem unerwarteten Systemausfall. Gängige Maßnahmen sind redundante Hardware-Komponenten, Zugang zu geschützten Systembereichen, zusätzliche Netzwerkfunktionalitäten für den Notfall und der nahezu unterbrechungsfreie Umstieg auf eine alternative IT-Plattform mit schneller Datenreplikation.

Heutige Anforderungen an die Hochverfügbarkeit von IT-Systemen beruhen auf sehr kurzen Ausfallzeiten im Fall von Systemstörungen. High-Availability -Techniken spielen deshalb im Umfeld von Mission-Critical-Systemen eine wichtige Rolle. Denn das Ziel von hochverfügbaren Systemen sind Ausfallzeiten, die erst gar nicht eintreten.

Was versteht man unter High Availability?

Im Kern handelt es sich um ein System-Design oder eine Methode, die sicherstellt, dass ein IT-System für einen vorgesehenen oder spezifizierten Zeitraum seine Aufgaben erfüllt und damit das geplante oder ungeplante Downtime-Fenster gegenüber dem Uptime so klein wie möglich hält. Hochverfügbarkeit erreicht ein System, das auch im Fehlerfall weiterhin verfügbar bleibt. Einfach ausgedrückt: High Availability minimiert Downtime und maximiert Uptime.

Verfügbarkeit lässt sich auch als prozentualen Wert in verschiedenen Verfügbarkeitsklassen - dem sogenannten "Table of 9s” - darstellen. Die Werte können je nach Quelle und Rechengrundlage für die Länge des Jahres (365 oder 365, 25 Tage) sowie eines durchschnittlichen Monats etwas variieren. Wir geben die „strengeren“ Werte an:

Verfügbarkeit Downtime pro Jahr Downtime pro Monat Downtime pro Woche
99,9% ("three nines") 8,76 Stunden 43,2 Minuten 10,1 Minuten
99,99% ("four nines") 52,56 Minuten 4,32 Minuten 1,01 Minuten
99,999% ("five nines") 5,26 Minuten 25,9 Sekunden 6,05 Sekunden

Tabelle 1: Anwendungsverfügbarkeit

Uptime bedeutet nicht in jedem Fall, dass das System verfügbar ist. Bestes Beispiel sind über Rechenknoten vernetzte Server. Streikt die Firmware des Netzwerkswitch, bleiben die Server in Betrieb, können aber ihre Services für die User nicht ausführen.

Die Hauptursache für Systemausfälle sind meist menschliche Eingriffe. Wirkungsvolle Gegenmaßnahme auf Komponenten- und Software-Ebene sind zusätzliche, redundante Systemkapazitäten. Um Performanceschwankungen auszugleichen, kann man beispielsweise zusätzliche Rechenleistung freigeben. Ein Schritt weiter geht die so genannte Active Redundancy. Das System erkennt Lastschwankungen und startet bei Komponentenausfall in Echtzeit die Stand-by-Komponente mit einem kompletten Failover der Daten.

Redundant ausgelegte Hard- und Software ist in vielen Mission-Critical-Systemen beispielsweise des Finanzsektors unerlässlich. Um eine sehr hohe Ausfallsicherheit zu erreichen ist die Kombination von redundanten Hardware-Komponenten mit speziellen Erkennungsalgorithmen für steigende Systemlasten, die den Ausfall des Systems herbeiführen könnten, der richtige Weg.

Fehlertolerante Systeme und Disaster Recovery

Zu den nützlichen Eigenschaften eines High-Availability-Systems gehört die Fehlertoleranz. Fallen bestimmte Hardware-Komponenten aufgrund eines internen Fehlers aus, kommt es nicht gleich zum Systemcrash. Fehlertolerante Systeme erkennen schwächelnde Zustände einzelner IT-Komponenten und begrenzen sofort deren Auswirkung auf das Gesamtsystem.

Eine Serveranwendung beispielsweise wird dann automatisch auf eine frühere Version ohne Single Point of Failure (SPOF) zurückgesetzt. Zwar lässt sich in diesem Fall der Normalbetrieb nicht reibungslos fortsetzen, aber es kommt zu keinem Komplettausfall des Gesamtsystems.

Ähnlich reagieren fehlertolerante Systeme bei Lastwechseln in Teilbereichen. Statt die gesamte IT-Umgebung einem Crash auszusetzen, lassen sich bestimmte Systembereiche bei Hochlast oder Performance-Einbrüchen anpassen. Diese Skalierung lässt sich mit Hilfe von Service Level Agreements (SLA) genau festlegen.

Der Nutzen von High Availability

Nicht jedes Unternehmen benötigt Hochverfügbarkeits-Technik. Wenn aber IT-Prozesse und Anwendungen im ganzen Jahr rund um die Uhr zur Verfügung stehen sollen, muss die IT-Umgebung - und damit das Disaster-Recovery-Programm - High-Availability-Kriterien erfüllen. In welchem Fall sich die Anschaffung von teurer Hochverfügbarkeits-Technik auch für Recovery-Maßnahmen auszahlt, ist im Einzelnen zu prüfen.

Um Schäden durch Systemausfall auszuschließen oder in Grenzen zu halten, sollten Recovery-Maßnahmen so ausgelegt sein, dass für jede Hardware-Plattform, alle Betriebssysteme und Anwendungsumgebung einschließlich Datenbank sowie Netzwerkinfrastruktur ein detaillierter Plan zur Systemwiederherstellung vorliegt.

High-Availability-Systeme sorgen zwar für einen reibungslosen Betrieb ohne häufigen manuellen Eingriff, trotzdem zeigen erst Testläufe, ob die Wiederherstellung der Daten im Ernstfall wie geplant stattfindet. In komplexen IT-Umgebungen empfiehlt sich die Zusammenarbeit mit Spezialisten des Systemanbieters, der auch beim Aufspüren von Schwachstellen und der Erstellung des Maßnahmenkatalogs sowie beim Testen hilft.

Fazit: Sicherheit hat seinen Preis

Um Betriebsunterbrechungen zu verhindern und eine möglichst hohe Verfügbarkeit zu gewährleisten, müssen Recovery-Planer ihren Bedarf analysieren und die Hardwareanforderungen und die Replikationssoftware für Teil- und Komplettausfälle genau ansehen. Meist ist die Kombination mehrere Technologien besser als ein einzelnes Werkzeug.

High Availability bedeutet die Fortsetzung des Rechenbetriebs auch bei kritischen Ausfällen sowohl der Hardware, als auch bei Softwarefehlern. Wenn der Schaden durch Datenverlust und Serverstillstand dem Unternehmen erhebliche Einbußen beschert, kommen IT-Verantwortliche um ein wirkungsvolles Disaster Recovery nicht herum. Alle Maßnahmen im Fall ungeplanter Ereignisse sollten klar definiert und ausführlich dokumentiert sein.

Über den Autor: Paul Kirvan ist ein unabhängiger Berater und IT-Auditor, der zudem als technischer Autor, Redakteur und Lehrer tätig ist. Er hat mehr als 25 Jahre Erfahrung mit Themen wie Business Continuity, Disaster Recovery, Security Enterprise Risk Management und IT Auditing. Dazu kommen mehr als 30 Jahre Erfahrung beim Verfassen von technischen Texten und Auftritten. Paul Kirvan war direkt involviert in Sicherheits-Audits, der Planung und Umsetzung von Business Continuity-Prozessen sowie Risikoabschätzungen. Herr Kirvan ist Mitglied der Leitung der amerikanischen Abteilung des Business Continuity Institutes. Er ist zudem ein Certified Information Systems Auditor sowie ein Fellow des BCI.

Artikel wurde zuletzt im Juli 2013 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Essential Guide

Notfall-Management mit Business Continuity und Disaster Recovery

0 Kommentare

Älteste Beiträge 

Passwort vergessen?

Kein Problem! Tragen Sie Ihre E-Mail-Adresse unten ein. Wir werden Ihnen eine E-Mail mit Ihrem Passwort schicken.

Ihr Passwort wurde an die folgende E-Mail-Adresse gesendet::

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchNetworking.de

SearchEnterpriseSoftware.de

SearchDataCenter.de

Close