Sergej Khackimullin - Fotolia

Data Scientists als neues Rückgrat der Storage-Infrastruktur

Zum Troubleshooting von Storage-Infrastrukturen werden Big-Data-Analysen immer wichtiger. Ein Blick in den Arbeitsalltag eines Data Scientists.

IT-Abteilungen haben heutzutage mit der Verwaltung der Speicherinfrastruktur ausreichend zu tun, auch ohne sich Sorgen um Hardware- oder Latenzprobleme machen zu müssen, die offenbar niemand versteht oder gar beheben kann. Doch was wäre, wenn ein Team systematisch riesige Datenmengen aus IT-Infrastrukturen auslesen und sorgfältig analysieren könnte, um die genaue Problemursache herauszufinden?

Genau hier kommen Data Scientists ins Spiel: Sie sezieren und analysieren Billionen Datenpunkte, um die Probleme zu ermitteln und zu beheben, die IT-Abteilungen um den wohlverdienten Feierabend bringen. Bei der zunehmenden Komplexität der Rechenzentrumsinfrastruktur können Data Scientists IT-Abteilungen bei der Bewältigung ihrer stetig wachsenden Aufgabenlast unterstützen.

Sie machen sich dabei das Leistungspotenzial der Infrastruktur zunutze, um schnell Antworten auf zahlreiche untypische und unvorhergesehene Fragen zur Umgebung eines Kunden zu finden. Datenanalysen werden so zu einer wichtigen Komponente der IT, während Data Scientists durch die höhere Transparenz Unterstützung für IT-Abteilungen bieten können.

Mit Big Data zum effektiven IT-Support

Ein effektiver und effizienter technischer Support für Storage-Infrastrukturen kann ziemliche Herausforderungen mit sich bringen, was vor allem an der Komplexität heutiger IT-Umgebung liegt. Das komplexe Wechselspiel zwischen einzelnen Produkten bietet das Potenzial für eine Vielzahl technischer Probleme, die von offensichtlichen Fehlern (lockere Kabel) bis hin zu schwer aufzuspürenden Problemen wie Fehlkonfigurationen, Produktkonflikten, Softwarefehlern oder auch unausgewogenen Ressourcen reichen. Um in einer solchen Umgebung Probleme zuverlässig diagnostizieren zu können, sind zahlreiche Informationen unterschiedlichster Art erforderlich. Hierfür bedarf es also einer Big-Data-Lösung.

Einfache Probleme automatisch beheben

Herkömmliche Modelle für technischen Support funktionieren wie folgt: Ein Kunde ruft zunächst einen Level-1-Techniker an, der sein „Runbook“ konsultiert. Ist das Problem darin nicht beschrieben, wird der Kunde an den Level-2-Support verwiesen. Der Kunde stellt dabei zur Problemdiagnose Informationen bereit, die erfasst, übertragen und manuell analysiert werden – unabhängig davon, ob es sich um einfach zu ermittelnde Probleme oder komplexe Spezialfälle handelt.

Wird diese Vorgehensweise mit Data Science kombiniert, so lassen sich kontinuierlich Telemetriedaten für die Problemdiagnose erfassen. Daraus wiederum können Regeln abgeleitet werden, die eine schnelle Erkennung bekannter Problemmerkmale ermöglichen. Der technische Support kann auf diese Weise einen großen Teil der täglichen Supportfälle automatisieren und zugleich die Zufriedenheit der Kunden verbessern. Diese müssen nicht immer wieder mit denselben Fragen bei der Hotline anrufen und der Supportanbieter wiederum benötigt nur für ungewöhnliche, unerwartete und schwieriger zu diagnostizierende Probleme ausgewiesene IT-Experten.

Komplexe Probleme durch Analyse lösen

Zwar ist es eine große Hilfe, dass mit einer Big-Data-Lösung gängige technische Probleme automatisch erkannt werden können, doch zeigt sich der potenzielle Nutzen eines solchen Systems vor allem bei der Behebung besonders kniffliger Probleme. Voraussetzung für eine rasche Problemdiagnose in solchen Szenarien ist ein Client, der Abfragen für folgende Zwecke unterstützt:

  • Vergleich unterschiedlicher Informationstypen (zum Beispiel Protokolle, Konfigurationseinstellungen, Daten im zeitlichen Verlauf);
  • Vergleich von Informationen aus unterschiedlichen Quellen (zum Beispiel Storage-Appliance, Hypervisor);
  • Vergleich aktueller mit historischen Daten;
  • Durchführen beliebiger Berechnungen auf Grundlage der Abfragedaten;
  • Ausführen kurzer, komplexer Abfragen;
  • Schnelles Anzeigen von Ergebnissen für eine interaktive Nutzung.

Damit lassen sich auch untypische Fragen zur Umgebung eines Kunden stellen und relativ einfach beantworten, so dass der Anwender durch das schrittweise Überprüfen von Hypothesen zur logischen Schlussfolgerung gelangt. Das folgende Beispiel soll die Vorteile beim Einsatz von Data Science veranschaulichen.

Woher kommen nur diese Latenzspitzen?

Beim technischen Supportteam ging ein Anruf eines Kunden ein, bei dem gelegentlich Performanceprobleme in der virtuellen Umgebung (in der auch Storage-Arrays eingesetzt werden) auftraten. Hin und wieder kam es vor, dass die Umgebung deutlich langsamer wurde, und keiner der anderen IT-Anbieter (Netzwerk, Hypervisor, etc.), an den sich der Kunde wandte, konnte die Ursache des Problems ermitteln.

Das Data-Science-Team nahm daraufhin die Anfrage genauer unter die Lupe. Dank einer abfragefähigen Infrastruktur war es zunächst nicht erforderlich, den Kunden zu kontaktieren und zu befragen oder eine manuelle Ursachenanalyse auf den Kundensystemen vorzunehmen – einige kurze Abfragen und die nachfolgend beschriebenen Schritte genügten.

Sondierungsanalyse

Zunächst wurde eine kurze Abfrage durchgeführt, um die Aktivität auf dem Storage-Array im zeitlichen Verlauf darzustellen. Dabei zeigten sich Latenzspitzen, die durch einen rund fünfminütigen deutlichen Anstieg der Schreibaktivität verursacht wurden, für den das Array nicht dimensioniert war. Natürlich hätte man dem Kunden nun einfach raten können, zusätzliche Hardware anzuschaffen, da für dieses Maß an Aktivität mehr Ressourcen erforderlich waren.

Eine genauere Analyse der Daten ergab jedoch, dass die Schreibaktivität während der Spitzen um ein Vielfaches höher war als die Grundlinie. Es sah also nicht danach aus, als wäre lediglich die Hardware des Kunden unterdimensioniert. Irgendein Prozess beanspruchte das Array immer wieder unvermittelt, obwohl dies vermutlich gar nicht nötig war. Diesen Prozess galt es zu finden.

Hypothese 1: Könnte ein bestimmter Cron-Job die Ursache sein?

Zur Überprüfung dieser Hypothese wurde eine weitere kurze Abfrage durchgeführt: Bei einem Cron-Job müssten die Spitzen in regelmäßigen zeitlichen Abständen auftreten. Die Abfrage ergab, dass der Anstieg der Schreibaktivität zwischen null und drei Mal täglich auftrat und offenbar keinem zeitlichen Muster folgte.

Hypothese 2: Ist es eine bestimmte Applikation?

Nachdem ein Cron-Job wohl eher nicht als Ursache in Frage kam, wurde überlegt, ob sich die Schreibvorgänge auf eine bestimmte Teilmenge der Daten auf dem Array oder in der virtualisierten Umgebung eingrenzen ließen. Falls dies möglich wäre, ließe sich so feststellen, welche Anwendungen oder Daten dort angesiedelt sind, wodurch man der Problemlösung einen Schritt näher wäre.

Zur Überprüfung dieser Hypothese wurde eine Abfrage erstellt, mit der sich die Korrelation zwischen den Latenzspitzen auf dem Array und der erhöhten Schreibaktivität auf den einzelnen Laufwerken, Hosts, virtuellen Maschinen und virtuellen Festplatten in der Kundenumgebung über einige Wochen hinweg quantifizieren ließ.

Analyseergebnis der Laufwerke: Rund die Hälfte aller Laufwerke korrelierte mit den Latenzspitzen, es war aber kein unmittelbares Muster zu erkennen, bei welchen Laufwerken die Korrelation besonders ausgeprägt war.

Analyseergebnis der Hosts: Hier zeigte sich ein ähnliches Ergebnis, da ein großer Anteil der Hostaktivitäten mit den Latenzspitzen korrelierte, aber auch hier trotzdem kein erkennbares Muster vorlag.

Analyseergebnis der virtuellen Maschinen: Auch hier zeigten sich keine besonderen Auffälligkeiten. Die Aktivität verteilte sich auf zahlreiche Maschinen, auf diesen jedoch gleichmäßig.

Analyseergebnis der virtuellen Festplatten: Erneut zeigten sich keine keine Besonderheiten auf einzelnen Festplatten. Bei den Festplatten, deren Schreibvorgänge den deutlichsten Zusammenhang mit den Latenzen auf dem Array aufwiesen, handelte es sich in der Regel um die Partitionen mit dem Betriebssystem oder die C-Laufwerke der virtuellen Windows-Maschinen – ein erster aufschlussreicher Hinweis.

Interessant war außerdem die Tatsache, dass die Aktivität auf den einzelnen virtuellen Festplatten nicht immer zur gleichen Zeit in dem Fünf-Minuten-Fenster anstieg. Auf den Festplatten, die in diesem Zeitraum aktiv waren, verteilte sich der Zeitpunkt für diesen Anstieg der Aktivität offenbar gleichmäßig über diese fünf Minuten.

Hypothese 3: Aufgrund dieser gleichmäßigen Verteilung der Aktivität lag die Vermutung nahe, dass Konflikte bei der gemeinsamen Nutzung des Host-RAM dazu führten, dass Daten auf Speicher auf mehreren virtuellen Maschinen gleichzeitig ausgelagert wurden. Eine schnelle Abfrage der Statistik des Balloon-Treibers ergab jedoch, dass diese Vermutung falsch war.

Hypothese 4: Da die Schreibaktivität in unregelmäßigen Abständen anstieg und die Schreibvorgänge der Betriebssystempartitionen gleichmäßig verteilt waren, kamen wir zu dem Schluss, dass entweder Software-Updates oder Virenscans den Anstieg verursachten. Unser Sales Engineer setzte sich daraufhin mit dem Kunden in Verbindung, um die Einstellungen für Software-Updates und die Antivirensoftware zu überprüfen.

Wie sich schließlich herausstellte, war die Antivirensoftware des Kunden so konfiguriert, dass neue Virendefinitionen innerhalb von fünf Minuten, nachdem die Updates verfügbar waren, auf alle virtuellen Windows-Maschinen heruntergeladen wurden.

Fazit: Probieren geht über Studieren

Nachdem sich die Beweise in diese Richtung verdichteten, änderte der Kunde die Konfigurationseinstellungen seiner Antivirensoftware. Die Updates wurden daraufhin auf jeder einzelnen virtuellen Maschine zu einem zufälligen Zeitpunkt innerhalb von 24 Stunden nach Verfügbarkeit des Updates installiert und nicht mehr innerhalb des Fünf-Minuten-Zeitfensters. Nach dieser Änderung kam es nie wieder zu Latenzspitzen mit verringerter Performance.

„Je mehr Hypothesen sich mit einer Big-Data-Lösung rasch überprüfen lassen, desto schneller lassen sich auch hochgradig komplexe Probleme lösen.“

David Adamson, Nimble Storage

Dieses Beispiel zeigt sehr deutlich, wie eine Big-Data-Lösung für operative Analysen zur Lösung heikler IT-Probleme beitragen kann. Indem kontinuierlich Telemetriedaten nicht nur der eigenen Speicherprodukte, sondern auch des Hypervisors aus der Kundenumgebung ausgelesen werden, wodurch auch Konfigurationsprobleme von Drittanbieterprodukten erkannt werden, die sich auf die gesamte Umgebung auswirken.

Da die Komplexität der Infrastruktur von Rechenzentren weiter zunimmt, wird es immer wichtiger, durch den ganzheitlichen Einblick in die gesamte Umgebung einschließlich Speichersystemen, Hosts, Netzwerk und Anwendungen einen effektiven technischen Support gewährleisten zu können. Dabei spielen Datenanalysen eine entscheidende Rolle. Denn je mehr Hypothesen sich mit einer Big-Data-Lösung rasch überprüfen lassen, desto schneller lassen sich auch hochgradig komplexe Probleme lösen.

Über den Autor:
David Adamson ist Data Scientist beim Flash-Storage-Unternehmen Nimble Storage. David und sein Team sorgen für die Weiterentwicklung der InfoSight Plattform, die den Zustand der Storage-Infrastrukturen der Nimble-Kunden aufzeichnet und analysiert. Als Data Scientist entwickelt David mathematische Modelle, um die Ressourcen einer Anwendung zu bestimmen, um zusammenhängende Probleme automatisch zu diagnostizieren und Lösungen dafür zu bestimmen, bevor die Probleme Auswirkungen auf die Performance haben. Bevor er im Jahr 2013 bei Nimble anfing, hat er mathematische Modelle entwickelt, die bestimmte genetische Kreisläufe erklärten, die wiederum als Kontrollmechanismus für das Verhalten von Zellen genutzt wurden. Er hält einen Dr. in Biophysik von der Universität Berkeley in Kalifornien, einen B.A. in Physik und einen B.S. in Chemie der Universität von Chicago.

Folgen Sie SearchStorage.de auch auf Twitter, Google+, Xing und Facebook!

Artikel wurde zuletzt im Juni 2016 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Erfahren Sie mehr über Storage-Anbieter

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchNetworking.de

SearchEnterpriseSoftware.de

SearchDataCenter.de

Close