Schwerpunkt Grid

Speicher aus der Steckdose: Mythos oder Realität ?

07.02.2007 | Autor / Redakteur: Vladimir Atanaskovik, IBM Infrastructure Architect / Alev Uslu

Grids schweben nicht im luftleeren Raum. Die Strorage-Industrie bereitet ihren kommerziellen Einsatz vor, und vernetzt das Speichernetz mit etablierter Technologie.

Ein „Storage Grid“ ist alles andere als ein fertiges Produkt eines Herstellers, sondern es ist vielmehr ein neues Paradigma in der Datenverwaltung. Der Begriff „Grid Computing“ wurde in den 90er Jahren, in Anlehnung an die Funktion und Topologie eines Elektrizitätsnetzes, eingeführt.

Prinzipiell versteht man unter „Computer Grids“ eine Menge an dezentral verteilten Resourcen, die über ein entsprechendes Medium (LAN, WAN) miteinander verbunden sind und mittels einer geeigneten Middleware zu einem gemeinsam nutzbaren Resourcen-Pool zusammengefasst werden können. Für den Benutzer bzw. Applikation erscheint das Resourcen-Pool als ein einziger großer Rechner.

„Storage Grids“ dienen in erster Linie nicht der Datenverarbeitung, sondern der verteilten Datenspeicherung. Auch hier werden, wie beim Computer Grid, einzelne Resourcen zu einem Speicherpool zusammengefasst. Im Idealfall können Applikationen, unabhängig davon, auf welchem Rechnerknoten sie gerade ausgeführt werden, auf die entsprechenden Daten mit der geeigneten Geschwindigkeit und auf die gleiche Art und Weise zugreifen. Die Datenspeicherung im Grid wird dabei ständig optimiert, und zwar hinsichtlich Kapazitätsausnutzung, Kosten und dem Lifecycle der gespeicherten Daten.

Storage Grids auf Hardware-Ebene: Storage Area Networks

Die am häufigsten genutzte Integrations-Ebene für ein verteiltes Speichersystem ist das Speichernetzwerk, das SAN (Storage Area Network). Obwohl das SAN sehr hohe Flexibilität ermöglicht, ist die Zuordnung von Daten zum Speichersystem und vom Speichersystem zum Server als starr und homogen zu bezeichnen.

Der erste Schritt zu einer flexibleren Infrastruktur ist die Beseitigung dieser starren Zuordnung. Das kann auf physikalischer Ebene durch die so genannte SAN-Virtualisierung erfolgen. Hierbei wird eine Abstraktionsschicht, in Form von spezieller Software, zwischen der Ebene der Server- und Speicher-Hardware eingeführt.Die Server haben eine logische Sicht auf den Speicher und sind von dessen Physik weitgehend unabhängig. Sämtliche Funktionalitäten, wie Spiegelung oder Datenmigration, innerhalb des SANs erfolgen transparent zum Server, ohne diesen zu beeinflussen.

Da sämtliche Speichersysteme zentral, als Bestandteil der Virtualisierungsfunktionalität, verwaltet werden können und die Kapazität der einzelnen Systeme in ihrer Gesamtheit den Servern zu Verfügung gestellt wird, spricht man vom gemeinsamen Speicherpool (Common Storage Space). Die Platten, die den Servern zur Verfügung stehen, sind dabei als „virtuell“ zu betrachten, im Gegensatz zu physikalischen Platten, die auf einzelnen Speichersystemen liegen.

Die virtuelle Platte kann bei Bedarf und im laufenden Betrieb auf andere physikalische Platten verschoben werden, um den jeweiligen Performance- und Verfügbarkeitsanforderungen gerecht zu werden. Erfolgt das automatisch und regelbasiert (policy based), entsteht die funktionale Basis eines Information-Lifecycle Managements.

Zwei Ansätze bei SAN-Virtualisierung

Die physikalische Speicherdomäne wird von den Virtualisierungsservern verwaltet. Hierbei wird jede Platte in der Domäne in logische Bereiche, die so genannten Extents, unterteilt. Die Extents fungieren als „Bausteine“ für die virtuellen Platten. Die Extents können sich dabei auf einer physikalischen Platte befinden, obwohl sie zu einer virtuellen Platte gehören. Sie können aber auch auf mehreren Platten innerhalb eines Speichersystems oder auf Platten von verschiedenen Speichersystemen verteilt sein. Letzteres erscheint vor allem dann sinnvoll, wenn eine sehr hohe Performance erzielt werden soll.

Eine Spiegelung der Extents innerhalb der Speicherdomäne, zwecks Redundanz, ist ebenfalls möglich. Wie die Anordnung erfolgt, ist unwichtig, denn die virtuelle Platte wird unabhängig davon, auf wie vielen physikalischen Platten sie sich befindet, vom Applikationsserver als eine Einheit betrachtet.

Bei der SAN-Virtualisierung sind prinzipiell zwei Ansätze, in Abhängigkeit der Lage der Virtualisierungseinheit zum Datenfluß, möglich: innerhalb des Datenpfads (In-Band oder auch symmetrische Virtualisierung genannt) oder außerhalb des Datenpfades (Out-Of-Band oder asymmetrische Virtualisierung).

Die Appliance als Flaschenhals

Bei dem In-Band Ansatz werden die Server- und Speicherdomänen logisch und physikalisch voneinander getrennt. Die Verbindung zwischen beiden Domänen wird durch die Virtualisierungs-Appliances ermöglicht, welche an beide Domänen angeschlossen sind.

Da der komplette Datenfluss durch die Appliance geht, muß beim Design einer In-Band-Lösung vor allem darauf geachtet werden, dass die Appliance nicht zum single-point-of-failure oder sogar zum Flaschenhals wird. Generell werden mehrere Appliances eingesetzt, entweder paarweise als Hochverfügbarkeitscluster oder mit N+1-Redundanz.

IBM verfolgt bei der eigenen In-Band Lösung, dem SAN Volume Controller, einen multi-node scale-out-Cluster Ansatz. Hierbei werden mehrere Virtualisierungs-Knoten zu einem Cluster zusammengefasst. Zusätzliche Knoten können jedoch bei Bedarf zum Cluster hinzugefügt werden.

Bei dem Out-Of-Band Ansatz ist der eigentliche Daten- vom Metadatenfluss getrennt. Die Verwaltung der Metadaten übernimmt ein dedizierter Server außerhalb des Datenflusses. Ein Ausfall des Metadaten-Servers hat aber keinerlei Einfluss auf den Datenfluss, lediglich die Verwaltung wird beeinträchtigt. Die Server- ist hierbei mit der Speicherdomäne verbunden. Die eigentliche Virtualisierung erfolgt entweder durch einen speziellen Software-Client, der auf jedem Applikationsserver installiert werden muss, oder in speziellen SAN-Switches.

Produkte die diesen Out-Of-Band Ansatz verfolgen sind beispielsweise EMC Invista und StoreAge SVM.

Storage Grids auf der Datenebene

Bei den „Storage Grids“ auf der Datenebene geht es weniger um die Hardware-Infrastruktur, als vielmehr um die Schaffung eines globalen Dateisystems (Global File Name Space). Im Gegensatz zu einem SAN können hier die einzelnen Grid-Zellen über eine weitaus größere Distanz zueinander verteilt werden.

Andrew File System

Das erste globale Dateisystem wurde als Teil des Andrew File System (AFS) der Carnegie-Mellon University realisiert. AFS wurde erstmals von Transarc und später von IBM kommerziell vertrieben.

Mittlerweile ist es als Open AFS frei verfügbar.

Im AFS verfügt das globale Dateisystem über so genannte Volumes. Jeder AFS-Benutzer verfügt über sein eigenes Volume, als Heimverzeichnis. Zudem ist es möglich, den Volumes Projekte zu zuordnen. Ein AFS Name Space kann einige tausend Volumes umfassen, die über unterschiedliche und voneinander unabhängige AFS-Management-Domänen, so genannte Zellen, verteilt verwaltet werden. Für den Benutzer ist es nicht erkennbar, auf welcher Zelle sich seine Daten physikalisch befinden.

Da ein globales AFS über große geographische Breiten verteilt werden kann, wurden frühzeitig Mechanismen implementiert, die das Problem der erhöhten Latenz bei großen Distanzen umgingen. So können die Daten innerhalb eines AFS von einer in eine andere Zelle repliziert werden. Ein Verfahren, dass neben weiteren Caching-Verfahren auch die Skalierbarkeit unterstützt.

AFS bzw. Open AFS ist eine kostengünstige Lösung für den Aufbau eines Data-Grids auf File-Ebene, und funktioniert über mehrere Lokationen hinweg. Der Nachteil liegt im aufwendigen Management und dass nur AFS-kompatible OS/App-Umgebungen genutzt werden können.

IBM Global Parallel File System (GPFS)

IBM GPFS (Global Paralle File System) ist ein POSIX-konformes Cluster-fähiges Dateisystem. Es läuft nativ in Linux- und AIX-Umgebungen und ist sowohl für den technisch-wissenschaftlichen als auch kommerziellen Bereich geeignet, beispielsweise für Oracle RAC. Aber auch andere Clients, wie Windows und UNIX-Systeme, können über CIFS- bzw. NFS-Gateways hochverfügbar und skalierbar auf die Daten zugreifen.

Prinzipiell greifen sämtliche GPFS-Knoten auf einen gemeinsamen physischen Speicherpool (Shared Storage) zu. Die Knoten müssen dabei nicht immer im SAN-Verbund sein. Der Datentransfer erfolgt über so genannte Recoverable Virtual Shared Disk (RVSD) bei AIX bzw. bei Linux mit Network Shared Disk (NSD). Bei dieser Variante wird nur eine Teilmenge der Server als Storage-I/O-Server dediziert.

Die anderen Knoten greifen über ein Netzwerk auf die I/O Server zu. Stark vereinfacht gesagt, bedeutet dies, dass die RVSD bzw. NSD ein SAN über IP emulieren.

Distributed Locking Mechanism

Die Koordination des Zugriffs erfolgt über einen verteilten Sperrmechanismus (Distributed Locking Mechanism). Dabei läuft ein globaler Lock-Manager auf einem GPFS-Knoten zusammen mit den jeweiligen lokalen Lock-Managern auf jedem der GPFS-Knoten. Ein solcher Ansatz ermöglicht ebenfalls ein Client-seitiges Caching und führt zu einer höheren Performance.

GPFS ist im Moment nur für AIX und Linux nativ verfügbar, IBM arbeitet aber bereits an Clients für andere Betriebssysteme. GPFS kann dabei weitgehend unabhängig von der Speichersystem-Hardware eingesetzt werden. So können unterschiedliche Speichersysteme von unterschiedlichen Herstellern benutzt werden.

Der Einsatz von NAS-Systemen, wie beispielsweise EMC Celerra, Network Appliance FAS, IBM N-Series, ist ein anderer beliebter Ansatz, mehreren Servern den Zugriff auf gemeinsame Daten zu ermöglichen. Der Zugriff auf die Daten erfolgt hierbei über NFS- und CIFS-Protokolle. Obwohl NAS- Systeme ausgereifte Funktionen zur Datenverwaltung anbieten, besteht das Hauptproblem darin, dass ein NAS-System in sich eine abgeschlossene Einheit darstellt. Hat man also die Grenzen des Systems erreicht, musste ein neues NAS-System installiert werden, das vollkommen unabhängig von den anderen operiert. Network Appliance geht dieses Problem mit dem neuen Data ONTAP 7Gx an.

Data ONTAP 7Gx ermöglicht ein einheitliches globales Dateisystem über mehrere FAS-NAS-Systeme hinweg. Bei global operierenden Firmen können somit Dateien zwischen unterschiedlichen Standorten transferiert werden. Zusätzlich ermöglicht Data ONTAP 7G die Implementierung von ILM.

Fazit

Neue Ansätze in der Wirtschaft wie Globalisierung, Out-Sourcing oder Out-Tasking stellen neue

Herausforderungen an die IT-Infrastruktur von Unternehmen dar. „Storage Grids“ bzw. „Data Grids“

stellen einen interessanten Ansatz dar, die IT an die neuen Anforderungen anzupassen. Obwohl es momentan viele verschiedene Ansätze gibt, sind „Storage Grids“ bzw. „Data-Grids“ noch nicht weit verbreitet. Es ist davon auszugehen, dass die Realisierung eines „Storage Grids“- bzw. „Data Grids“ noch mit sehr hohem Aufwand verbunden ist. Neue Entwicklungen, wie das IBM GPFS, aber zeigen, dass bald mit Produkten zu rechnen ist, die den hohen Planungs- bzw. Implementierungsaufwand reduzieren können.

Kommentar zu diesem Artikel abgeben

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)



Spamschutz 

Bitte geben Sie das Resultat dieser Rechenaufgabe (Addition) ein:
Kommentar abschicken

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 2002172)