SanDisk: Flash-Speicher wie InfiniFlash macht Big-Data-Management effizient

Flash-Technologie wird vermehrt im Rechenzentrum eingesetzt und kann hier auch Big-Data-Projekten auf die Sprünge helfen und effizienter gestalten.

Big Data ist eine der derzeit größten Herausforderungen für die Informationstechnologie. Die Nutzung neuer Möglichkeiten, wie dem Internet der Dinge, führt zu einem rapiden Anstieg der Datenmengen und zu Problemen. Dies lässt sich auch anhand der drei folgende Parameter verdeutlichen:

  • Zweieinhalb Trillionen Bytes (1018) neuer Daten werden täglich erzeugt. Diese unglaublichen Datenmengen verdoppeln sich zudem im Zyklus von eineinhalb bis zwei Jahren.
  • Mehr als 55 Prozent der CIOs, CEOs und anderer IT-Excutives berichten, dass die zunehmende Datenmenge den IT-Betrieb verlangsamt.
  • Jede 100 ms zusätzlicher Latenz bedeutet für ein Unternehmen wie Amazon einen Umsatzverlust von 780 Millionen US Dollar.

Mittlerweile mehr als nur ein neuer reißerischer Fachbegriff, hat sich Big Data zu einem gesamtgesellschaftlichen Thema mit vielen verschiedenen Ausprägungen, positiv wie negativ, entwickelt. Unter dem Begriff Big Data sammeln sich analytische IT-Anwendung, egal ob im kommerziellen oder wissenschaftlichen Betrieb, und IT-Dienstleistungen, die mit großen und sehr großen Datenmengen operieren müssen.

Dies können Mediastreaming-Dienste (u.a. Video on Demand), Videodiensten (u.a. Flughafenüberwachungsanlagen) oder eine Farm von vernetzten Computern sein. Eine Vielzahl von Daten also, die dem Datenmanagement und der Datenspeicherung Probleme bereitet und vor allem lokale Festplatten (häufig im letzten Beispiel verwendet) an ihre Grenzen stoßen lässt.

Big Data: die neue Herausforderung für Speichertechnologien

Denn immer mehr der oben genannten Big-Data-Anwendungen gehen heute weit über die nachgelagerten reinen Analysen hinaus. Das heißt, es wird häufig nicht mehr unterschieden, ob es sich um die Daten einer transaktionalen Datenbank handelt (Umsatzbuchung) oder um eine ausgelagerte Auswertung von Bestandsdaten. 

Hinzu kommt, dass aufgrund des enormen Wachstums der Datenmengen eine doppelte oder gar dreifache Vorhaltung der gleichen Daten auf unterschiedlich priorisierten Systemlandschaften nahezu unbezahlbar wird. Die Zuverlässigkeit der Daten darf unter dem Anstieg der Datenmengen aber nicht leiden. Ein zweites Problem ist zudem, dass der Begriff Big Data nicht per se aussagt, dass die Datenmengen groß sind, sondern vielmehr, dass viele gleichzeitige Zugriffe auf einen Datenbestand stattfinden. 

Dies ist jedoch eine nicht zu bewältigende Anforderung für herkömmliche Speichersysteme. Und selbst wenn traditionelle Enterprise-SAN-Systeme für diese Leistung ausgelegt sind, stellt sich immer noch die Frage des wirtschaftlichen Nutzens, da diese Arrays in der Anschaffung und im Betrieb vergleichsweise teuer sind.

SanDisk hat sich daher mit diesen Problemen auseinandergesetzt und einen Lösungsansatz, den „disaggregated Storage”, entwickelt. Disaggregated Storage beschreibt die Trennung von sehr großen Mengen an benötigtem Speicherbedarf von den Bereitstellungsressourcen der verarbeitenden Computer (Compute-Node), um die notwendigen CPU-Zyklen allein der Anwendung und nicht der Datenbereitstellung zu Gute kommen zu lassen. Dabei kann auch die Zahl der Compute-Nodes verringert und so ein signifikanter TCO-Effekt erzielt werden. 

Diese Trennung muss nun nur noch auf dem richtigen Speichermedium umgesetzt werden. SanDisk setzt hier auf die Nutzung von SSDs und NAND-Flash. Da die Technologien im Allgemeinen eine signifikant geringere Latenz aufweisen und zudem wesentlich zuverlässiger sowie ausfallsichererer sind, eignen sie sich besonders gut. Weitere Vorteile sind zudem der geringere Energieverbrauch von SSDs und NAND sowie ihre Größe, denn Flash-Storage benötigt dank seiner enorm hohen Massendichte nur einen Bruchteil physischer Ausdehnung. Erst kürzlich hat SanDisk ein solches All-Flash-Storage-System – SanDisk InifiniFlash – mit folgenden Kerndaten vorgestellt:

  • 512 TByte Speicherkapazität in nur drei Höheneinheiten eines Standard-Racks
  • 1 Million IOPS bei einer durchgehenden Zugriffszeit von < 1 ms
  • 8 GB/s Bandbreite
  • 8 x 6-Gbit- oder 12-Gbit-SAS-Hostanschlüsse

All-Flash für den Einsatz im Rechenzentrum

Ein All-Flash-Storage-System im Rechenzentrum einzusetzen, ist noch ein recht junger Ansatz. Denn bislang stellte der Einsatz von Flash im Rechenzentrum eine große wirtschaftliche Hürde dar, da die Kosten pro GByte bis zu zehnfach höher waren als die herkömmlicher Festplatten. 

Allerdings ist die Ausfallrate herkömmlicher Festplatten bei der Speicherung von Big-Data-Anwendungen sehr hoch. So müssen bei einem Volumen von etwa 100 PByte bis zu 25 Festplatten in der Woche ausgetauscht werden, im Vergleich dazu sind im gleichen Zeitraum nur ein oder zwei Flash-Chips fehlerhaft. Zusammengefasst bedeutet das also, dass pro Woche im Rechenzentrum 25 von 25.000 Festplatten à 4 TByte zu identifizieren und auszutauschen sind, aber nur ein oder zwei Chips à 8 TByte von 12.800.

Die geringere Ausfallrate wird immer stärker zum Verkaufsargument für Flash und so hat sich die steigende Akzeptanz bereits positiv auf die Preisentwicklung ausgewirkt. Auch die Tatsache, dass NAND-Hersteller als System- und Lösungsanbieter in den Markt eingestiegen sind, wirkt sich positiv auf die Preisgestaltung aus, da die Produkte in einer durchgehenden Produktionskette vom Wafer bis zur fertigen Lösung entstehen und keine weiteren Preisaufschläge anfallen. Somit kann SanDisk heute Flash-Speichersysteme in Größenordnungen von bis zu 512 TByte in einem System von nicht mehr als drei Höheneinheiten zu einem Preis von einem US-Dollar pro GByte anbieten.

Der Einsatz von All-Flash im Rechenzentrum ist also aufgrund von drei Punkten empfehlenswert:

  • Die Verarbeitungsgeschwindigkeit von Flash sowohl bei lesenden als auch schreibenden Zugriffen ist durchgehend größer als von Festplatten.
  • Die Kosten von Flash sind mittlerweile vergleichbar mit den Kosten von leistungsoptimierten Festplattentechnologien. Zudem sind die nachgelagerten operativen Kosten beim Einsatz von Flash im Rechenzentrum deutlich geringer als beim Betrieb mit herkömmlichen Festplatten und zwar unabhängig davon, ob diese lokal als DAS angebunden sind oder im SAN in Arrays.
  • Die Anforderungen an die Zugriffszuverlässigkeit in Big-Data-Anwendungen ist enorm hoch und vergleichbar mit jener der klassischen Enterprise-IT.

Dass das Speichermedium der Zukunft Flash ist, bestätigen auch die jüngsten Analysen von IDC und Gartner, allerdings betrifft dies bis heute in erster Linie die sogenannten Tier-1-Anwendungen. Mit InifiniFlash wird nun auch den nachgelagerten Tier-2-/Tier-3-Anwendungen der Weg ins Flashzeitalter geebnet, da die Kosten pro GByte keinen Kritikpunkt mehr darstellen. Wenn dann noch die nachgelagerten Betriebskosten herkömmlicher Festplatten hinzugerechnet werden, ist die Flash-Technologie der klare Sieger gegenüber den auf Festplatten-basierten Speichersystemen.

SanDisk unterstützt das OpenSource-CEPH-Projekt

CEPH ist die Storage-Technologie der Zukunft, wenn beispielsweise hunderte oder tausende virtuelle Clients in einem Netzwerk mit verteilten Storage-Knoten anzubinden sind. SanDisks Beitrag zum Einsatz in CEPH-Umgebungen ist das IF500 System mit SanDisks IFOS. IFOS ist eine optimierte CEPH-Variante, die die Vorteile von Flash Storage für CEPH bereitstellt. SanDisk arbeitet in diesem Bereich der optimierten Netzwerkanbindung auch eng mit Mellanox zusammen.

Mit IF500 bietet SanDisk Scale-out Objekt-Storage (S3 und Swift) und iSCSI Block-Storage in einem System an, inklusive der Schnittstelle zu OpenStack. Zudem verfügt ein IF500-System über folgende Features:

Eine weitere, einfach zu integrierende iSCSI- und FC-Blockvariante IF700 rundet die aktuell verfügbare InfiniFlash-Systemreihe ab. Typische Anwendungen, die unsere Kunden auf InfiniFlash betrieben, sind Hadoop, Cassandra, MongoDB und Imaging-Anwendungen. Unser IF700System stellt Flash als Block-Storage im SAN als iSCSI (40 und 10 Gbit) oder FC (16 Gbit) bereit und nutzt die von Fusion-io entwickelte Software ION Accelerator Shared Storage. IF700 ist eine vollintegrierte All-Flash-Lösung für Datenbanken mit einer garantierten Zugriffszeit von < 1 ms und dem gleichen TCO-Vorteilen wie die IF500 Variante. IF700 eignet sich für HPC Anforderungen als auch für IF100 in Verbindung mit GPFS und Lustre sowie anderen.

Über den Autor:
Axel Rosenberg ist Senior Manager Systems Field Engineering bei SanDisk.

Folgen Sie SearchStorage.de auch auf Twitter, Google+ und Facebook!

Artikel wurde zuletzt im Juli 2015 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchNetworking.de

SearchEnterpriseSoftware.de

SearchDataCenter.de

Close