ZitatAlles anzeigenDunkle Wolken über Cloud-Computing
Beunruhigend am neuesten Ausfall von Teilen der Cloud-Dienste Amazons ist, dass der Streamingservice Netflix trotz voller Sicherung in zwei weiteren Datenzentren für 25 Millionen Kunden zwölf Stunden nicht erreichbar war.
Von Freitagabend an über das gesamte Wochenende hatten die Techniker des Cloud-Anbieters Amazon Hochbetrieb, ebenso wie das technische Personal großer Web-2.0-Anbieter wie Netflix, Pinterest oder Instagram Extraschichten fahren musste. Diese und eine nicht bekannte, aber bedeutende Zahl kleinerer Webservices war ab Freitagabend mehr als zwölf Stunden ebenso nicht erreichbar, weitere Dienste fielen am Samstagmorgen aus.
Allein beim Streamingdienst Netflix waren 25 Millionen Kunden betroffen, denn auch die an sich umfassenden Sicherheitsmaßnahmen von Netflix konnten den Ausfall nicht verhindern. Obwohl die Daten in drei verschiedenen Amazon-Centers redundant gehostet waren, war Netflix zwölf Stunden nicht erreichbar. Es war der zweite Ausfall eines Netzwerkcenters von Amazon innerhalb von zwei Wochen, in beiden Fällen waren Unterbrechungen in der Stromversorgung die Auslöser.
Unwetter in der CloudNach schweren Unwettern war das Datencenter US-East-1 in Ashburn, Virginia gerade einmal 30 Minuten ohne Strom. Von der Papierform her müsste ein Datencenter eine solch kurze Ausfallsperiode mit seinen UPS-Speicherbatterien ("Uninterruptable Power Supply") in Kombination mit den üblichen Dieselaggregaten eigentlich locker überstehen.
Dem war nicht so. Die halbe Stunde Stromausfall löste nämlich eine Reihe weiterer Vorfälle aus, die zusammen dafür sorgten, dass die Probleme eskalierten. Einzelheiten gibt es seitens Amazons zwar kaum bis wenig, dennoch ist dieser Großausfall in seinen Strukturen relativ gut nachzuvollziehen.
Der Hergang des Ausfalls
Der Ausfall eines bedeutenden Elements im Datencenter führte dazu, dass ganze Serverbatterien plötzlich keine Verbindung mehr zu ihren Back-Ups hatten. Immer mehr virtuelle Maschinen versuchten deshalb, Ad-Hoc-Sicherheitskopien anzulegen, Datenverkehr und Speicherauslastung stiegen in den noch funktionierenden Sektoren von US-East-1 sprunghaft an.
Das Ausmaß des Absturzes lässt sich anhand des mit 25 Millionen Kunden weltweit zweitgrößten Streaming-Anbieters Netflix in etwa erahnen. Wenn nur ein Teil der ungeheuren Detnvolumina, die da rund um die Uhr bewegt werden, spontan in andere Routen umgeleitet werden muss, steigt die Gefahr, dass die dort laufenden Dienste so in Mitleidenschaft gezogen werden, dass sie ihrerseits Daten puffern müssen.
Böses Novum zur RedundanzDer letzte große Ausfall eines Teils der Amazon-Cloud im April 2011 war genau so verlaufen, denn irgendwann war die Speicherkapazität des Rechenzentrums erschöpft. Das hatte einen dreitägigen Ausfall für jene Dienste zur Folge gehabt, die nur eine "Zone", also ein Amazon-Datenzentren gebucht haben.
Das Novum diesmal aber ist insofern beunruhigend, weil passiert ist, was im Cloud-Computing angeblich ausgeschlossen ist: Obwohl Netflix in drei verschiedenen Amazon-Centers redundant gehostet wird, verschwand der Service aus dem Netz.
Das sagt Netflix"Wir haben nur in einer Zone Hardware verloren, die Backups sind auf drei Zonen verteilt. Das Proplem war, dass die Verbindungen zwischen den Zonen unterbrochen waren", schrieb der Netflix-Technikchef am Samstag via Twitter.
Entweder der Stromausfall selbst, oder seine kaskadierenden Folgen hatten auch die Anbindungen von US-East-1 an die Glasfasernetze so in Mitleidenschaft gezogen, dass die Datenmengen nicht mehr abtransportiert werden konnten. Damit funktionierte auch der Lastenausgleich ("Load Balancing") mit anderen Amazon-Datenzentren nicht mehr.
Wen der Ausfall kalt ließWieviele Services insgesamt betroffen waren, weiß wohl nur Amazon selbst. Am Samstagmorgen fiel zum Beispiel auch der bei Amazon gehostete Web-2.0-Dienst QRZ.com für etwa zwölf Stunden aus. Als wohl einzige Betroffene ließ der Ausfall die etwa 600.000 regelmäßigen Benutzer dieses 1993(!) gegründeten sozialen Netzwerks ziemlich kalt. Diese User sind auf Netzwerke angewiesen, weil sie in erster Linie direkt kommunizieren.
QRZ.com listet nämlich die Basisdaten von 1,25 Millionen Funkamateuren rund um die Welt, benutzt wird der Dienst in erster Linie, um zusätzliche Informationen über die Funkstation und ihren Betreiber nachzuschlagen, mit man gerade Funksprüche wechselt.
Dave Farber, emeritierter Professor für Highspeed Networking und Koryphäe auf diesem Gebiet hatte anläßlich des Amazon-Ausfalls 2011 vor den "gefährlichen Vereinfachungen" gewrant, die komplexe, wechselseitige Vorgänge so simplifizierten, dass falsche Vorstellungen von Sicherheit entstünden. Die derzeitige Praxis des "Cloud-Computing ist zwar ein Musterbeispiel eines verteilten Rechensystems - aber eines, das alle Lehren aus den Experimenten der Vergangenheit großzügig ignoriert", so Farber vor etwa einem Jahr zu ORF.at.
Dunkle Wolken über Cloud-Computing - fm4.ORF.at
Ich hatte noch vertrauen in die Cloud obwohl ich sie selbst auch nutze. Viele Firmen vertrauen zu viel den Anbietern und deren Versprechungen. Natürlich hört sich im ersten Moment eine Verfügbarkeit von 99% und mehr recht gut an. 1% Ausfall und das sind dann ~87 Stunden jährlich. 3,5 Tage am Stück offline und etliche Firmen können den Laden zusperren. So schaut es aus.
Leider sind ja solche Ausfälle der Cloud kein Einzelfall sondern sie passieren laufend. Bereits vor zwei Wochen ist die Cloud von Amazon baden gegangen und der zweite Ausfall wegen eines Gewitters.
Bei fast Ausfällen funktioniert die Notstromversorung nicht so wie sie eigentlich sollte
29.06.2012 - Weiterer Stromausfall in Amazons Cloud | iX
14.06.2012 - Stromausfall bremst Amazons Cloud aus | iX
21.04.2012 - heise online | Wolkenbruch bei Amazon: Datenverlust in der Cloud
Gedanken zum Cloud-Ausfall bei Amazon – Teil I | Vernetzte Welt Cast
07.08.2011 - Amazon veröffentlicht Obduktionsbericht für seine Europa-Cloud | iX
Was Amazon neben den eigenen Ausfällen wenig Freude bereiten wird ist der Einstieg von Google in das Geschäft mit der virtuelle Wolke. https://www.zebradem.com/64954-google-e…eschaeftsmodell
Cu
Verbogener