Microsoft Azure Ausfall von VMs, Storage und weiteren Diensten am 18.11.2014 bzw. 19.11.2014


Alles strebt in die Cloud aber was, wenn die Cloud bockt? Microsofts Azure hatte am 18. bzw. 19.11.2014 einen größeren Ausfall. Dabei ging es nicht um Sekunden, Minuten oder Stunden, nein es ging um teilweise zwei Tage!

Hier der Link zum Blogeintrag: http://azure.microsoft.com/blog/2014/11/19/update-on-azure-storage-service-interruption/. Die Sache war sogar so heftig, dass auch Kunden ohne Wartungsvertrag sich an Microsoft wenden durften.

Hier eine tiefergehende Erläuterung des Vorgangs von Mark Russinovich: http://channel9.msdn.com/posts/Inside-the-Azure-Storage-Outage-of-November-18th.

Was mich an der Sache stört, ist, dass davon auf heise.de nichts zu hören war. Es handelt sich ja nicht um einen kurzen Ausfall sondern war mit zwei Tagen ja schon heftiger. Hier gibt es keinen Newseintrag, wenn man sich den Zeitraum vom 18./19. November anschaut: http://www.heise.de/suche/?q=azure&search_submit=Suchen&rm=search&channel=newsticker. Stellt sich die Frage, hat es keiner bemerkt oder durfte nicht berichtet werden? Andere Newsseiten haben darüber berichtet: http://www.computing.co.uk/ctg/news/2382347/microsoft-azure-suffers-huge-outage-affecting-websites-and-office-365.

Wenn man die Abhängigkeiten von Office365 in Bezug auf Azure kennt, dann sollte doch da eine kritische Masse erreicht worden sein oder nicht? Der Link bei www.computing.co.uk spricht zumindest von Problemen mit Office365.

Auf jeden Fall war das perfide an der Sache, dass die offizielle Azure-Statusseite http://azure.microsoft.com/en-us/status/#current über mind. drei Stunden nicht den tatsächlichen Status der Azure Cloud wiedergegeben hat, sondern dass alles OK wäre. Auch von der Statusseite abhängige APIs waren davon betroffen. Dies wird im Channel9 Video von Mark Russinovich auch nochmal angesprochen. So verstehen sich dann auch die teilweisen harschen Reaktionen im Kommentarbereich des Azure-Blogartikels. Da sind Stunden mit der Fehlersuche verbracht worden, weil die Statusanzeige ja grün war, also liegt das Problem woanders. Aber wo? Und wie kann man als kleine IP-Adresse in der Riesenwolke etwas nachvollziehen bzw. debuggen? Da wird der fähigste Administrator kalt gestellt. Aber das ist unsere Zukunft!

Ich zitiere hier einen Kommentar zum Vorgang, der die Probleme schön illustriert:

ripvannwinklera month ago

Blah blah blah. As others have said:

1. The dashboard inaccurately reflected service status nearly the entire time. A status dashboard should not be a publicity mechanism. If it doesn’t work, fix it. You suck.

2. The outage should have NEVER been rolled out across data centers like it was. I don’t care if infrastructure designs required it – you messed up.

3. I have clients seriously questioning our decision to use Microsoft Azure. It’s upon Microsoft’s head to make this right. BS explanations do nothing to rectify lost time and money or compensate my clients. That falls on me, and as a customer, what reason could I possibly have to trust Azure not to let it happen again in the future?

This is NOT ENOUGH. If you think it is, maybe we should just throw in the Azure towel now?

So ein Ausfall stellt sich dann (gelbe Markierungen von mir) in der Historie der Azurestatusseite als

11/19

Multiple Azure Services – Multiple Regions – Partial Service Interruption

From 19 Nov, 2014 00:52 to 04:40 UTC a subset of customers using Storage, Virtual Machines, SQL Geo-Restore, SQL Import/export, Websites, Azure Search, Azure Cache, Management Portal, Service Bus, Event Hubs, Visual Studio, Machine Learning, HDInsights, Automation, Virtual Network, Stream Analytics, Active Directory, StorSimple, Azure Site Recovery and Azure Backup Services in North Europe, Japan East and Japan West experienced connectivity issues. This incident has now been mitigated.

11/19

Multiple Azure Services – Multiple Regions – Partial Service Interruption

From 19 Nov, 2014 00:52 to 05:10 UTC a subset of customers using Storage, Virtual Machines, SQL Geo-Restore, SQL Import/export, Websites, Azure Search, Azure Cache, Management Portal, Service Bus, Event Hubs, Visual Studio, Machine Learning, HDInsights, Automation, Virtual Network, Stream Analytics, Active Directory, StorSimple, Azure Site Recovery and Azure Backup Services in East US 2, South East Asia and East Asia experienced connectivity issues. This incident has now been mitigated.

11/19

Websites – West Europe – Advisory (Limited Impact)

Starting at 19 Nov 2014 00:52 UTC a subset of customers using Websites in West Europe may have experienced partial service degradation. Engineering reported as mitigated at 11:45AM UTC and continued to monitor until 12:45 PM. This issue is now mitigated.

11/19

Storage – West Europe – Partial Service Interruption

From 19 Nov, 2014 00:52 to 09:15 UTC a subset of customers using Storage in West Europe may have experienced intermittent connectivity issues. This incident has now been mitigated. Further information is available to potentially impacted customers through the Azure Management Portal – http://manage.windowsazure.com

11/19

Application Insights – Multi-Region – Advisory

From 19 Nov 2014 at 01:00 to 12:34 UTC, Application Insights customers using the Azure Preview Portal (portal.azure.com) experienced higher than normal data latency. Please visit the Visual Studio Online blog at http://blogs.msdn.com/b/vsoservice/archive/2014/11/19/issues-with-application-insights-services-11-19-mitigating.aspx for additional information. This incident has now been mitigated.

11/19

Virtual Machines – North Europe – Advisory

This issue is now mitigated for North Europe. We continue to investigate and address issues impacting a limited subset of Virtual Machines customers in West Europe. A subset of customers may see their VMs in continual "Start state”, and limited subset of customers may have difficulty in connecting to their VMs. Potentially impacted customers are advised to continue to visit the Management Portal http://manage.windowsazure.com for more frequent regional details.

usw. dar. Im letzten Statuseintrag sogar ganz ohne Stundenangabe. Der Phantasie darf freien Lauf gelassen werden, wie lange eine VM ausfallen konnte.

Kommen wir zum wahrscheinlich wichtigsten Punkt: Wie kann man die Cloud testen? Ein Datacenter kann man evtl. noch nachbilden und ein Testdatacenter aufbauen um kritische Infrastrukturupdates prüfen zu können. Aber wie kann man die Cloud, welche sich global ausbreitet, testen? Ist doch einfach, man nehme eine zweite Erde für Testzwecke…

Eine Antwort to “Microsoft Azure Ausfall von VMs, Storage und weiteren Diensten am 18.11.2014 bzw. 19.11.2014”

  1. Azure Root Cause Analysis kurz RCA | Das nie endende Chaos! Says:

    […] Aber doch der Versuch etwas Ordnung reinzubringen. « Microsoft Azure Ausfall von VMs, Storage und weiteren Diensten am 18.11.2014 bzw. 19.11.2014 […]

Schreibe einen Kommentar

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s


%d Bloggern gefällt das: