Zusammenfassung des Ausfalls vom 8. Juni

Aufgrund eines unentdeckten Softwarefehlers, der am 8. Juni durch eine gültige Konfigurationsänderung eines Kunden ausgelöst wurde, kam es zu einem weltweiten Ausfall. Wir erkannten die Störung innerhalb einer Minute, identifizierten und isolierten daraufhin die Ursache und deaktivierten die entsprechende Konfiguration. Innerhalb von 49 Minuten funktionierten 95 % unseres Netzwerks wieder wie gehabt.

Dieser Ausfall war weitreichend und schwerwiegend. Für dessen Auswirkungen möchten wir uns bei unseren Kunden und allen Betroffenen aufrichtig entschuldigen.

Was ist passiert?

Am 12. Mai hat Fastly eine Software releast, die einen Bug enthielt, der unter gewissen Umständen durch eine bestimmte Kundenkonfiguration ausgelöst werden konnte.

In den Morgenstunden des 8. Juni führte ein Kunde eine gültige Konfigurationsänderung durch, die diesen Bug auslöste und darin resultierte, dass 85% unseres Netzwerkes mit Fehlermeldungen auf Anfragen reagierte.

Hier die Ereignisse des Tages im Überblick (alle Zeitangaben in MESZ): 

11:47 Uhr Beginn der weltweiten Störung
11:48 Uhr Weltweite Störung von Fastlys Monitoring Team erkannt
11:58 Uhr Statusmitteilung veröffentlicht
12:27 Uhr Kundenkonfiguration von Fastlys Engineering Team identifiziert
12:36 Uhr Betroffene Services allmählich wieder im Normalbetrieb
13:00 Uhr Mehrheit der betroffenen Services wieder im Normalbetrieb
14:35 Uhr Störung behoben
14:44 Uhr Statusmitteilung aufgehoben
19:25 Uhr Bereitstellung der Fehlerbehebung eingeleitet

Sobald die unmittelbaren Auswirkungen behoben waren, konzentrierten wir uns auf die Behebung der Fehlerursachen (des Bugs) und die Kommunikation mit unseren Kunden. Wir erstellten einen permanenten Bug Fix, der ab 19:25 Uhr installiert wurde.

Nächste Schritte 

Kurzfristig:

  • Schnelle und sichere Implementierung der Fehlerbehebung innerhalb unseres Netzwerks 

  • Durchführung einer vollständigen Post-Mortem-Analyse der Prozesse und Praktiken, die wir während dieser Störung befolgt haben 

  • Ermittlung der Gründe, warum wir den Softwarefehler im Rahmen unserer Qualitätssicherungs- und Testverfahren nicht erkannt haben

  • Überprüfung von Möglichkeiten, Fehler in Zukunft schneller zu beheben

Wir werden auch weiterhin in Innovationen und grundlegende Veränderungen der Sicherheit unserer zugrunde liegenden Plattformen investieren. Im Wesentlichen möchten wir dabei die Isolationsmöglichkeiten von WebAssembly und Compute@Edge voll ausschöpfen, um von vornherein für mehr Ausfallsicherheit zu sorgen. Wir werden unsere Community über die Fortschritte in diesem Zusammenhang auf dem Laufenden halten.

Fazit

Obwohl dieser Ausfall ganz bestimmten Umständen geschuldet war, hätten wir ihn vorhersehen müssen. Wir bieten unternehmenskritische Services an und behandeln jede Situation, die zu Serviceproblemen führen kann, mit höchster Sensibilität und Priorität. Aus diesem Grund möchten wir uns bei unseren Kunden und allen Betroffenen für diesen Ausfall entschuldigen und uns bei der Community für ihre Unterstützung bedanken. Bei weiteren Fragen können sich Kunden gerne jederzeit an support@fastly.com wenden. 

Nick Rockwell
Senior Vice President of Engineering and Infrastructure
Veröffentlicht am
Sie möchten sich mit einem Experten austauschen?
Sprechen Sie mit einem Experten
Diesen Beitrag teilen
Nick Rockwell
Senior Vice President of Engineering and Infrastructure

Nick Rockwell ist Senior Vice President für Technik und Infrastruktur bei Fastly und verfügt über 20 Jahre Erfahrung in der Produktentwicklung und Informationssicherheit bei führenden Medienunternehmen. Zuvor war Nick als Chief Technology Officer bei The New York Times tätig, wo er die digitale Transformation des Unternehmens durch eine massive Umstrukturierung der Website und anderer Produktangebote leitete.