2021 年 6 月 8 日に発生した障害について

2021 年 6 月 8 日、未確認のソフトウェアバグが特定のお客様のサービス設定変更でトリガーされ、グローバル規模の障害が発生しました。当社は、事象発生から 1 分以内に障害を検知し、原因を特定して隔離し、該当の設定を無効化しました。49 分後には、ネットワークの 95% が復旧しました。

今回の障害は広範囲かつ深刻なものであり、お客様にご迷惑をおかけしたことを深くお詫び申し上げます。

概要

2021 年 5 月 12 日、Fastly が実装を開始したソフトウェアに、非常に特殊かつ例外的な状況下でトリガーされる可能性のあるバグが含まれていました。

2021 年 6 月 8 日、特定のお客様のサービス設定変更が有効であったにもかかわらず、その実行でトリガーされたバグにより、当社のネットワークの 85% で障害が発生しました。

2021 年 6 月 8 日のイベント(日本時間)

18:47 グローバル障害の発生
18:48 Fastly モニタリングによって障害が検知される
18:58 Fastly ステータスページを更新
19:27 Fastly エンジニアチームが原因となるサービス設定を特定
19:36 影響を受けたサービスの回復が始まる
20:00 大部分のサービスが復旧
21:35 障害から復旧
21:44 ステータスページで復旧を報告
02:25 修正の展開を開始

復旧後は、問題の修正とお客様とのコミュニケーションに専念しました。当社は、この問題に対する恒久的な修正プログラムを作成し、日本時間 2021 年 6 月 9 日 午前 2 時 25 分にこの修正の展開を開始しました。

今後の対策

  • 迅速かつ安全に問題の修正をネットワーク上に展開しています 

  • 今回の事象で Fastly が行ったプロセスと対応に関する事後検証を行います 

  • ソフトウェアの品質保証やテストの過程で、今回の問題を発見できなかった理由を検証します

  • 復旧時間を短縮する方法を検討します

Fastly は基盤となるプラットフォームの安全性を追求するため、刷新と投資を続けていきます。WebAssembly Compute@Edge分離機能を活用して、耐障害性のさらなる改善を行います。進捗については随時ご共有いたします。.

最後に

当社はミッションクリティカルなサービスを提供する企業として、今回このような障害を発生させたことについて、お客様に深くお詫び申し上げます。今後は、サービスに問題を引き起こす可能性のある行為に対しては、細心の注意のもと対処してまいります。ご不明な点がございましたら、support@fastly.com にお問い合わせください。

Nick Rockwell
Senior Vice President of Engineering and Infrastructure
投稿日

この記事は2分で読めます

興味がおありですか?
エキスパートへのお問い合わせ
この投稿を共有する
Nick Rockwell
Senior Vice President of Engineering and Infrastructure

Fastly の Senior Vice President of Engineering を務める Nick Rockwell は、複数の大手メディア・出版企業で20年にわたり、プロダクト開発と情報セキュリティに従事した経験を有しています。Fastly 入社前は The New York Times で Chief Technology Officer を務め、同社の Web サイトやその他のプロダクトのアーキテクチャを大幅に刷新して同社のデジタルトランスフォーメーションをリードしました。

Fastly試してみませんか ?

アカウントを作成してすぐにご利用いただけます。また、いつでもお気軽にお問い合わせください。