Resumen de la interrupción del servicio del 8 de junio

Experimentamos una interrupción global del servicio a raíz de un error de software latente que se manifestó el 8 de junio por un cambio de configuración válido de un cliente. Detectamos la interrupción al cabo de un minuto, a continuación identificamos y aislamos la causa, y luego deshabilitamos la configuración. Al cabo de 49 minutos, el 95 % de nuestra red funcionaba con normalidad.

Esta interrupción fue de gran envergadura y gravedad, y lamentamos mucho cómo afectó a nuestros clientes y a todos los que utilizan sus servicios.

Descripción del incidente

El 12 de mayo, iniciamos un despliegue de software que introdujo un error que podía desencadenarse mediante una configuración de cliente específica realizada bajo determinadas circunstancias.

A primera hora del 8 de junio, un cliente introdujo un cambio de configuración válido que incluía las circunstancias concretas que desencadenaban el error, lo cual hizo que el 85 % de nuestra red devolviera errores.

A continuación presentamos una cronología de la actividad del día (todas las horas se indican en UTC): 

09:47 Inicio de la interrupción global del servicio
09:48 El servicio de supervisión de Fastly identifica la interrupción
09:58 Se publica una entrada sobre el estado 10:27 El equipo de ingeniería de Fastly identifica la configuración del cliente
10:36 Inicio de la recuperación de los servicios afectados
11:00 La mayoría de los servicios ya están recuperados
12:35 Incidente mitigado
12:44 Entrada sobre el estado indicando que el incidente ha sido resuelto
17:25 Inicio del despliegue para corregir el error

Una vez que se mitigaron los efectos inmediatos, nos concentramos en corregir el error y en mantener informados a nuestros clientes. Creamos una corrección definitiva y empezamos a desplegarla a las 17:25.

Siguientes pasos 

A corto plazo:

  • Estamos desplegando una corrección del error en toda nuestra red de la manera más rápida y segura posible. 

  • Estamos realizando un análisis exhaustivo de los procesos y prácticas que seguimos durante el incidente. 

  • Estudiaremos por qué no detectamos el error durante nuestros procesos de control de calidad y test de software.

  • Evaluaremos formas de mejorar nuestro tiempo de corrección.

Hemos innovado e invertido en cambios fundamentales para la seguridad de nuestras plataformas subyacentes, y seguiremos haciéndolo. A grandes rasgos, esto implica aprovechar al máximo las capacidades de aislamiento de WebAssembly y Compute@Edge para generar mayor resiliencia desde la base. Seguiremos informando a nuestra comunidad sobre los avances que realicemos hacia este objetivo.

Conclusión

Si bien la interrupción se produjo por unas condiciones concretas, deberíamos haberla previsto. Prestamos servicios esenciales para el funcionamiento de las empresas y tratamos toda acción que pueda causar problemas con la máxima delicadeza y prioridad. Pedimos disculpas a nuestros clientes y a los que dependen de sus servicios por la interrupción, y agradecemos de corazón el apoyo que hemos recibido de la comunidad. Siempre estamos disponibles para dar más información a nuestros clientes desde support@fastly.com. 

Nick Rockwell
Senior Vice President of Engineering and Infrastructure
Fecha de publicación
Comparte esta entrada
Nick Rockwell
Senior Vice President of Engineering and Infrastructure

Nick Rockwell es Senior Vice President of Engineering and Infrastructure de Fastly y acumula 20 años de experiencia en el desarrollo de productos y la seguridad de la información en empresas de medios de comunicación de primer nivel. Antes de entrar en Fastly, Nick fue Chief Technology Officer en The New York Times , donde dirigió la reestructuración integral de su sitio web y de otros productos como parte del proceso de transformación digital de la empresa.