¿Por qué se cayeron Whatsapp, Facebook e Instagram?

Por Samuel López | October 6, 2021

Un poco de contexto…

Internet funciona por direcciones IP. No entiende de nombres, solo de números. Es por eso que necesita un traductor que convierta nombres de dominio en direcciones IP. Ese traductor se llama DNS.

Al teclear facebook.com y pulsar INTRO, nuestro ordenador pregunta a un servidor DNS qué dirección IP corresponde al texto introducido. Reconocida su dirección IP comienza un apasionante viaje por internet.

Internet está compuesto por muchas redes. Un Sistema Autónomo (en adelante AS) es el encargado de gobernar un grupo de redes que están a su cargo. Los paquetes que viajan entre sus redes son empujados a su destino por un sistema que sabe en todo momento qué hacer con ellos.

¿Qué pasa cuando un paquete quiere viajar fuera de su sistema autónomo?

Los AS's intercambian información con la que intentan averiguar cuáles son los caminos para poder llegar a una red que está fuera de su control. Es como buscar conocer a una persona a través de amigos en común. Dirijamos el paquete al AS que tenga menos saltos hasta llegar a su destino. El protocolo por el que estos sistemas se comunican se llama Border Gateway Protocol (en adelante BGP).

Para que un AS se dé a conocer, debe anunciar los prefijos de las rutas que controla a través del protocolo BGP. Si no lo hiciera, el resto de AS's no sabrían a quién contactar para llegar a esas rutas. Además, BGP permite realizar actualizaciones para indicar cambios de rutas o incluso la retirada de las que ya habían sido anunciadas.

¿Qué ha sucedido con Facebook, Whatsapp e Instagram?

El pasado 14 de octubre, el AS de Facebook encargado de controlar las redes de los servidores DNS, los traductores que convierten nombres de dominio en direcciones IP, dejó de informar al resto de sistemas sobre las redes que encaminaba.

A continuación por error se informó al resto de AS de que ya no disponía de dichas redes por medio de una actualización BGP.

El resto de AS’s dejaron de conocer a qué sistema enviar las consultas de los dominios relacionados con Facebook, Whatsapp e Instagram.

Es decir, cuando los usuarios escribían facebook.com en su navegador este intentaba preguntar por la dirección IP a la que tenía que conectarse pero su consulta no llegaba a ningún lado pues se habían borrado las rutas hacia el DNS encargado de resolverla.

Nuestro equipo de ingeniería ha descubierto que los cambios en la configuración de los routers que coordinaban el tráfico entre nuestros centros de datos ha provocado las incidencias que han interrumpido las comunicaciones. Fuente: https://engineering.fb.com/2021/10/04/networking-traffic/outage/

Supervisa y previene con WOCU-Monitoring

Es de vital importancia monitorizar debidamente tanto los servidores DNS como el estado de las conexiones BGP. Gracias a ello, podemos actuar rápidamente en situaciones tan críticas para una empresa como esta.

Facebook tardó horas en recuperar el acceso global a sus plataformas. Fueron horas gracias a que pudieron detectar en poco tiempo el error que les había hecho desaparecer de internet. Para una empresa es crucial monitorizar debidamente su infraestructura y tener un control de las resoluciones DNS y las conexiones BGP.

WOCU-Monitoring dispone de varios Packs de Monitorización diseñados específicamente para poder detectar en el minuto cero estos errores y actuar en consecuencia antes de que sea demasiado tarde.

Consulta la ficha técnica de cada uno de ellos:

¿Por qué correr este riesgo pudiendo tener todo controlado desde una única herramienta?

Pide hoy tu demo y descubre cómo tomar el control de tu infrastructura.

Fuente: https://blog.cloudflare.com/october-2021-facebook-outage/