Cuando un error en Internet se convierte en una cadena de errores, de los que aprender

Cuando un error en Internet se convierte en una cadena de errores, de los que aprender

Uno de los mayores fallos de internet hasta la fecha se produjo el pasado martes 28 de febrero cuando se bloquearon aproximadamente el 50% de los servicios de Internet. Páginas tan importantes como Trello, IFTTT, Hootsuite o Airbnb, además de otros cientos de sitios y servicios, estuvieron sin servicio una media de 5 horas. Los problemas se debieron a una caída del servicio S3 (Simple Storage Service) de Amazon Web Services (AWS), uno de los más usados de internet. ¿Que fue lo que pasó? Pues algo muy común: un error humano, al que le sucedieron en cadena otros errores. 

Error uno – “despiste”

El martes 28 se estaban desarrollando unas tareas habituales de mantenimiento en el sistema de facturación de Amazon. En este mantenimiento se apagaron algunos servidores, pero alguien no escribió correctamente la orden en su terminal y apagaron muchos más de los que se esperaban.

De entre los servidores desconectados cayeron dos importantes subsistemas que dan soporte a S3, uno de ellos es responsable de gestionar los metadatos y la información de localización de todos los objetos S3. Al no estar operativo, no se podían realizar tareas básicas de recuperación y almacenamiento de datos.

Error dos – “mantenimiento”

La solución a lo anterior era evidente: reiniciar. Pero llegó el segundo error, algunos de esos servidores nunca se habían reiniciado, así que el proceso llevo mucho más tiempo del esperado y, aunque el sistema S3 está preparado para que no falle en el caso de caída de algún servidor, el fallo fue tan masivo que el sistema no lo soportó.

Debido a la falta de mantenimiento, lo que conlleva unos reinicios periódicos y programados, el tiempo de reinicio paso de unos cuantos minutos a varias horas, entre actualizaciones, nuevos módulos, etc….y todos los servidores a la vez.

Error tres – “comunicación”

El Panel de control de los servicios Amazon Web Services (AWS), conocido como el dashboard, en ningún momento daba errores. Es decir, cuando entrabas en tu panel de control de cliente te decía que todo estaba correcto, pero evidentemente no era así.

El usuario no tenia ni idea de que estaba pasando y Amazon estaba saturado de correos, ticket técnicos, etc. No respondieron correctamente a los clientes, tardando 48h en indicar cual había sido el problema. Apenas salieron 2 o 3 mensajes por Twitter con muy poca información y de forma poco clara.

Los tres errores fueron errores humanos que han derivado en un cambio de protocolos y de configuraciones, con el fin de que esto no vuelva a ocurrir. Pero lo importante es ¿se pudo evitar? Sin duda, sí.

  • Si los sistemas que se cayeron hubieran estado correctamente protegidos, no podrían desconectarse por un simple error de escritura.
  • Si el mantenimiento de los servidores fuese el correcto, tendría sus ciclos de reinicio en un tiempo normal de minutos, no de horas.
  • Si el dashboard estuviese correctamente configurado, hubiera indicado qué tipo de error se estaba produciendo y dando la información necesaria a los clientes para poder tomas las medidas oportunas.
  • Si la comunicación directa con el cliente hubiera funcionado de forma eficiente y efectiva, en lugar de dejar pasar 48 horas antes de dar una respuesta.

Estamos hablando de Amazon, uno de los más grandes, así que podéis imaginar lo que ocurre con servidor pequeños. En ocasiones, verdaderas historias para no dormir.

Servicio de Mantenimiento Web

Nadie nos libra de todos los posibles errores y menos aun de los errores humanos pero la única forma de estar lo más seguro posible en estas situaciones es contar con profesionales que den respuestas y cuenten con la experiencia suficiente para ofrecerte un adecuado servicio de mantenimiento preventivo de tu web.

By | 2017-03-08T10:28:36+00:00 Marzo 8th, 2017|Imagen|0 Comments

Leave A Comment

Uso de cookies

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información. ACEPTAR

Aviso de cookies