cloud computing

De como un rayo se cargó una nube

A estas alturas ya deberias saber y si no lo sabes date una vuelta por Internet y lo encontrarás, que Amazon Web Service tuvo uno de sus outages más jodidos el domingo por la tarde. Un rayo puso el CPD de Amazon en Irlanda de color negro y se llevó por delante servicios de nombre como: PayPal, Microsoft, Amazon, NeoTeo, Filmin o Menéame

Sigo desde hace mucho a Ricardo Galli, creador de Meneame. Es un tipo que me encanta: sin pelos en la lengua, llano, metódico, con gran capacidad de análisis y además sabe un huevo de sistemas. Le hemos referenciado aquí y en está en la faq del cloud computing un post ejemplo de lo que significa cloud computing.

Ayer lanzó un post que no tiene desperdicio por la cantidad de información de lo ocurrido sobre esta perdida de servicio, su arquitectura y los problemas que tuvieron. De verdad, que merece la pena leerlo y desde aquí le doy las gracias por abrirse tanto y regalar tanta información. Por cierto, que encima que se desnuda le brean en los comentarios del post. En fin.

Leído el post solo me gustaria puntualizar que:

  • No fue un problema del cloud computing fue un problema de un servicio cloud en concreto. Lo digo porque al final recomienda no utilizar Amazon y siendo el rey del cloud computing, casi que arrastra a todo el mercado, y porque como siempre ya le están echando la culpa a todo el cloud computing.
  • Los servicios fallan y seguirán fallando. En la nube y en tus instalaciones.
  • Otra cosa es que la calidad del servicio no sea el esperado. Si es así, al carajo con él.
  • A pesar de esto, hay que hacerse la siguiente pregunta : ¿lo puedes hacer mejor que Amazon y a qué coste?
  • Eres el responsable de que tu aplicación/servicio/producto funcione y debes preocuparte de darlo y prepararte para los posibles fallos de tu infraestructura en la nube o de tus instalaciones. De hecho Ricardo ya contaba con planes de contingencia pero no fueron suficientes para salvar lo ocurrido.
  • En mi opinión, su contingencia no estaba preparada para siquiera un único punto de fallo. Por el relato entiendo que fue el EBS la madre del cordero y EBS se puede considerar un único punto de fallo. Pero además en la contingencia tampoco pensó en la variable localización de su aplicación como punto único de fallo. Si, ya sé, sería caro tenerla en otro proveedor pero es otro nivel de seguridad y contingencia superior que algunos si disponen.
  • Entiendo también que la contingencia que tenía pensada, no estaba probada. Aunque reconozco que debe ser jodido probarla y provocar el error que permitan evaluarla.

Conclusiones

  •  Pasó todo aquello jodidamente jodido que podía pasar, que si ocurre es en porcentajes bajísimos y que la nube tiene poco que ver con esto.
  • Que ocurre en tu casa y en la nube y poco puedes hacer cuando todo se tuerce.
  • Si hubiera tenido su portátil posiblemente, no estarías leyendo este post y posiblemente ni el suyo.
  • Y que estoy casi seguro que Meneame seguirá en Amazon con alguna mejora en sus planes de contingencia, los de ambos.

Gracias de nuevo a Ricardo por el post.

Actualización: Un par de post de Ricardo después de éste.

http://gallir.wordpress.com/2011/08/19/peguntas-y-10-puntos-claves-de-amazon-ec2/#comments

http://gallir.wordpress.com/2011/08/12/disenar-y-administrar-un-sistema-requiere-mucho-de-sentido-comun-aunque-no-lo-creas/

Entradas relacionadas: