понедельник, июля 09, 2012

Отказ амазоновского облака 29-го июня

29 июня, это пятница вечер, в Северной Вирджинии штормило. Что привело к проблемам с электричеством в датацентрах Амазона. Переход на резервное питание прошел не очень гладко, поэтому некоторые американские сервисы, которые используют амазоновское облако, либо не работали вообще, либо работали с перебоями. Среди этих сервисов были Netflix, Instagram и много-много других поменьше. Пользователи расстроились, потому что пятница вечер, хочется фильмов и фоток, а тут ничего не работает.

После этих печальных событий Амазон написал отчет на тему "что это было?". Summary of the AWS Service Event in the US East Region
Netflix написал свой отчет: Lessons Netflix Learned from the AWS Storm
А Дмитрий Самовский проанализировал отчет Амазона Applying 5 Whys to Amazon EC2 Outage

Ссылки по теме:
Отказ Windows Azure 29-го февраля
Перевод статьи Summary of the Amazon EC2 and Amazon RDS Service Disruption in the US East Region

6 коммент.:

soonts комментирует...

Ничо, судя по тому что пишут подобные статьи, делают выводы из всего этого. Допилят со временем.

Как известно из миров embedded & aerospace, писать программы без багов дороже прям на много порядков.

Всё равно для пользователей амазон выгоден: нужда в них очевидно есть, а затраты на разработку, имплементацию и поддержку собственных IaaS/PaaS облаков заоблачные..

Alena комментирует...

soonts

Всё равно для пользователей амазон выгоден: нужда в них очевидно есть, а затраты на разработку, имплементацию и поддержку собственных IaaS/PaaS облаков заоблачные..

Угу, но тут вопрос в том, а что делать пользователям облачных сервисов, пока их не довели до ума. То есть сейчас видно, что отказ одного датацентра - это большая проблема, отката на другие датацентры или нет или оно не работает.
С точки зрения того же Netflix'а - что делать? Работать с двумя облаками, чтобы если что все продолжало работать? Дорогое удовольствие. Или забить и оставить как есть? Тогда страдает репутация сервиса и неизвестно сколько денег они потеряли за 3 часа вечера пятницы.

virens комментирует...

То есть сейчас видно, что отказ одного датацентра - это большая проблема

Ааааблака.... белогривые лошаааадки.. Извините, не удержался :-)

По теме: как уже все в курсе (кроме Амазона и некоторых облачников в микрософте), что если датацентры не разнесены по разным местам географически (в идеале - раскиданы по разным странам), то это булшит, а не облако. Что мы и имеем удовольствие наблюдать.

Облако обязано работать при выносе одного из датацентров. Ибо если в Mountan view, CA, штормит, мой чахлый бложик на Blogger, картинки на Picasa и рецепты пиццы на Google Drive должны таки работать, а не вставать колом. Вот это облако, а не Амазон. Поэтому Google Drive и отняло у гугловцев столько времени на создание.

И ещё. Облако - это удобство, купленное ценой утраты контроля над собственными данными. Сервис могут прикрыть without further notice - и всё, плакали ваши данные и SaaS. В облаках хорошо хранить какую-нибудь не очень ценную мелочь или лишнюю копию бекапов не слишком важных данных.

алл лекс комментирует...

Я вот интересуюсь: возможно ли такое чтоб сервер сайтов стер-потерял их в результате каких пертурбаций?

Viktor комментирует...

A k chemu ves etot razkaz, Alena.
I kommentarii kakogoto domoroshennogo analitika Dimy?
Byvajut sboi v sistemah...

Alena комментирует...

Viktor

A k chemu ves etot razkaz, Alena.

Чтобы учиться на чужих ошибках.