В конце 2012 года работа Windows Azure была приостановлена более чем на 2 дня. Этот сбой привел к полной остановке работы клиентских систем, которые используют частные облака. Клиенты ожидали молниеносной реакции, но подход компании Microsoft удивил их.
Глубокой ночью 28 декабря 2012 года компания Microsoft сообщила, что ее платформа облачных сервисов Windows Azure в регионе Южной и Центральной Америки будет «частично доступной». Спустя час компании-пользователи обнаружили на приборной панели программы информацию о том, что сбой распространился по всему миру и Windows Azure совсем не доступна.
Спустя шесть часов после первоначального заявления, представители компании Microsoft сообщили следующее:
«Для восстановления работы системы потребуется больше времени в связи с необходимостью восстановления производительности некоторых неисправных узлов. Мы предполагаем, что ремонтные работы займут еще несколько часов».
Официальную версию того, что произошло компания, сообщила 16 января. Согласно данным компании, этот сбой вывел из строя 1,8% учетных записей Windows Azure, которые находились в одном хранилище данных или кластере с несколькими узами хранения. Более того, приборная панель, которая должна была известить о сбоях в работе системы тоже была неисправна, так как работала на базе того же кластера.
Майк Нейл, представитель Microsoft, сообщил, что в течение следующего месяца с пострадавших клиентов не будет взыматься плата за мощности для хранения данных и транзакции, связанные с их хранением.
В декабрьском блоге компании Microsoft назывались три причины, которые могли привести к этому сбою. Есть предположения, что некоторые из узлов, вышедших из строя, не были защищены должным образом. В системе мониторинга, которая должна была выявить проблему такого рода, был дефект, что привело к отсутствию извещений о потенциальных сбоях. Транзакция в главном узле повлияла на работу остальных узлов и привела к их некорректному форматированию. По словам специалистов Microsoft программа Azure может выдержать одновременную поломку двух узлов, так как система хранит три копии данных, распределённые по трем разным доменам.
«Как бы там ни было, переформатированные узлы были распределены по неисправным доменам, что в свою очередь привело к недоступности всех данных», пояснил Нейл.
Команда решила восстановить данные и распределить на свои места. На данный момент они активно работают над усовершенствованием Windows Azure и расширением его функционала:
- Гео-репликация данных аккаунтов Windows Azure
- Доступ к хранилищу только для просмотра данных
- Контроль отказоустойчивости системы клиентами: приоритизация доступности сервисов или данных, в зависимости от индивидуальных бизнес-потребностей. Пользователи смогут этим управлять через программный интерфейс.
Одним из клиентов, пострадавших из-за 2-х дневного сбоя Windows Azure, стала компания Soluto – поставщик программных решений для диагностики Windows.
Пока специалисты компаний ищут причины тотального «падения» системы и грандиозного провала на рынке облачных вычислений, мы бы хотели обратить внимание на то, что очень мало организаций задумываются о производительности систем до их краха. Еще меньше компаний внедряют современное программное обеспечение для мониторинга производительности приложений (APM). А ведь 62-часовая недоступность Windows Azure – это проблема, которая получила широкую огласку, но далеко не единственная и тем более не последняя. Наверняка такие казусы происходили с другими менее известными и раскрученными компаниями. Вопрос в том: сколько компании-пользователи теряют денег, и какие альтернативные возможности упускают в случае простоя системы?
Облачные вычисления – это самые новые и продвинутые технологии, которые до конца не изучены и не изведаны. ИТ специалистам предстоит «открыть» еще не одно «узкое место» таких систем, поэтому необходимо четко понимать картину производительности всех приложений. Для этого были изобретены системы мониторинга производительности приложений. В случае с Windows Azure – это Foglight для Windows Azure.
Компания Quest Software (сейчас часть Dell) представила специализированную версию Foglight для мониторинга и управления производительностью приложений Windows Azure. При использовании подобной программы, можно было избежать сбоя системы, своевременно узнав о существующих проблемах.