7 самых необычных сбоев в работе дата-центров
Несмотря на все усилия инженеров дата-центров создать надежную защиту от сбоев и аварийных ситуаций, аварии все же случаются. Конечно, чаще всего ошибки происходят по вине персонала или из-за поломки резервной системы и электрической сети. Однако бывают происшествия, когда в самых надежных ДЦ сбои происходят по неожиданным и даже нелепым причинам. И сейчас мы рассмотрим 7 самых необычных, на наш взгляд, случаев таких простоев.
Летающий внедорожник
Этот удивительный инцидент произошел в 2007 году с компанией Rackspace, которая до этого случая была известна на весь мир своей бесперебойной работой центров обработки данных. 13 ноября в один из силовых трансформаторов компании на полной скорости в буквальном смысле влетел внедорожник, после чего последовал мощный взрыв. Официальные источники сообщили, что водитель, страдающий диабетом, в бессознательном состоянии потерял управление и, продолжая удерживать педаль газа, вылетел на обочину, где неподалеку и располагалась энергетическая система дата-центра Rackspace.
Сотрудники компании отчаянно пытались поддерживать работу дата-центра системой резервного питания. Поначалу все шло хорошо, оборудование перешло на аварийное электроснабжение, и работа продолжилась. Однако потом обнаружилось, что два крупных охладителя вышли из строя еще во время первого сбоя в электропитании, и аппаратура начала быстро перегреваться. В результате персонал был вынужден остановить работу ДЦ до момента починки системы охлаждения. В итоге пять часов простоя, в течение которого не работали все сайты и сервисы компании и $3,5 млн. компенсации пострадавшим клиентам.
Океан против Интернета
Ни для кого не секрет, что на дне всех мировых океанов пролегают сотни километров подводных оптоволоконных кабелей . Данные кабеля, учитывая их местоположение, отличаются длительным сроком эксплуатации и защищенностью от повреждений, но и здесь не обошлось без несчастных случаев. Так, в 2008 г. произошел ряд случаев обрывания подводных кабелей якорями судов, из-за чего многие области лишились не только Интернета, но и связи в целом. Также оптоволоконными кабелями любят полакомиться и акулы. В истории насчитывается несколько случаев, когда акулы повреждали кабеля, доставляя тем самым большие хлопоты людям.
Губительная сварка
9 января 2015 года в крупном здании строящегося дата-центра Amazon произошло еще одно нелепое происшествие. Всему виной стал обычный сварщик, который нечаянно поджег стройматериалы. В результате данного происшествия случился мощный пожар третьей степени, который пришлось тушить с помощью пожарных машин. Дым от пожара был виден на несколько десятков километров, а общий ущерб от катастрофы составил $100 000. К счастью, клиенты Amazon не пострадали, так как ДЦ еще не был введен в эксплуатацию.
Белка и Yahoo
Это, наверное, самый забавный и в тоже время грустный случай простоя ЦОД за всю историю. Белки — это маленькие пушисты зверьки, которые грызут все подряд, в том числе и коммутацию. На самом деле, случаев, когда белки стали причиной сбоя работы дата-центров достаточно, но самый крупный произошел в 2010 году с сервисом Yahoo. Тогда, руководитель службы бесперебойного питания Yahoo, Майк Кристиан сообщил: «Поджарившаяся белка вывела из строя половину нашего ЦОД в Санта-Кларе».
Пожар в Айове
18 февраля 2014 года в крупном дата-центре штата Айова, который отвечал за выплату платежей государственным службам, полным ходом шла подготовка к защите от снежной бури, которая была предсказана на вечер этого дня. Также, именно в этот день штат должен был оплатить денежные выплаты в размере $162 млн. И что бы вы думали? По иронии судьбы, именно в этот день, в результате короткого замыкания в ДЦ случился крупный пожар.
После того, как произошло короткое замыкание, дым распространился по всему зданию, и весь персонал был эвакуирован. Немного позже очаг возгорания был потушен противопожарной системой, при этом система контроля энергии успела перегреться и расплавиться. Из-за того, что пожарные и полиция не пускали сотрудников внутрь здания ДЦ, не было возможности наладить поставку электроэнергии по другому каналу. В результате лишь спустя шесть часов, центр обработки данных продолжил работу, и платежи были проведены.
Ураган Сэнди и отказ генератора
Октябрь 2012 года был примечателен ураганом Сэнди, бушевавшем на Восточном Побережье США. Помимо ливней и сильнейшего ветра, ситуация усугубилась массовыми наводнениями соленой воды.
В высотном здании по 75 Broad Street, Нижний Манхэттен, находился дата-центр Peer1. В результате наводнения вышел из строя топливный насос, который подавал горючее на 18 этаж к аварийным генераторам. Генераторы начали свою работу после затопления нижних этажей здания. По чистой случайности, после 9 ноября в Нью-Йорке были введены новые требования к хранению топлива, запрещающие его расположение в большем количестве на верхних этажах. Как только генераторы на 18-ом этаже исчерпали запас горючего, ДЦ на время остановил работу.
Однако команда Peer1 не хотела так просто сдаваться. На протяжении нескольких дней персонал вручную поднимал топливо в ведрах на 17-ый этаж, где размещалась цистерна для горючего, тем самым продолжая работу дата-центра. Лишь настойчивость и усилие команды помогли предотвратить длительный простой и избежать огромного денежного ущерба.
Роковая ошибка лишней секунды
Для учёта изменения скорости вращения Земли, в мировое время добавляется время от времени лишняя секунда. Добавление одной лишь секунды в ход мировых атомных часов принесло немало проблем. Подобное добавление секунды в последний раз произошло в июне 2015 года и обошлось без происшествий. А вот в 2012 году несколько крупных сайтов, в том числе Reddit и LinkedIn, стали временно недоступными. Происходит это из-за того, что протокол сетевого времени (NTP), с помощью которого компьютеры синхронизируются с атомными часами, не умеет оперировать с 60-й секундой, которая при изменении добавляется между 59-й и 1-й.