Логин:
Пароль:
Сохранить логин и пароль
Для получения логина и пароля пишите на почту do@planetaklimata.com.ua
Страницы: 1 2 3 4 5 6 7 8 9 10



Семь основных причин, приводящих к простою дата-центра

(03.12.2015)

Когда ЦОД уходит в офлайн, есть три потенциальных виновника: люди, оборудование и природа.

Угрозу, которую дата-центр может представлять для человека, озвучил на прошлой неделе Эд Ансетт, председатель группы i3 Solutions. Он сказал следующее: «Мы (индустрия дата-центров) все еще в начале пути. Начало летальных исходов в нашей отрасли - это всего лишь вопрос времени».

1. Выход из строя ДГУ

Эд, не раскрывая имени пострадавшего оператора, привел пример серьезной аварии в дата-центре, произошедшей вследствие неправильной работы ДГУ.

Стоял жаркий летний день. Произошло отключение магистральной энергии. Дата-центр работал при полной нагрузке 7,2 МВт. Площадка была оборудована четырьмя генераторами по 2,5 МВт с резервированием N+1. Один из генераторов не завелся, но площадка продолжила работать на трех генераторах. Спустя 30 минут вышел из строя еще один генератор.

Дата-центр работал на источнике 5 МВт с нагрузкой 7,2 МВт. Два оставшихся генератора не справились, и система охлаждения оказалась обесточенной. ИТ-оборудование из-за перегрева начало отключаться. Дата-центр работал еще 30 минут на ИБП (2N по 15 минут каждый). Общее отключение дата-центра произошло еще через полчаса.

На восстановление магистрального энергоснабжения ушло шесть часов, но дата-центр полностью вернулся к работе лишь спустя восемь часов.

По данным Emerson Network Power, отказ ДГУ обходится в среднем в сумму $463 890.

2. Защита от коротких замыканий и сбои в автоматах

Неправильно номинированные или несогласованные автоматы могут привести к существенным повреждениям систем, длительному простою и даже вызвать травмы персонала. Несогласованная защита цепи ― это прежде всего проблема проектирования и сдачи в эксплуатацию.

Обычно ошибки при переключении вызваны человеческим фактором. По данным Emerson Network Power, они являются третьими по частоте среди причин аварий в дата-центрах (51%).

Незакрепленные, неплотные соединения на устройствах переключения могут также стать причиной ухода дата-центра в оф-лайн.

3. Отказ аккумуляторов ИБП и превышение мощности

Исследование Emerson Network Power на базе 450 операторов дата-центров показало, что отказ аккумуляторов ИБП - самая частая причина отключения энергии (с этим столкнулись 55% опрошенных).

ИБП обеспечивают непрерывную и регулируемую подачу чистой энергии на ИТ-оборудование: с помощью аккумуляторов закрывается брешь между прекращением подачи магистральной энергии и началом подачи энергии от генераторов.

Превышение мощности ИБП - вторая по частоте причина сбоев в работе дата-центров: по результатам исследования Emerson Network Power, из-за этой проблемы, как указали респонденты, происходит 53% аварий.

По мере роста требований к ИТ инфраструктура дата-центров и их сервисы должны также совершенствоваться, чтобы не перегружать существующие системы.

По данным Emerson Network Power, средняя сумма, в которую обходятся отказы ИБП в дата-центрах - $687 700.

4. Утечки воды

Вода и ИТ остаются несовместимыми вещами, но при этом именно вода становится причиной немалой доли ухода дата-центров в оф-лайн. Исследование Emerson Network Power приводит цифру в 35% - именно столько опрошенных назвали утечку воды как причину отключений.

Утечка воды и повышение влажности могут быть вызваны разными причинами: погодными условиями, прохудившимися трубами, протечками кондиционеров и так далее. Такого рода происшествия можно предотвратить, если обеспечить герметизацию критических частей ИТ-систем и установить системы мониторинга, позволяющие обнаружить утечку воды.

Осадки, подтопление или протечка кондиционера обходятся дата-центрам в среднем в $489 100.

5. Ненадлежащая эксплуатация

Неправильная эксплуатация дата-центра (на примере ошибок в эксплуатации таких простых вещей, как аккумуляторные батареи или система ИБП) может иметь серьезные последствия. Увеличить время бесперебойной работы поможет программируемый логический контроллер (PLC), используемый в различных промышленных приложениях для мониторинга и/или для обеспечения безопасности.

В августе 2009 года дата-центр Internap Network Services (INAP) в Бостоне ушел в оф-лайн из-за ненадлежащего обслуживания аккумуляторных батарей. Internap заявила, что отказ произошел из-за прекращения подачи тока энергоснабжающей организацией, что повлекло за собой неспособность дата-центра перейти на резервное питание от аккумуляторов.

6. Ошибки проектирования

По информации от Schneider Electric, годами в отрасли ЦОД принималось как должное то, что причиной отказа №1 является ошибка оператора в процессе эксплуатации, а не плохой проект или инжиниринг площадки.

Первая крупная ошибка ЦОДов - то, что команду эксплуатационников не вовлекают в процесс проектирования. Вторая ошибка состоит в том, что они слишком слепо полагаются на проект дата-центра. SE считает, что проектировщики должны полностью подготовить людей, которые будут заниматься эксплуатацией дата-центра с первого дня его работы. В этом вопросе человеческий фактор выходит на первый план.

Другие ошибки состоят в неспособности: правильно подобрать специалистов; системно обучить людей и тестировать их уровень подготовки; организовать документирование процессов и процедур в дополнение к операционным программам.

Сюда же можно добавить и неспособность: выполнить соответствующие процедуры и процессы в проектируемом пространстве; разработать и внедрить системы проверки качества; использовать инструменты программ управления ― такие как системы контроля, помогающие отслеживать работу устройств через интеллектуальные измерительные устройства на постоянной основе.

7. Природные катаклизмы

Стихийные бедствия случаются вне зависимости от человека. «Это действие высших сил», - говорит Ансетт.

Крупнейшие операторы ЦОД, как правило, строятся в районах, где такие бедствия, как ураганы, землетрясения и наводнения, случаются крайне редко или вообще никогда. Однако все же множество дата-центров строятся в опасных зонах.

Например, ураган «Сэнди» в 2012 году был настолько мощным, что несколько крупных хабов в Нью-Йорке вышли из строя. Те, которые не залило водой, пострадали от отключения энергии.

Когда ураган пришел в регион, местная энергоснабжающая компания Consolidated Edison была вынуждена отключить энергосистему в нижнем Манхэттене, чтобы избежать эскалации опасности для дата-центров. Пострадали тысячи клиентов.

Компания Emerson Network Power подсчитала, что в среднем операторы тратят на послеаварийное восстановление дата-центров, пострадавших в результате стихийного бедствия, $395 065.

Какова же цена отказа?

Отказы дата-центров, если не брать во внимание их потенциальную угрозу жизни и здоровью людей, являются для операторов крупными статьями расходов. Компания Emerson Network Power подсчитала, что в 2013 году отказы дата-центров стоили в пересчете на минуту работы на 41% больше, чем в 2010-м: $7900 и $5600 соответственно. Наиболее высокая цифра для одной организации составила $1,7 млн.

 

Правила использования материалов сайта

Страницы: 1 2 3 4 5 6 7 8 9 10