Логин:
Пароль:
Сохранить логин и пароль
Для получения логина и пароля пишите на почту do@planetaklimata.com.ua
Страницы: 1 2 3 4 5 6 7 8 9 10Аварії в ЦОДах: статистика — річ уперта

(21.01.2016)

Говорячи про надійність дата-центрів, в якості ключових моментів завжди згадують час простою і відсутність аварій. Як часто вони бувають і де трапляються — це і буде предметом огляду, який був побудований за результатами анкетування учасників вітчизняного ринку. Сучасний бізнес потрапляє у пряму залежність від інформаційних технологій, а їм, у свою чергу, потрібно для нормальної роботи справне обладнання, зокрема функціонуюча інженерна інфраструктура дата-центру.

Наприклад, різні регулярні аналітичні дослідження показують, що ступінь залежності бізнес-процесів компанії від її ІТ становить від 75% до 95%. Про що це може говорити? Про те, що при порушенні функціонування ІТ-сервісів, які працюють в ЦОДі, функціонування компанії або порушується, або істотно сповільнюється, що призводить як до прямих витратах, так і непрямим (недоотриманого прибутку, репутаційних ризиків і т. д.).

Неполадки в роботі ЦОДа призводять до нештатних зупинок бізнес-процесів підприємств. Про вартість і наслідки таких збоїв ми писали в одному з попередніх оглядів. Тепер же варто розглянути більш вузький аспект: що саме виходить з ладу, скільки часу займає вирішення проблеми і які дії слід зробити, для того щоб уникнути інцидентів у майбутньому. Щоб відповісти на ці питання, було проведено анкетування серед професіоналів, які займаються безпосередньо експлуатацією діючих дата-центрів. Результати опитування дозволяють звернути увагу профільних фахівців на потенційно проблемні ділянки інженерної інфраструктури сучасних вітчизняних ЦОДів. Також сподіваємося, що наведені нижче дані допоможуть у майбутньому запобігти різні інциденти, що пов'язані з роботою дата-центрів, і вже зараз вжити необхідних превентивних заходів.

А судді хто?

В опитуванні взяли участь 54 респондента, безпосередньо задіяних в процесі експлуатації дата-центрів. З'ясувалося, що 46% з них експлуатують комерційні ЦОДи, 39% — корпоративні та 15% — державні (відомчі). Останні умовно можна віднести до корпоративних, оскільки вони призначені тільки для власних потреб. Отже, частка комерційних об'єктів у дослідженні на 4% менше корпоративних, а значить, більша частина статистики відноситься саме до майданчиків, які знаходяться у власному або відомчому управлінні. Відносний паритет цифр також говорить про те, що відповіді можна розглядати як якась усереднена думка служби експлуатації — без прив'язки до того, в чиїй зоні відповідальності знаходиться експлуатація.

Діаграма 1. До якої галузі належить компанія, яка керує ЦОДом?

ЦОД

Опитування також показало, що значна частина ЦОДів знаходиться під контролем операторів зв'язку   про це повідомили 35% респондентів. Даний показник не дивує, оскільки ЦОДи даного сегмента будуються найбільш активно, до того ж все частіше оператори зв'язку планують використовувати простір дата-центрів не тільки для своїх потреб, але і здавати площі (або навіть ІТ-потужності) в оренду. А ось відсутність в опитуванні компаній   експлуатантів ЦОдів з електронної торгівлі та медіа, говорить радше про те, що такі компанії воліють орендувати ресурси у комерційних ЦОДах, не будуючи власних або використовуючи хмарні технології (що стало трендом для електронної комерції).

У той же час наявність шести компаній з області програмного забезпечення і технологій говорить про те, що, незважаючи на розвиток ринку послуг комерційних ЦОД з їх гнучким продуктовим портфелем послуг, такі компанії все ж експлуатують свої дата-центри самостійно, хоча за кордоном цей сектор якраз активно використовує аутсорсінг і оренду потужностей.

Тепер перейдемо безпосередньо до предмету опитування, а саме до того, як живеться компаніям з дата-центрами і з якими технічними проблемами стикаються компанії у процесі їх експлуатації.

Джерела проблем: рейтинг та аналіз проблемних місць

Перш ніж виникла ідея проведення анкетування, були сумніви в тому, що учасники ринку взагалі будуть говорити про те, що аварії трапляються. Як-то вже історично склалося, що ЦОД у нас сприймають як такий собі форпост непорушності бізнесу, і говорити про аварії — значить руйнувати репутацію компанії, якій належить ЦОД. У той же час завданням даного огляду є не персоніфікація аварій в ЦОДах, а як раз систематизація і аналіз цих аварій, тому ми розглянемо тільки саму статистику. І той факт, що компанії вже визнають, що форс-мажори трапляються, — це крок вперед до публічності та обміну досвідом, адже важливо знаходити й усувати слабкі ланки, а не замовчувати саму їх наявність.

Діаграма 2. У дата-центрі коли-небудь відбувалися аварії, що приводили до зупинки сервісів?

ЦОД

Як показало опитування, лише трохи більше 22% компаній ніколи не стикалися з критичними збоями, що призводять до зупинки ЦОД. Проте є достатні підстави вважати, що ця цифра занижена, оскільки тлумачення терміну «аварія» може різнитися. Слід відрізняти критичні аварії, які призвели до повної зупинки ЦОДа, і ті, які спричинили за собою лише часткове порушення функціонування систем або окремих агрегатів. Об останніх нерідко можна почути в кулуарах, але багато компаній вважають, що раз такі позаштатні ситуації не призвели до глобальних проблем, то і вважати аваріями подібні інциденти не слід. Але не потрібно забувати, що більш часте резервування на агрегатному рівні допускає лише одиничну відмову з негайними сервісними роботами, що нерідко ігнорується. У підсумку «незначні неполадки» накопичуються, шикуються у фатальний ланцюжок подій і призводять до глобальних збоїв. Тому не варто недооцінювати будь-які інциденти — після його усунення необхідно приділити достатньо часу «розбору польотів», адже аварія може не просто повторитися, а і викликати більш серйозні наслідки.

Результати дослідження дозволяють зробити висновок про те, що близько 80% дата-центрів так чи інакше переживали серйозні неполадки в роботі інженерної інфраструктури, які приводили до зупинки бізнес-сервісів. Таким чином, проблеми існують, і, незважаючи на всі заяви виробників і інтеграторів, немає абсолютно надійних рішень. Втім, їх і не може бути, адже завжди присутній людський фактор і форс-мажори.

До речі, виробники ніколи відкрито не розповідають про відсоток збоїв їх обладнання в контексті вітчизняної статистики, проте, судячи з опитування, 80% «потерпілих» свідчать: проблеми з обладнанням виникають частіше, ніж хотілося б. Відповідно, досвід самої служби експлуатації стає дорогим (як у переносному, так і в прямому сенсі) «доповненням» до оцінки сукупної вартості володіння ЦОДом. У той же самий час не можна сказати, що від такого кроку виграють і виробники, адже при суб'єктивній оцінці дуже складно щось спростувати об'єктивними факторами, тому брак якоїсь конкретної партії може накласти негативний відбиток на всю продукцію виробника у цілому, ставлячи під загрозу його репутацію на ринку. Залишається сподіватися, що політика відкритості все-таки буде набирати обертів найближчим часом.

Діаграма 3. В чому була причина незапланованої відмови ЦОДа?

ЦОД

Загальне число аварійних епізодів, про які повідомили респонденти, досягло 120. В оцінці того, хто є винуватцем проблеми, респонденти розійшлися. Найбільша кількість учасників опитування (59,3%) назвали причиною неполадок саме відмову інженерного обладнання, хоча ІТ-обладнання зазначено в якості джерела проблем значно рідше (35,2%). З одного боку, це нелогічно: інженерна система має більший термін експлуатації, ніж ІТ-парк, а значить, і кількість відмов повинно бути менше. З іншого боку, ІТ-обладнання більш уніфіковано у виробництві і тестуванні і часто функціонує «з коробки». Інженерне обладнання навіть сьогодні на заводах часто збирається з застосуванням великого відсотка ручної праці, вимагає правильного пусконалагоджування на об'єкті та періодичного сервісного обслуговування, яке часто просто ігнорується або проводиться недостатньо ретельно. Одночасно з цим уніфікація виробництва активно впроваджується і тут: все частіше продукція від одного виробника може покрити завдання побудови інженерної інфраструктури з нуля, не кажучи вже про готові блоки і рішення (такі як контейнерні рішення, модульні ЦОД і т.д.).

Діаграма 4. В якій з інженерних підсистем ЦОДа сталася відмова?

ЦОД

Побачивши такий результат, стало цікавим розібратися детальніше в цій частині: що ж саме виходить з ладу в самих інженерних системах найчастіше? Статистика показала 94 епізода, оскільки в деяких випадках відмовляло відразу кілька підсистем. 54,7% опитаних повідомили, що відмови пов'язані з виходом з ладу тих чи інших елементів системи електропостачання, 41,5% — з-за несправності ДБЖ, 11,3% — з-за відмови батарей. А це дуже немало: у середньому — 61% з вини систем електропостачання. Додаємо до цієї цифри 11,3% відмов у роботі дизель-генераторних установок (ДГУ) і отримуємо вражаючі 67%. Ось і висновок: дві третини проблем — з-за гарантованого електропостачання споживачів!

Як з'ясувалося, запуск ДГУ здійснюється досить рідко. Очевидно, характер збоїв не дозволяє ДГУ врятувати ситуацію або ж проблема локалізована всередині мережі електропостачання і не вимагає запуску ДГУ: тільки половина опитаних компаній повідомила, що необхідність запуску дизеля виникає раз у три роки або ще рідше. Ще близько 24% вдаються до допомоги ДГУ тільки раз на рік.

Діаграма 5. Як часто при аварії ви включаєте дизель?

ЦОД

Часто служби експлуатації стикаються з проблемами в системі охолодження. При цьому 22,6% — з-за системи управління охолодженням; 17% — з-за проблем з контуром теплоносія і 7,5% — системи контролю вологості. В сумі — 27%, а на інші інженерні системи припадає менше 6% аварій. Висновок простий: при проектуванні, впровадженні та експлуатації приділяйте якомога більше часу системах електропостачання та кондиціонування, і ви підвищите надійність функціонування всього комплексу систем ЦОДа, при цьому сильно зменшивши ймовірність появи аварій, що, втім, і підтверджується методиками відомої організації Uptime Institute.

Людський фактор як і раніше високий

У той же час в переліку джерел, які спричинили відмову, впевнено лідирує людський фактор — 44%, з яких 48,1% респондентів вказали, що причиною аварії була випадкова (людська) помилка. Про що це говорить? Про те, що обслуговуючий персонал повинен проходити ретельний відбір і підготовку, перш ніж заступати на «бойове» чергування. Адже у разі аварії саме перші дії персоналу можуть як врятувати ситуацію, так і значно її погіршити. Для виключення випадків також необхідно мати короткі інструкції щодо того, що робити у випадку тих чи інших нештатних ситуацій; мати під руками документацію. Також у разі, якщо ЦОД знаходиться на аутсорсінгу, необхідно укладати з обслуговуючою організацією SLA з коротким терміном реагування. Якщо цього немає, отримуємо наступний за величиною аварійний фактор: 16% опитаних вказали, що причиною аварії стало порушення правил експлуатації обладнання. Такий високий відсоток може свідчити про те, що більшість операторів ЦОДів приділяють недостатньо уваги навчанню персоналу, перевірки їх кваліфікації, розробці регламентів роботи, контролю за виконанням процедур і т. д.

А от помилки проектування значно знизилися: якщо раніше в багатьох оглядах вони стояли серед перших по частоті, то в цьому огляді на них вказали лише 20,4% представників компаній. Що ж, культура і деталізація проектування принесли свої плоди. А адже саме помилки на стадії проектування найважче і дорожче виправляти. У той же час хотілося б відзначити ще одну важливу деталь: вкрай бажано, щоб працівники, що займають ключові посади і відповідають за експлуатацію, були підключені до процесу будівництва ЦОд ще на стадії проектування (особливо це стосується комерційних ЦОД). Тоді безцінний досвід, накопичений при зведенні об'єкта, не буде втрачено, а сама реалізація ЦОДа буде максимально відповідати не тільки бізнес-моделі, але й узгоджуватися з робочими процесами служби експлуатації.

Інші фактори, такі як складні погодні умови (7,4%) або атаки хакерів (13%), значно відстають. Це говорить про те, що основні причини аварійності ЦОДа все-таки знаходяться всередині об'єкта і не настільки схильні зовнішнім факторам, як може здатися з першого погляду.

Частота аварій і час відновлення

На початку дослідження саме цей момент викликав найбільший інтерес. Адже фактично інтерес представляв не тільки якийсь середній період аварій, але і різноманітність відповідей учасників анкетування, що прямо б підтвердила або спростувала глобальну тенденцію на ринку.

Діаграма 6. Як часто у вашому ЦОДі відбуваються аварії?

ЦОД

З'ясувалося, що 50 (майже 93%) компаній з 54 опитаних зазначають, що ті чи інші відмови відбуваються щонайменше раз на рік. З цих компаній 30% повідомили, що аварія трапляється кілька разів на рік, але тільки 4% вказали, що аварії стаються раз на місяць і частіше. Тобто можна говорити, що в більшості дата-центрів все-таки хоча б раз на рік аварія трапляється, але не частіше, ніж кілька разів.

Діаграма 7. Скільки часу зайняло відновлення найбільшої аварії у вашому ЦОДі?

ЦОД

При цьому всі аварії були усунуті досить оперативно: ліквідація 93% аварій вклалася в добовий інтервал, з яких майже чверть (26%) зайняла не більше п'яти годин, а 41% — і зовсім до години. При цьому мова йде тільки про аварії, які стали значними для учасників опитування. Нагадаємо, один з раніше проведених опитувань показало: для більшості організацій допустимим часом простою як раз і є діапазон від півгодини до доби. Іншими словами, хоча аварії і відбувалися, але всі вони були усунені у розумні терміни.

Підсумки

Підбиваючи підсумки, зупинимося на основних ключових думках, до яких призвело дане дослідження. По-перше, збої в вітчизнянних дата-центрах відбуваються не так вже й рідко: як мінімум раз на рік. При цьому неважливо, чи йде мова про комерційні, корпоративні або державні майданчики. Майже у половині випадків причиною аварій є людський фактор (причому акцент зміщений саме у бік випадкових дій і помилок експлуатації), ще третина припадає на інженерні системи, з яких 2/3 складають аварії з електропостачанням і менше 1/3 — з кондиціонуванням. У той же час, якщо технічні збої в ЦОДі і відбуваються, вони, як правило, не мають катастрофічного впливу   майже завжди їх усунення укладається в добовий інтервал, а майже у половині випадків проблеми вирішуються і зовсім протягом години.

Подібна статистика аварій однозначно свідчить на користь необхідності резервування критично важливих елементів інженерної інфраструктури дата-центру, більш відповідального ставлення до кваліфікації персоналу і його постійної перепідготовки, а також до ретельного документування та формалізації усіх процесів. Таким чином, важливо розуміти, що людський фактор може стати причиною ненадійності будь-якого «невбиваного» обладнання, а виключення цього фактора дозволить значно підвищити надійність з мінімальними витратами. Адже з точки зору економіки клієнт (неважливо   внутрішній або зовнішній) готовий платити лише за надійність і безперервність функціонування ІТ-сервісів (саме це і є цінністтю ЦОДа для бізнесу), і чим вона вища, тим більш рентабельним буде функціонування такого бізнес-активу, як ЦОД.

 

Правила використання матеріалів сайту

Страницы: 1 2 3 4 5 6 7 8 9 10