Tym razem chcę poruszyć temat testów obciążeniowych serwerowni / centrum danych, który ma na celu zbadanie poprawności zaprojektowanych i wykonanych instalacji klimatyzacji i zasilania serwerowni oraz prawidłowego funkcjonowania tych systemów dla docelowej, maksymalnej wartości obciążenia energetycznego.

Obciążnice w szafach serwerowych
Obciążnice w szafach serwerowych

W trakcie projektowania centrum danych i serwerowni dobierane są odpowiednie rozwiązania z zakresu klimatyzacji i zasilania, które często wynikają z solidnych obliczeń i doświadczenia projektanta bądź w wyniku sprawnych działań handlowca reprezentującego konkretnego producenta. W projekcie wszystko może wyglądać dobrze, ale czy tak będzie w rzeczywistości? Jest to już zagadka, która zazwyczaj rozwiązuje się zbyt późno - kiedy już system IT został wdrożony i każda minuta przestoju jest dramatyczna. Często jest jednak tak, że do maksymalnej, projektowanej mocy elektrycznej serwerownia zostanie obciążona dopiero po długim czasie, kiedy to już trudno będzie rościć pretensje do projektanta lub firmy wykonawczej, która również mogła przyczynić się do niewłaściwego rezultatu wykonując coś nie tak jak zostało to zaprojektowane.

Inną kwestią jest odpowiednia konfiguracja systemów chłodzenia i zasilania w tym zasilania gwarantowanego i rezerwowanego. Co z tego, że nasz system zasilaczy UPS wraz z dużą ilością baterii podtrzyma urządzenia IT nawet na 15 minut, jeśli klimatyzacja w tym czasie nie będzie działała, lub jeśli uruchomi się zbyt późno, kiedy zbyt wysoka temperatura spowoduje samoczynne wyłączanie się sprzętu IT. Co jeśli zaplanowano, że klimatyzatory tylko na chwilę się wyłączą lub będą podtrzymane zasilaniem gwarantowanym, jeśli nie będzie to zapewnione dla agregatów wody lodowej, które po zaniku napięcia potrzebują kilku minut na wznowienie działania... Tego typu pytań będzie znacznie więcej zależnie od konkretnego przypadku.

Aby uniknąć takich sytuacji należałoby wykonać testy obciążeniowe centrum danych przed odebraniem prac od wykonawcy. Tylko jak takie testy wykonać nie mając jeszcze zapełnionej serwerowni urządzeniami IT? Można to zlecić odpowiedniej firmie, która się takimi rzeczami zajmuje i posiada odpowiednią ilość obciążnic, które zasymilują działanie i wytwarzanie ciepła serwerów dla projektowanej mocy. Nie mam tutaj na myśli pojedynczej, dużej obciążnicy, która będzie stała na zewnątrz i sprawdzi poprawność jedynie instalacji zasilania, ale takich obciążnic, które zostaną zamontowane w szafach rack odpowiednio i równomiernie dla całej serwerowni.

Badanie stanu baterii UPS-a w czasie zaniku zasilania z sieci
Badanie stanu baterii UPS-a w czasie zaniku zasilania z sieci i dużego obciążenia gwarantowanych odbiorów centrum danych

Takie urządzenia, przy kontrolowanym zaniku zasilania z sieci, pozwolą na bezpieczne zbadanie wydajności klimatyzacji oraz tego, czy została ona odpowiednio dobrana dla projektowanego obciążenia, czy utrzyma bezpieczną temperaturę do czasu przejęcia zasilania przez agregat prądotwórczy, czy agregaty prądotwórcze wystartują w planowanym czasie, czy w ogóle wystartują, czy zasilacze UPS poradzą sobie z taką awarią, czy baterie wytrzymają zadany czas podtrzymania na pełnym obciążeniu itd., itp.

Z mojego doświadczenia wynika, że coś może być nie tak zaprojektowane lub wykonane, albo po prostu urządzenie lub jego element miał wadę fabryczną. To coś, w produkcyjnym środowisku byłoby bardzo poważną usterkę i miałoby negatywny wpływ na wizerunek firmy, której system nagle przestałby działać na czas nieokreślony. Dużo łatwiej i praktycznie bezkosztowo dla inwestora (wady naprawia wykonawca) można problem wyeliminować zanim będzie za późno. Dlatego też polecam dołożyć do kosztorysu inwestorskiego taki element (testy obciążeniowe centrum danych)  i zlecić te prac bezpośrednio odpowiedniej firmie, która nie będzie związana z wykonawcą testowanego centrum danych, co zapewni rzetelność badania.

analizator jakości energii
Analizator jakości energii
obciążnice 3,5 kW
Obciążnice RACK-owe symulujące pracę serwerów w ich docelowych lokalizacjach w serwerowni
obciążnica
Obciążnica większej mocy

Ciągłość działania serwerowni, określana przez dostępność lub niezawodność jest jedną z kluczowych cech profesjonalnego centrum danych. Nawet najlepsze zabezpieczenia przed włamaniem, zniszczeniem, zalaniem wodą czy pożarem nie pomogą, jeśli obiekt przestanie działać. Aby uniknąć takich zdarzeń niezbędny jest odpowiedni serwis serwerowni - potwierdzony umową - zapewniający przeglądy okresowe instalacji i urządzeń mające na celu wyeliminowania możliwości wystąpienia awarii. W przypadku kiedy mimo wszystko jednak ona wystąpi, ma zapewnić gwarancję szybkiej naprawy.

@ Work
Spokojnie, wszystko w naszej nowej serwerowni działa jak należy.Leonardo Rizzi / Foter / CC BY-SA

Kiedy już przejdziemy długi proces przygotowywania się do wybudowania centrum danych czy tylko serwerowni, zaakceptujemy najlepszą koncepcję, wybierzemy najlepsze zabezpieczenia i wreszcie uruchomimy wszystko i usłyszymy ten szum urządzeń oraz poczujemy chłód powietrza emocje na pewno będą duże i bardzo pozytywne. Ale co dalej? Wszystko działa, jest zabezpieczone na wiele sposobów, więc można by pomyśleć, że już jest całkowicie bezpiecznie teraz wystarczy czerpać korzyści z nowej infrastruktury. Jednak to nie wszystko. Zakończyliśmy jedynie etap realizacji i rozpoczyna się faza  utrzymania infrastruktury, która będzie trwała do końca funkcjonowania centrum danych.  Duża liczba instalacji i systemów, i wszystko musi działać cały czas. Co będzie, jak nastąpi awaria klimatyzacji i wzrośnie temperatura? Co jeśli padnie system zasilania? Co mam zrobić jeśli np. centrala przeciwpożarowa zgłosi awarię? Jak zabezpieczyć się przed takimi sytuacjami, jak temu przeciwdziałać i jak to naprawiać? Skąd w ogóle wiedzieć czy wszystko działa jak powinno?

Serwis i utrzymanie centrum danych

Etap utrzymania centrum danych trzeba rozpocząć od zapewnienia odpowiedniego serwisu serwerowni gwarantującego bezpieczeństwo jego funkcjonowania, zapobiegającego wystąpieniom awarii, a w razie pojawienia się jej - szybkiej naprawy. Na wszystkie urządzenia i instalacje dostajemy gwarancję  producenta lub wykonawcy na pewien okres. Samo utrzymanie tej gwarancji dla części systemów wymaga przeprowadzania okresowych przeglądów konserwacyjnych, co należy zaznaczyć w odpowiedniej umowie przeglądów serwisowych. Jest to zazwyczaj usługa płatna dodatkowo wliczona lub nie w ofertę, na podstawie której wybudowano centrum danych. Ustalenie takich warunków zapewnia naprawę awarii w czasie standardowej procedury gwarancyjnej czyli np. w dwa tygodnie.  W zależności od stopnia redundancji instalacji serwerowni, w przypadku krytycznej awarii, kiedy nie działa system klimatyzacji i trzeba poczekać na części z fabryki,  taki czas może okazać się zbyt długi.

Odpowiednia umowa

Zabezpieczeniem przed takim scenariuszem jest umowa z firmą świadczącą kompleksowe usługi serwisu serwerowni lub całego centrum danych z odpowiednio dobranymi parametrami SLA (ang. Service Level Agreement) określającymi poziom usług serwisowych. Umowa daje duże poczucie bezpieczeństwa osobie odpowiedzialnej za utrzymanie serwerowni. Dzięki takiej umowie, odpowiednio zdefiniowane usterki  będą naprawiana na przykład w kilka godzin, jeśli jest taka konieczność. Jest to możliwe w tak krótkim czasie, ponieważ usługodawca związany umową nie tylko zapewnia sobie odpowiednie części zamienne i elementy, które mogę ulec awarii, ale również zatrudnia pracowników mogących usunąć szybko uszkodzenia. Oczywiście nie są to wszystkie części, ponieważ trudno sobie wyobrazić, aby doszło do zniszczenia na przykład obudowy szafy klimatyzacyjnej. Wszystko jednak jest przemyślane, aby zapewnić gwarancję naprawy w określonym czasie.

Jeśli jest to konieczne należy zabezpieczyć się w możliwość zgłaszania awarii 24/7/365, a najlepiej przekierowywania zgłoszeń krytycznych systemu monitoringu warunków środowiskowych oraz stanu pracy urządzeń i instalacji do obsługi serwisu. Jeśli tego rodzaju system nie był wykonany na etapie realizacji, należy zainstalować go teraz. Bez odpowiednio szybkiego, automatycznego powiadamiania o zdarzeniach może dojść do sytuacji, że minie trochę czasu zanim ktoś się zorientuje, że coś się zepsuło. Alternatywą dla takiego rozwiązania jest zatrudnienie kilku serwisantów (całodobowe czuwanie, zgodnie z prawem pracy wymaga to kilku osób). Zatrudnienie pracowników wiążę się również z potrzebą ich szkolenia. Osoby te muszą również zająć się realizacją umów z podwykonawcami itp. Niestety takie rozwiązanie jest droższe i mniej bezpieczne (jak wyciągnąć konsekwencje od pracownika w przypadku przestoju systemu?). Z tego też względu mało kto decyduje się na taki krok.

Odpowiednio dobrane parametry SLA

SLA jest sprecyzowaniem oczekiwań właściciela centrum danych wobec firmy świadczącej usługę serwisu serwerowni i utrzymania obiektu. Pomaga on zdefiniować relacje pomiędzy usługodawcą a usługobiorcą oraz przedstawia wszelkie ustalenia dotyczące zakresu i sposobu świadczenia usług takich jak min.:

  • poziom usług (dostępność serwisu, czas zgłoszeń, sposób zgłaszania usterek, scenariusz napraw),
  • zakres usług (określenie systemów objętych serwisem, poziom ich krytyczności),
  • jasne zdefiniowanie pojęć (usterka, awaria, awaria krytyczna itp.) dla każdego serwisowanego systemu,
  • ustalenie czasu reakcji, czasu naprawy lub zastosowania rozwiązania zastępczego,
  • określenie sposobu realizowania usług.

Dobrze przygotowane SLA powinno precyzować 5 kluczowych aspektów

  1. Co zapewnia dostawca usług.
  2. Jak dostawca w praktyce będzie realizował te usługi.
  3. Kto i jak będzie kontrolował zapewnienie usług.
  4. Co się stanie jeśli dostawca nie wywiąże się z zobowiązań.
  5. Jak warunki SLA będą się zmieniały w czasie.
More data, more problems
Jak to nie mamy umowy serwisowej dla naszej serwerowni!? Nie działa cały system! Co ja mam teraz zrobić?✖ Daniel Rehn / Foter / CC BY-NC-SA

Wszystkie warunki SLA powinny być jasne, łatwe do zmierzenia i możliwe do zapewnienia. Dokładne ich sprecyzowanie wymaga czasu i należy go poświęcić tak dużo jak będzie trzeba, aż obie strony umowy nie będą miały żadnych wątpliwości, co do możliwości realizacji zobowiązań oraz ich zasadności. Wszystkie ustalenia muszą dotyczyć istniejącej infrastruktury i nie mogą być dobierane bez jej profesjonalnej analizy np. w oparciu o domysły.

Im bardziej szczegółowe będą zapisy takiej umowy tym łatwiej będzie uniknąć niemiłych sytuacji, które mogą się nieprzewidzianie wydarzyć.  Ponadto taka szczegółowość zapisów umownych pozwoli firmie serwisującej na większe skupienie się na tym, na czym naprawdę zależy właścicielowi serwerowni.

Jasne zdefiniowanie czym są usterka, awaria czy awaria krytyczna powinno być przeprowadzone dla każdego systemu z osobna. Należy jednak na tym etapie kierować się rozsądkiem i nie wymagać tego, co jest niepotrzebne. Każde skrócenie czasu naprawy, reakcji itp. pociąga za sobą odpowiednie koszty, które ostatecznie mogą być duże. Przy odpowiednio zaprojektowanej serwerowni, zawierającej wiele elementów nadmiarowych, należy rozważyć jak najdłuższy bezpieczny czas naprawy awarii. Różnica w kosztach naprawy w 3 dni, a w 2 tygodnie jest ogromna i często niepotrzebna.

Tak naprawdę o kosztach serwisu serwerowni i centrum danych oraz ich utrzymania należy myśleć już na etapie koncepcji i projektu. Odpowiednie zwielokrotnienie urządzeń i instalacji daje duże bezpieczeństwo, a prawdopodobieństwo wystąpienia awarii krytycznej maleje. W pewnej perspektywie czasu taniej jest dodać kolejne urządzenia jako nadmiar, niż zapewnienie szybkiego czasu naprawy przez cały ten okres. W procesie ustalania warunków SLA należy brać pod uwagę ewentualny koszt przestoju systemu dla biznesu. W niektórych branżach straty są tak duże, że zrozumiałe jest postawienie bardzo wygórowanych wymagań.

Przy ustalaniu warunków SLA zaleca się podział instalacji na krytyczne i niekrytyczne. Może nie mieć sensu ponoszenie kosztów utrzymania dodatkowej butli z gazem do systemu gaszenia, tak aby w razie akcji gaśniczej i wyzwolenia środka wymiana była możliwa w parę godzin. Na pewno krytyczne jest np. zasilanie i chłodzenie. Awaria krytyczna pierwszego (brak zasilania) wymaga bezwzględnie bardzo szybkiej reakcji (oczywiście awaria po stronie dostawcy energii wymaga po prostu cierpliwości i kontrolowania pracy agregatu prądotwórczego). Awaria krytyczna chłodzenia (stopniowy wzrost temperatury przy niewystarczającej ilości pracujących jednostek) jest również bardzo poważnym zagrożeniem.

Koszt utrzymania serwerowni czy centrum danych dla wysokich wymagań SLA jest bardzo duży. Jednak prosty bilans ewentualnych strat przestoju w stosunku do kosztów takiego serwisu może pokazać, że nie jest on wcale znaczący.

Weryfikacja bezpieczeństwa

Nawet największe kary za niedotrzymanie warunków umowy nie pokryją strat (być może częściowy koszt, ale nie dobre imię firmy). Niedopilnowanie i wynikający z tego przestój systemu może się źle skończyć dla obu stron. Dlatego lepiej, odsunąć nieco na bok prawne aspekty karne wynikające z umowy (również ważne) i upewnić się, że usługodawca jest w stanie się wywiązać z obietnic.

Serwis, np. systemu klimatyzacji czy systemów zasilania gwarantowanego (UPS-ów) szczególnie w okresie trwania gwarancji musi być prowadzony za pośrednictwem autoryzowanego serwisu. Firma świadcząca kompleksowy serwis centrum danych powinna mieć podpisaną umowę z takim serwisem, jeśli sama nie jest autoryzowana. Rozpoczynając współpracę można poprosić o możliwość wglądu do dokumentów lub nawet uzyskać potwierdzenie spełniania zawartych w umowach warunków przez wskazanego podwykonawcę. Zakres i różnorodność instalacji w centrach danych jest tak duży, że jest trudne (ale możliwe) aby jedna firma tylko i wyłącznie swoimi siłami świadczyła pełen zakres usług. Konieczna jest w tym wypadku duża wiedza na temat wszystkich systemów, organizowania serwisów, przeprowadzania przeglądów i zapobiegania awariom, dlatego też  jest to najskuteczniejsze zapewnienie bezpieczeństwa funkcjonowania centrum danych.

Serwis serwerowni z odpowiednią umową oraz sprecyzowanymi parametrami SLA jest niemalże koniecznością dla każdego poważnego centrum danych. Ustalanie warunków w niej zapisanych powinno być przeprowadzone rozsądnie i zgodnie z realnymi warunkami. Dla nowo projektowanych obiektów można zwiększyć nadmiarowość i niezawodność instalacji jeszcze przed realizacją tak aby zmniejszyć koszty utrzymania. Dla istniejących systemów należy mądrze przeanalizować sprawę i wykonać wspomniany bilans ewentualnych strat. Po ustaleniu warunków i podpisaniu umowy można już odetchnąć z ulgą i bezpiecznie korzystać z uroków i możliwości jakie zapewniają nam serwerownie i centra danych.