Ciągłość działania serwerowni, określana przez dostępność lub niezawodność jest jedną z kluczowych cech profesjonalnego centrum danych. Nawet najlepsze zabezpieczenia przed włamaniem, zniszczeniem, zalaniem wodą czy pożarem nie pomogą, jeśli obiekt przestanie działać. Aby uniknąć takich zdarzeń niezbędny jest odpowiedni serwis serwerowni - potwierdzony umową - zapewniający przeglądy okresowe instalacji i urządzeń mające na celu wyeliminowania możliwości wystąpienia awarii. W przypadku kiedy mimo wszystko jednak ona wystąpi, ma zapewnić gwarancję szybkiej naprawy.

@ Work
Spokojnie, wszystko w naszej nowej serwerowni działa jak należy.Leonardo Rizzi / Foter / CC BY-SA

Kiedy już przejdziemy długi proces przygotowywania się do wybudowania centrum danych czy tylko serwerowni, zaakceptujemy najlepszą koncepcję, wybierzemy najlepsze zabezpieczenia i wreszcie uruchomimy wszystko i usłyszymy ten szum urządzeń oraz poczujemy chłód powietrza emocje na pewno będą duże i bardzo pozytywne. Ale co dalej? Wszystko działa, jest zabezpieczone na wiele sposobów, więc można by pomyśleć, że już jest całkowicie bezpiecznie teraz wystarczy czerpać korzyści z nowej infrastruktury. Jednak to nie wszystko. Zakończyliśmy jedynie etap realizacji i rozpoczyna się faza  utrzymania infrastruktury, która będzie trwała do końca funkcjonowania centrum danych.  Duża liczba instalacji i systemów, i wszystko musi działać cały czas. Co będzie, jak nastąpi awaria klimatyzacji i wzrośnie temperatura? Co jeśli padnie system zasilania? Co mam zrobić jeśli np. centrala przeciwpożarowa zgłosi awarię? Jak zabezpieczyć się przed takimi sytuacjami, jak temu przeciwdziałać i jak to naprawiać? Skąd w ogóle wiedzieć czy wszystko działa jak powinno?

Serwis i utrzymanie centrum danych

Etap utrzymania centrum danych trzeba rozpocząć od zapewnienia odpowiedniego serwisu serwerowni gwarantującego bezpieczeństwo jego funkcjonowania, zapobiegającego wystąpieniom awarii, a w razie pojawienia się jej - szybkiej naprawy. Na wszystkie urządzenia i instalacje dostajemy gwarancję  producenta lub wykonawcy na pewien okres. Samo utrzymanie tej gwarancji dla części systemów wymaga przeprowadzania okresowych przeglądów konserwacyjnych, co należy zaznaczyć w odpowiedniej umowie przeglądów serwisowych. Jest to zazwyczaj usługa płatna dodatkowo wliczona lub nie w ofertę, na podstawie której wybudowano centrum danych. Ustalenie takich warunków zapewnia naprawę awarii w czasie standardowej procedury gwarancyjnej czyli np. w dwa tygodnie.  W zależności od stopnia redundancji instalacji serwerowni, w przypadku krytycznej awarii, kiedy nie działa system klimatyzacji i trzeba poczekać na części z fabryki,  taki czas może okazać się zbyt długi.

Odpowiednia umowa

Zabezpieczeniem przed takim scenariuszem jest umowa z firmą świadczącą kompleksowe usługi serwisu serwerowni lub całego centrum danych z odpowiednio dobranymi parametrami SLA (ang. Service Level Agreement) określającymi poziom usług serwisowych. Umowa daje duże poczucie bezpieczeństwa osobie odpowiedzialnej za utrzymanie serwerowni. Dzięki takiej umowie, odpowiednio zdefiniowane usterki  będą naprawiana na przykład w kilka godzin, jeśli jest taka konieczność. Jest to możliwe w tak krótkim czasie, ponieważ usługodawca związany umową nie tylko zapewnia sobie odpowiednie części zamienne i elementy, które mogę ulec awarii, ale również zatrudnia pracowników mogących usunąć szybko uszkodzenia. Oczywiście nie są to wszystkie części, ponieważ trudno sobie wyobrazić, aby doszło do zniszczenia na przykład obudowy szafy klimatyzacyjnej. Wszystko jednak jest przemyślane, aby zapewnić gwarancję naprawy w określonym czasie.

Jeśli jest to konieczne należy zabezpieczyć się w możliwość zgłaszania awarii 24/7/365, a najlepiej przekierowywania zgłoszeń krytycznych systemu monitoringu warunków środowiskowych oraz stanu pracy urządzeń i instalacji do obsługi serwisu. Jeśli tego rodzaju system nie był wykonany na etapie realizacji, należy zainstalować go teraz. Bez odpowiednio szybkiego, automatycznego powiadamiania o zdarzeniach może dojść do sytuacji, że minie trochę czasu zanim ktoś się zorientuje, że coś się zepsuło. Alternatywą dla takiego rozwiązania jest zatrudnienie kilku serwisantów (całodobowe czuwanie, zgodnie z prawem pracy wymaga to kilku osób). Zatrudnienie pracowników wiążę się również z potrzebą ich szkolenia. Osoby te muszą również zająć się realizacją umów z podwykonawcami itp. Niestety takie rozwiązanie jest droższe i mniej bezpieczne (jak wyciągnąć konsekwencje od pracownika w przypadku przestoju systemu?). Z tego też względu mało kto decyduje się na taki krok.

Odpowiednio dobrane parametry SLA

SLA jest sprecyzowaniem oczekiwań właściciela centrum danych wobec firmy świadczącej usługę serwisu serwerowni i utrzymania obiektu. Pomaga on zdefiniować relacje pomiędzy usługodawcą a usługobiorcą oraz przedstawia wszelkie ustalenia dotyczące zakresu i sposobu świadczenia usług takich jak min.:

  • poziom usług (dostępność serwisu, czas zgłoszeń, sposób zgłaszania usterek, scenariusz napraw),
  • zakres usług (określenie systemów objętych serwisem, poziom ich krytyczności),
  • jasne zdefiniowanie pojęć (usterka, awaria, awaria krytyczna itp.) dla każdego serwisowanego systemu,
  • ustalenie czasu reakcji, czasu naprawy lub zastosowania rozwiązania zastępczego,
  • określenie sposobu realizowania usług.

Dobrze przygotowane SLA powinno precyzować 5 kluczowych aspektów

  1. Co zapewnia dostawca usług.
  2. Jak dostawca w praktyce będzie realizował te usługi.
  3. Kto i jak będzie kontrolował zapewnienie usług.
  4. Co się stanie jeśli dostawca nie wywiąże się z zobowiązań.
  5. Jak warunki SLA będą się zmieniały w czasie.
More data, more problems
Jak to nie mamy umowy serwisowej dla naszej serwerowni!? Nie działa cały system! Co ja mam teraz zrobić?✖ Daniel Rehn / Foter / CC BY-NC-SA

Wszystkie warunki SLA powinny być jasne, łatwe do zmierzenia i możliwe do zapewnienia. Dokładne ich sprecyzowanie wymaga czasu i należy go poświęcić tak dużo jak będzie trzeba, aż obie strony umowy nie będą miały żadnych wątpliwości, co do możliwości realizacji zobowiązań oraz ich zasadności. Wszystkie ustalenia muszą dotyczyć istniejącej infrastruktury i nie mogą być dobierane bez jej profesjonalnej analizy np. w oparciu o domysły.

Im bardziej szczegółowe będą zapisy takiej umowy tym łatwiej będzie uniknąć niemiłych sytuacji, które mogą się nieprzewidzianie wydarzyć.  Ponadto taka szczegółowość zapisów umownych pozwoli firmie serwisującej na większe skupienie się na tym, na czym naprawdę zależy właścicielowi serwerowni.

Jasne zdefiniowanie czym są usterka, awaria czy awaria krytyczna powinno być przeprowadzone dla każdego systemu z osobna. Należy jednak na tym etapie kierować się rozsądkiem i nie wymagać tego, co jest niepotrzebne. Każde skrócenie czasu naprawy, reakcji itp. pociąga za sobą odpowiednie koszty, które ostatecznie mogą być duże. Przy odpowiednio zaprojektowanej serwerowni, zawierającej wiele elementów nadmiarowych, należy rozważyć jak najdłuższy bezpieczny czas naprawy awarii. Różnica w kosztach naprawy w 3 dni, a w 2 tygodnie jest ogromna i często niepotrzebna.

Tak naprawdę o kosztach serwisu serwerowni i centrum danych oraz ich utrzymania należy myśleć już na etapie koncepcji i projektu. Odpowiednie zwielokrotnienie urządzeń i instalacji daje duże bezpieczeństwo, a prawdopodobieństwo wystąpienia awarii krytycznej maleje. W pewnej perspektywie czasu taniej jest dodać kolejne urządzenia jako nadmiar, niż zapewnienie szybkiego czasu naprawy przez cały ten okres. W procesie ustalania warunków SLA należy brać pod uwagę ewentualny koszt przestoju systemu dla biznesu. W niektórych branżach straty są tak duże, że zrozumiałe jest postawienie bardzo wygórowanych wymagań.

Przy ustalaniu warunków SLA zaleca się podział instalacji na krytyczne i niekrytyczne. Może nie mieć sensu ponoszenie kosztów utrzymania dodatkowej butli z gazem do systemu gaszenia, tak aby w razie akcji gaśniczej i wyzwolenia środka wymiana była możliwa w parę godzin. Na pewno krytyczne jest np. zasilanie i chłodzenie. Awaria krytyczna pierwszego (brak zasilania) wymaga bezwzględnie bardzo szybkiej reakcji (oczywiście awaria po stronie dostawcy energii wymaga po prostu cierpliwości i kontrolowania pracy agregatu prądotwórczego). Awaria krytyczna chłodzenia (stopniowy wzrost temperatury przy niewystarczającej ilości pracujących jednostek) jest również bardzo poważnym zagrożeniem.

Koszt utrzymania serwerowni czy centrum danych dla wysokich wymagań SLA jest bardzo duży. Jednak prosty bilans ewentualnych strat przestoju w stosunku do kosztów takiego serwisu może pokazać, że nie jest on wcale znaczący.

Weryfikacja bezpieczeństwa

Nawet największe kary za niedotrzymanie warunków umowy nie pokryją strat (być może częściowy koszt, ale nie dobre imię firmy). Niedopilnowanie i wynikający z tego przestój systemu może się źle skończyć dla obu stron. Dlatego lepiej, odsunąć nieco na bok prawne aspekty karne wynikające z umowy (również ważne) i upewnić się, że usługodawca jest w stanie się wywiązać z obietnic.

Serwis, np. systemu klimatyzacji czy systemów zasilania gwarantowanego (UPS-ów) szczególnie w okresie trwania gwarancji musi być prowadzony za pośrednictwem autoryzowanego serwisu. Firma świadcząca kompleksowy serwis centrum danych powinna mieć podpisaną umowę z takim serwisem, jeśli sama nie jest autoryzowana. Rozpoczynając współpracę można poprosić o możliwość wglądu do dokumentów lub nawet uzyskać potwierdzenie spełniania zawartych w umowach warunków przez wskazanego podwykonawcę. Zakres i różnorodność instalacji w centrach danych jest tak duży, że jest trudne (ale możliwe) aby jedna firma tylko i wyłącznie swoimi siłami świadczyła pełen zakres usług. Konieczna jest w tym wypadku duża wiedza na temat wszystkich systemów, organizowania serwisów, przeprowadzania przeglądów i zapobiegania awariom, dlatego też  jest to najskuteczniejsze zapewnienie bezpieczeństwa funkcjonowania centrum danych.

Serwis serwerowni z odpowiednią umową oraz sprecyzowanymi parametrami SLA jest niemalże koniecznością dla każdego poważnego centrum danych. Ustalanie warunków w niej zapisanych powinno być przeprowadzone rozsądnie i zgodnie z realnymi warunkami. Dla nowo projektowanych obiektów można zwiększyć nadmiarowość i niezawodność instalacji jeszcze przed realizacją tak aby zmniejszyć koszty utrzymania. Dla istniejących systemów należy mądrze przeanalizować sprawę i wykonać wspomniany bilans ewentualnych strat. Po ustaleniu warunków i podpisaniu umowy można już odetchnąć z ulgą i bezpiecznie korzystać z uroków i możliwości jakie zapewniają nam serwerownie i centra danych.

Ochronę przeciwpożarową serwerowni oraz centrów danych realizuje się na dwa sposoby – poprzez wczesną detekcję dymu oraz automatyczne gaszenie pożaru gazowym środkiem gaśniczym (system gaszenia gazem serwerowni), przy czym mogą one istnieć osobno (mniejsza skuteczność) lub stanowić jeden system, zapewniający wysoki poziom bezpieczeństwa i zadziałania. W tym wpisie omawiam systemy gaszenia gazem (SUG). Wspomniałem o nim wcześniej w dziale praktyka.

Butla instalacji SUG ze środkiem gaśniczym w serwerowni
Butla instalacji SUG ze środkiem gaśniczym w serwerowni

Stałe urządzenia gaśnicze oparte o środki gaśnicze HFC227ea (FM®200[1]) lub FK-5-12 (C6F12O, NovecTM1230[2]) składają się z jednej lub wielu butli zawierających środek gaśniczy, zaworów z wyzwalaczami, orurowania oraz dysz. Ilość środka gaśniczego dobierana jest do kubatury pomieszczenia, przy założeniu odpowiedniego bezpiecznego stężenia, określonego przez polskie i europejskie normy. Elementem detekcyjnym oraz sterującym stałe urządzenie gaśnicze jest centrala automatycznego gaszenia, pełniąca również rolę systemu alarmu pożaru (SAP) np. IGNIS 1520M produkcji Polon-Alfa. Centrala posiada dwie linie detekcyjne, do których podłączone są czujki pożarowe, umieszczone we wszystkich strefach serwerowni – pod podłogą technologiczną, nad sufitem podwieszanym oraz przestrzeni głównej pomieszczenia. Linie działają w trybie koincydencji, co oznacza, że wysterowanie uruchomienia procedury gaszenia następuje dopiero w momencie wykrycia dymu poprzez czujki z dwóch różnych linii dozorowych. Zapobiega to wyzwoleniu środka gaśniczego w przypadku fałszywego alarmu.

Wykrycie dymu przez jedną z czujek spowoduje wywołanie alarmu I stopnia i uruchomienie sygnalizacji wizualno-optycznej. W tym momencie użytkownik może podejść do serwerowni i sprawdzić co spowodowało uruchomienie systemu pożarowego. Jeśli dym zostanie wykryty przez przynajmniej dwie czujki, ale pochodzące z różnych linii dozorowych, nastąpi wywołanie alarmu II stopnia i rozpocznie się procedura gaszenia, która poprzedzona będzie sygnalizacją optyczną plafonów znajdujących się nad wejściem i wyjściem z serwerowni, informujących o nakazie opuszczenia pomieszczenia oraz zakazie wchodzenia do jego wnętrza. Po upływie określonego czasu nastąpi wyzwolenie środka gaśniczego i ugaszenie zarzewia pożaru.

Aby zarzewie pożaru zostało skutecznie ugaszone, środek gaśniczy powinien utrzymywać się w pomieszczeniu przez przynajmniej 10 min. (tzw. czas retencji), dlatego też, bardzo ważne jest zapewnienie na etapie wykonywania serwerowni odpowiedniej szczelności pomieszczenia oraz skoordynowanie pozostałych systemów (np. wentylacji, klimatyzacji, zasilania) w celu ich odpowiedniego zadziałania w czasie procedury gaszenia. Szczelność pomieszczenia badana jest przed oddaniem systemu do użytkowania poprzez wykonanie pomiarów (tzw. Door Fan Test), których zadaniem jest potwierdzenie, czy spełniony jest warunek utrzymywania się odpowiedniego ciśnienia przez określony czas w chronionym pomieszczeniu.

Ze względu na znaczny wzrost ciśnienia w czasie wyzwolenia środka gaśniczego, pomieszczenie serwerowni wyposażane jest w klapę odciążającą (dekompresującą), która pozwoli na rozładowanie ciśnienia w pomieszczeniu w momencie wyzwolenia środka gaśniczego. Klapa montowana jest w ścianie zewnętrznej serwerowni i zabezpieczana środkami biernej ochrony przeciwpożarowej.

W serwerowni oraz przed jej wejściem montuje się przyciski, umożliwiające ręczne uruchomienie (START GASZENIA) lub wstrzymanie (STOP GASZENIA) akcji gaśniczej.

W celu określenia wymaganej ilości środka gaśniczego, oraz odpowiedniej ilości i umiejscowienia dysz, orurowania, czujek pożarowych oraz procedur działania podczas wystąpienia pożaru, konieczne jest wykonanie projektu wykonawczego instalacji automatycznego gaszenia (SUG/SAP), zatwierdzonego przez rzeczoznawcę ds. ppoż.

Podsumowując, systemy automatycznego gaszenia, oparte o gazowe środki gaśnicze (systemy gaszenia gazem serwerowni), zapewniają wysoką skuteczność gaszenia, bezpieczeństwo przebywających w pomieszczeniu osób oraz brak jakichkolwiek zanieczyszczeń czy zniszczeń sprzętu IT i samego pomieszczenia, powstających w wyniku działania konwencjonalnych systemów gaśniczych (gaszenie wodą, gaśnicami proszkowymi, itp.).

-------------------------------

[1] FM®200 jest nazwą handlową środka C3HF7 (HFC227ea wg ISO) spółki DuPontTM
[2] NovecTM1230 jest nazwą handlową środka C6F12O  (FK-5-12 wg ASHRAE) spółki 3M