Budowa centrum przetwarzania danych, czyli z jakich części składa się data center? Wyjaśniam na kolejnym przykładzie. Kolejnym, ponieważ zagadnienie podziału data center poruszyłem przy okazji pisania mojej definicji centrum danych oraz analizy różnicy pomiędzy serwerownią a centrum danych.

Mimo, iż jestem zwolennikiem używania pojęcia "centrum danych" zamiast "centrum przetwarzania danych" (moje uzasadnienie), wygląda na to, że to drugie staje się bardziej popularne od pierwszego. Jestem przez to zmuszony do używania również nazwy "centrum przetwarzania danych", ponieważ w świecie Google'a mój blog może być pominięty dla osób szukających wiedzy pod taką frazą. Wspomnę tylko szybko, że w obu przypadkach piszę o tym samych, czyli o data center.

Tak więc tym razem przedstawiam podział funkcjonalny - budowę centrum przetwarzania danych na przykładzie modelu obiektu firmy SAP [1], bez powtarzania informacji, które można znaleźć w powyżej podlinkowanych treściach.

Jak zawsze, do omawiania budowy centrum przetwarzania danych najlepiej posługiwać się modelem komputerowym, ponieważ nie sposób wykonać zdjęcia przekroju istniejącego centrum danych. Poniżej przedstawiam obraz takiego modelu. Dodatkowo zostały na nim opisane poszczególne systemy i części funkcjonalne, które są umiejscowione w osobnych pomieszczeniach, co jest podstawową cechą profesjonalnego (modelowego) data center.

mainSAPDC

Głównym i najważniejszym pomieszczeniem centrum przetwarzania danych jest serwerownia (server room). To tutaj cały proces przetwarzania (i nie tylko) ma miejsce. Tutaj w odpowiednich warunkach klimatycznych i fizycznych pracują urządzenia IT. Poniżej zdjęcie wykonane w jednym z rzędów pomiędzy szafami IT (szafami "rack").

SAPDC01

Aby sprzęt IT w serwerowni mógł niezawodnie, ciągle i bezpiecznie pracować niezbędny jest odpowiednio zaprojektowany system zasilania. Oprócz zasilania z sieci elektroenergetycznej (na niezawodność której, nie mamy wpływu) niezbędne jest wyposażenie centrum przetwarzania danych w zasilacze bezprzerwowe UPS (zabezpieczające min. przed chwilowymi skokami i zanikami napięcia) oraz  generatory prądotwórcze, które w przypadku braku zasilania z sieci zapewnią źródło prądu (tutaj już jak najbardziej mamy wpływ na niezawodność i ciągłość zasilania). Poszczególne elementy systemu zasilania profesjonalnego centrum przetwarzania danych powinny być zlokalizowane w osobnych pomieszczeniach. Więcej o zasilaniu pisałem na stronie Zasilanie serwerowni w dziale Praktyka.

Poniżej zdjęcie zespołu generatorów prądotwórczych...

02

... oraz baterii zasilaczy UPS.

SAPDC03

Do schłodzenia dużej ilości ciepła generowanej przez urządzenia IT potrzebny jest wysoko wydajny system chłodzenia - standardowo oparty o klimatyzację precyzyjną. Z reguły jednostki wewnętrzne znajdują się w pomieszczeniu serwerowni (szczególnie w coraz częściej stosowanych klimatyzatorach rzędowych) lub w pomieszczeniu bezpośrednio przylegającym do serwerowni.

Poniżej zdjęcie wymienników ciepła zlokalizowanych na dachu omawianego centrum przetwarzania danych firmy SAP. Zgodnie z zamieszczonym na stronie źródłowej opisem, w przypadku wysokich temperatur zewnętrznych, wymienniki widoczne na zdjęciu są spryskiwane wodą w celu zwiększenia wydajności chłodzenia.

SAPDC05

Dalsza część systemu chłodzenia - zbiorniki buforowe (6 sztuk po 50 tysięcy litrów, razem 300 tysięcy litrów wody lodowej o temperaturze 4°C), które w przypadku awarii jednostek zewnętrznych (pokazanych na zdjęciu powyżej) zapewnią przez pewien czas źródło chłodu systemu. Zbiorniki takie również znajdują się w specjalnie do tego przeznaczonym pomieszczeniu.

SAPDC06

Nawet system gaszenia gazem w profesjonalnym centrum przetwarzania danych powinien mieć swoją, wydzieloną przestrzeń. W przypadku większego obiektu ilość środka gaśniczego, a co za tym idzie butli, będzie znacząca. Poniżej zdjęcie obrazujące tą kwestię.

SAPDC07

Pomieszczenie telekomunikacyjne jest miejscem gdzie świat zewnętrzny (Internet) łączy się za pomocą zaawansowanych routerów itp. ze światem wewnętrznym - urządzeniami i systemami informatycznymi obsługiwanymi przez centrum przetwarzania danych. Poniżej zdjęcie takiego pomieszczenia, w tym przypadku odpowiednio podzielonego zgodnie z potrzebami firmy SAP.

SAPDC08

Teren wokół centrum danych powinien być monitorowany, tak aby ochrona stale miała "oko" na to co się dzieje poza jego murami.

SAPDC10

Nad prawidłową pracą wszystkich elementów centrum przetwarzania danych stale musi pracować obsługa, która musi mieć do tego odpowiednie warunki. Stąd konieczność zapewnienia pomieszczenia, które tutaj nazwane zostało "stacją kontroli". W przeciwieństwie do serwerowni, klimat tutaj musi być przyjazny dla człowieka.

SAPDC09

Przedstawiona tutaj budowa (podział funkcjonalny) centrum przetwarzania danych jest jedną z możliwości jakie można zastosować. Jest on  bliski modelowi przedstawionemu w normie ANSI/TIA-942. Zasadność poszczególnych pomieszczeń i systemów oraz podziałów funkcjonalnych musi być każdorazowo analizowana na etapie projektowania data center pod kątem jego przeznaczenia (cloud computing, kolokacja itp.), wymaganego poziomu dostępności i niezawodności lub konkretnej klasy TIER.

Materiał zdjęciowy:

[1]. The SAP Data Center
      http://www.sapdatacenter.com/
      http://www.sapdatacenter.com/article/data_center_functionality/#!

PUE - (ang. Power Usage Effectiveness) jest to współczynnik określający proporcje całej energii elektrycznej zużywanej na zasilanie centrum danych do energii elektrycznej zużywanej przez urządzenia IT. Im wartość bliższa 1 tym mniej energii marnowanej jest na potrzeby zapewnienia odpowiednich warunków klimatycznych serwerowni oraz odpowiedniej infrastruktury (zasilanie, chłodzenie itp.).

Współczynnik PUE został opracowany w roku 2007 i opisany przez amerykańską organizację The Green Grid skupiającą użytkowników końcowych, decydentów, producentów rozwiązań technologicznych oraz architektów infrastruktury. Szczegółowo PUE został opisane w dokumencie "PUE: A comprehensive examination of the metric".

Wzór zaczerpnięty dosłownie z dokumentu wygląda następująco:

PUE_centrum danych_data_center

Total Facility Energy - całkowita energia obiektu.
IT Equipment Energy - energia urządzeń IT.

Termin PUE na język polski należy przetłumaczyć dosłownie jako "efektywność zużycia energii". Jak można wyczytać w ww. dokumencie, wskaźnik ten służy do pomiaru efektywności energetycznej infrastruktury centrum danych i jest on narzędziem dla użytkownika końcowego, umożliwiającym zwiększenie efektywności energetycznej działania centrum danych.

Wspomniany dokument zawiera wyczerpującą ilość informacji szczegółowych dotyczących sposobów wykonywania pomiarów, obliczeń, wzorów, metod raportowania itp., dlatego zainteresowanych detalami odsyłam do jego lektury.

W praktyce niższy współczynnik PUE (bliższy 1) oznacza mniejsze wydatki związane z zasilaniem mocy obliczeniowej. Dwa centra danych o tej samej mocy IT i różnych współczynnikach PUE będą miały różne koszty utrzymania, co przełoży się bezpośrednio na cenę usługi docelowej.

Największy wpływ na docelową wartość współczynnika PUE mamy w fazie projektowej, kiedy to możemy odpowiednio zaplanować i dobrać rozwiązanie chłodzenia i zasilania (główne czynniki mające wpływ na wynik). Pozostałe elementy mają mniejsze znaczenie, co nie oznacza, iż nie powinny być odpowiednio przemyślane. Urządzenia bardziej efektywne energetycznie są droższe, jednak oszczędności jakie nam zapewnią w trakcie eksploatacji obiektu zrekompensują większe koszty w niedługim czasie.

Istnieje kilka sposobów na zwiększenie efektywności energetycznej serwerowni już działającej, jednak będą to raczej zmiany symboliczne. Kilka z nich wymieniłem w artykule "W jaki sposób zadbać o optymalną temperaturę w serwerowni i zaoszczędzić".

Najbardziej efektywnie energetycznie centra danych (Google'a czy Facebooka) chwalą się wartością PUE dochodzącą poniżej 1,1. Facebook nawet udostępnia na swoim portalu w formie FanPage'a rzeczywiste, bieżące wyniki min. wartości PEU. Jeśli chodzi o Google, to polecam stronę, gdzie firma opisuje sposób pomiaru efektywności oraz jego wyniki. W obu przypadkach kluczowe znaczenie dla osiągnięcia tak dobrych rezultatów ma zastosowanie chłodzenia ewaporacyjnego i chłodzenia opartego o zasoby naturalne (np. morze lub jezioro). O chłodzaniu jakie wykorzystuje Facebook w swoich centrach danych pisałem w artykule "Najnowsze centrum danych Facebooka zbudowane zgodnie z założeniami Open Compute Project – Część 1", do którego lektury zapraszam.

Podsumowując, współczynnik PUE warto mieć na uwadze już na etapie projektowania centrum danych. Warto zastosować bądź droższe rozwiązania (urządzenia), które zwrócą się i dadzą znaczne oszczędności zużycia energii w perspektywie czasu życia obiektu lub rozwiązania niestandardowe - na wzór Google'a lub Facebooka. Te drugie jednak wymagają znaczącej odwagi zarówno projektantów jak i inwestorów i póki co brak takich obiektów w naszym kraju (przynajmniej mi nic o tym nie wiadomo).

Klasyfikacja Tier coraz częściej pojawia się w kontekście charakteryzowania obiektów data center. Właściciele centrów danych zamieszacją w materiałach reklamowych i na stronach internetowych informacje o konkretnej klasie Tier swojego obiektu. Nawet w wytycznych projektowych można już spotkać tajemniczy zapis dotyczący klasy planowanego centrum danych. Czy jednak są to realne do osiągnięcia i prawidłowo określone wymagania? Czym w ogóle jest klasyfikacja Tier? Skąd wywodzi się termin Tier i jak go wymawiać? Gdzie znaleźć wytyczne dla poszczególnych klas? Postanowiłem sprawę dogłębnie rozeznać i przedstawić fakty, które pomogą uporządkować temat.

Czym jest klasyfikacja Tier?

Klasyfikacja Tier służy do określenia poziomu dostępności i niezawodności infrastruktury (fizycznej - zasilanie, chłodzenie, architektura budynku itp.) centrum danych. Im wyższy numer tym bardziej niezawodny i bezpieczny system. Przy czym, jak wyjaśniam poniżej, istnieją dwa główne, różniące się między sobą, zbiory wymagań za którymi stoją dwie różne instytucje.

Geneza terminu tier

Wyraz tier, zaczerpnięty do klasyfikacji obiektów data center pochodzi od angielskiego "tier" oznaczającego poziom lub standard. Można go wymawiać zapewne po polsku tak jak się pisze, lub bardziej prawidłowo zgodnie z zasadami języka angielskiego, co brzmi prawie jak "tir" (znaczenie i wymowa).

Po raz pierwszy - oficjalnie - określenia "tier" do klasyfikacji poziomu dostępności centrum danych użyła firma The Uptime Institute (zwana dalej również Uptime lub Instytut) mniej więcej w roku 1990 [1]. Jednym z pierwszych dokumentów definiujących poziomy wydajności (Tiery) był "Industry Standard Tier Classifications Define Site Infrastructure Performance" z roku 2001 (dostępny w Internecie), który opisywał wytyczne konfiguracji infrastruktury technicznej oraz określał za pomocą wartości procentowej minimalny poziom dostępności systemu dla każdej z klas Tier I, II, III, IV.

W roku 2005 klasyfikacja ta została zapożyczona i poszerzona przez organizację Telecommunications Industry Association (TIA) do opracowania pierwszego standardu definiującego infrastrukturę telekomunikacyjną centrum danych, normy TIA-942 z 2005 roku o nazwie "Telecommunications Infrastructure Standard for Data Centers", który jest do dzisiaj najbardziej popularnym standardem wykorzystywanym do projektowania centów danych (został on uaktualniony w latach 2008 i 2010 - niestety nie posiadam tych wersji). Fakt zapożyczenia klasyfikacji Tier od The Uptime Institute jest kilkakrotnie wspominany w treści normy.

Czy klasyfikacja Rated wg. normy TIA-942 jest tym samym, co klasyfikacja Tier wg. wytycznych The Uptime Institute?

Nie, klasy te nie są tym samym, ponieważ różnią się od siebie i to fundamentalnie. Do wersji TIA-942-A była używana klasyfikacja Tier jednak różniła się w zapisie od Tier The Uptime Instytute, który to stosował rzymskie cyfry I, II, III, IV (Tier I, Tier II, Tier III, Tier IV) natomiast TIA-942 oznaczała cyframi arabskimi 1, 2, 3, 4 (Tier 1, Tier 2, Tier 3, Tier 4). Taka klasyfikacja może się jeszcze pojawiać w starszych materiałach. To się jednak zmieniło od wersji TIA-942-B gdzie zastosowano klasyfikację Rated-1, 2, 3, 4.

Klasyfikacja TIA 942 Rated

Klasyfikacja Rated wg. TIA-942

TIA-942 definiuje szereg wytycznych dla czterech klas Rated (kilkanaście stron tabel, kilkaset pozycji, wiele stron opisów) dotyczących min.

  • telekomunikacji,
  • konstrukcji budynku, logo
  • zadaszenia,
  • elementów budynku,
  • pomieszczeń,
  • dróg transportowych,
  • miejsc magazynowych i przechowywania paliwa,
  • bezpieczeństwa fizycznego budynku,
  • odporności ścian, systemów bezpieczeństwa,
  • instalacji elektrycznych i jej komponentów,
  • instalacji mechanicznych - chłodzenia i wentylacji,
  • systemów przeciwpożarowych.

Tabele te pozawalają na przeanalizowanie krok po kroku spełniania kolejnych wymogów przez klasyfikowany obiekt. Należy pamiętać, że niespełnienie choćby jednej pozycji dyskwalifikuje oczekiwany poziom Rated.

W opinii The Uptime Institute wytyczne te są oderwane od potrzeb biznesowych użytkownika obiektu, identyczne dla wszystkich rodzajów działalności i dla różnych potrzeb związanych z funkcjonowaniem centrum danych. Przez to są, w jego opinii, niewłaściwe.

Klasyfikacja Tier wg. The Uptime Institute

upiW przeciwieństwie do rozbudowanych i identycznych dla każdego obiektu data center, szczegółowych wytycznych normy TIA-942, Uptime bardziej koncentruje się na przekazaniu idei dostosowania centrum danych do konkretnych potrzeb biznesowych użytkownika i nie posługuje się przy tym wypunktowanym zestawami zaleceń. Sprawia to, że nie jesteśmy w stanie ocenić samodzielnie czy spełniamy kryteria którejkolwiek klasy Tier, ponieważ nie są one znane a nawet będą różne dla różnych przypadków.

Uptime posługuje się dwoma dokumentami (dostępnymi po zarejestrowaniu i zalogowaniu tutaj) określającymi kryteria dla poszczególnych klas.

Pierwszy - "Data Center Site Infrastructure Tier Standard: Topology" - określa główne założenia topologi systemu dla poszczególnych klas Tier, przy czym każda kolejna klasa jest rozszerzeniem poprzedniej, i tak mamy:

  • Tier I: System nieredundantny. Infrastruktura centrum danych umieszczona w dedykowanym obszarze poza przestrzenią biurową.
  • Tier II: Podstawowa redundancja. Systemy zasilania i chłodzenia posiadają redundantne komponenty.
  • Tier III: Infrastruktura niezależnie zarządzalna. Brak wpływu zarządzania i wymiany komponentów infrastruktury na pracę systemu IT.
  • Tier IV: Infrastruktura odporna na awarie. Odporność na pojedyncze, nieplanowane zdarzenia, takie jak pożar, wyciek czy eksplozja.

Drugi - " Data Center Site Infrastructure Tier Standard: Operational Sustainability" - określa czynności jakie należy wykonywać oraz procedury jakie należy stosować, aby zapewnić odpowiednią trwałość i niezawodność operacyjną centrum danych odpowiedniej klasy Tier. Jak wynika z dokumentu, poziom dostępności i niezawodności data center jest wynikiem połączenie wytycznych topologi określonego Tier oraz sposobu zarządzania infrastrukturą. Wymagane procedury i  czynności zestawione są w formie tabel i dotyczą 3 obszarów:

  1. Zarządzenia i operacyjność. Kwestie dotyczące:
    • zatrudnienia odpowiedniej kadry i organizacji pracy (pracownicy oraz ich dostępność na zmianach, kwalifikacje zawodowe, organizacja pracy - raportowanie, przepływ informacji, określenie stanowisk i odpowiedzialności);
    • zasad i czynności związanych z zarządzeniem i utrzymaniem centrum danych (program prewencyjnego zarządzania, zasady utrzymania czystości, zarządzanie systemami, zasady wsparcia i kontaktu z dostawcami, planowanie czasu życia komponentów itp.);
    • rodzaju szkoleń dla pracowników i dostawców elementów systemu;
    • planowania, koordynowania i zarządzania (polityki i instrukcje działania, proces finansowania, dokumenty odniesienia, zarządzanie dostępną pojemnością centrum danych) itp.
  2. Charakterystyka budynku. Kwestie dotyczące:
    • czynności jakie powinny mieć miejsce przed uruchomieniem systemu (procedury odbioru budowy związane z dokładnym przetestowaniem instalacji i urządzeń itp.);
    • cech budynku (budynek celowo wybudowany na potrzeby data center, wydzielenie wskazanych funkcji do osobnych pomieszczeń - poza serwerownię, zabezpieczenia fizyczne przed dostępem nieuprawnionych osób);
    • opcjonalności infrastruktury (możliwość łatwego zwiększenia pojemności i możliwości centrum danych, wsparcie operacyjności - mechaniczne i automatyczne rozwiązania ułatwiające utrzymanie działania systemu).
  3. Lokalizacja obiektu. Wytyczne określające
    • ryzyko związane z naturalnymi kataklizmami;
    • ryzyko związane z bliską działalnością ludzką, która mogłaby mieć wpływ na bezpieczeństwo obiektu (odległość portu lotniczego, autostrady itp.).

Warto podkreślić, że ani TIA-942 ani Uptime nie posługują się w tych normach i dokumentach określaniem procentowym lub czasowym poziomu dostępności (np. 99,9 % w roku). Instytut przestał również używać jakichkolwiek rysunków schematycznych, które można było wcześniej znaleźć w ww. dokumentach. Ponadto żadna z instytucji nie przewidziała możliwości wystąpienia klas częściowych lub niepełnych, jak np. Tier II+ lub Rated-3 bez spełnienia jednego warunku, albo prawie Rated-4. I na koniec tego akapitu - Tier I lub Rated-1, wbrew pozorom, wymaga spełnienia pewnych warunków i na pewno nie można ich przypisać za sam fakt uruchomienia centrum danych. Dlatego uważam, że nawet najniższy poziom jest powodem do dumy, ponieważ wiele obiektów jest poniżej tej klasyfikacji.

Zasady certyfikacji centrów danych

Obecnie możliwa jest certyfikacja centrów danych, w kontekście klasyfikacji Tier, tylko i wyłącznie przez The Uptime Institute, co można wyczytać na stronie Instytutu. Ponadto Uptime zaznacza, że należy szczególnie uważać na obiekty, które same sobie przydzieliły poziom Tier.  Na stronie można również znaleźć spis wszystkich, dotychczas certyfikowanych centrów danych i dokumentacji oraz mapę ich lokalizacji.

Proces certyfikacji polega na zgłoszeniu się do Instytutu, po czym otrzymamy scenariusz działania oraz ofertę cenową. Cena będzie pokrywała wszystkie koszty związane z przyjazdem osób certyfikujących, ich zakwaterowaniem i czasem pracy związanym z dostosowywaniem planów obiektu do wytycznych jakie przedstawią eksperci.

Dla doprecyzowania, Uptime wyróżnia 3 rodzaje certyfikacji, każda płatna osobno.

  1. Certyfikat dokumentacji projektowej (Tier Certification of Design Documents).
  2. Certyfikat istniejącego/wybudowanego centrum danych (Tier Certification of Constructed Facility).
  3. Certyfikat niezawodności operacyjnej istniejącego obiektu (Operational Sustainability Certification).

Szkoda, że po weryfikacji i certyfikacji dokumentacji projektowej nie można automatycznie otrzymać certyfikatu dla wybudowanego data center, ale pewnie panowie z Instytutu wolą się upewnić, czy wszystko jest na 100% prawidłowo i czy czegoś nie przeoczyliśmy. Niemniej można certyfikować istniejące centrum danych jeśli tylko spełni odpowiednie wymagania.

Uptime prowadzi również certyfikację osób zajmujących się tematyką centrów danych:

  1. Projektantów, inżynierów, kierowników prac projektowych - Accredited Tier Designer (ATD).
  2. Menadżerów, konsultantów, architektów, kierowników projektów, inżynierów sprzedaży, architektów sieciowych  - Accredited Tier Specialist (ATS).

Koszt szkolenia, na dzień dzisiejszy, to 4 985 USD plus koszty transportu na miejsce szkolenia za granicą (z reguły jedna lokalizacja dla całego kontynentu - w naszym przypadku Londyn) oraz noclegu i wyżywienia. Szkolenie trwa 3 dni i kończy się egzaminem.

Warto mieć na uwadze fakt, że The Uptime Institute jest firmą prywatną, opierającą się na własnym doświadczenie i własnym programie techniczno-marketingowym. Nie jest to organizacja normalizacyjna ani mogąca wyznaczać obowiązujące standardy - w przeciwieństwie do TIA.

Jeśli chodzi o kwestię certyfikacji w przypadku TIA i normę TIA-942, to TIA również oferuje możliwość certyfikacji obiektu. Po więcej informacji odsyłam do oficjalnej strony TIA.

Podsumowanie

Twórcą i inicjatorem klasyfikacji Tier jest The Uptime Institute. Jedyną instytucją, która może ocenić klasę Tier centrum danych w kontekście zaleceń The Uptime Institut jest właśnie ta organizacja, wobec czego samodzielne stwierdzenie jakiejkolwiek klasy bez możliwości potwierdzenia tego faktu na stronach Instytutu będzie nieprawdą. Klasy Tier Uptime oznacza się rzymskimi cyframi I, II, III, IV. Klasy Tier TIA-942 przed wersją B oznaczało się cyframi arabskimi 1, 2, 3, 4. Od wersji B klasyfikacja oznaczana jest jako Rated-1, 2, 3, 4. Samodzielnie możemy nieoficjalnie klasyfikować centrum danych wg. TIA-942 jeśli faktycznie obiekt spełnia wszystkie wytyczne dla danego Tier opisane w normie. Wtedy możemy śmiało pisać np. "centrum danych zgodne z wytycznymi Rated-3 (lub 1, 2, 4) normy TIA-942". Pamiętajmy jednak, że część z tych wytycznych da się sprawdzić nie wchodząc nawet do przedmiotowego centrum danych, dlatego lepiej postępować ostrożnie i uczciwie. Warto skorzystać z płatnej certyfikacji TIA 942.

Zapraszam do dyskusji!

[1]. Uptime, TIA and BICSI: Who runs the data center design standards show?

Ciągłość działania serwerowni, określana przez dostępność lub niezawodność jest jedną z kluczowych cech profesjonalnego centrum danych. Nawet najlepsze zabezpieczenia przed włamaniem, zniszczeniem, zalaniem wodą czy pożarem nie pomogą, jeśli obiekt przestanie działać. Aby uniknąć takich zdarzeń niezbędny jest odpowiedni serwis serwerowni - potwierdzony umową - zapewniający przeglądy okresowe instalacji i urządzeń mające na celu wyeliminowania możliwości wystąpienia awarii. W przypadku kiedy mimo wszystko jednak ona wystąpi, ma zapewnić gwarancję szybkiej naprawy.

@ Work
Spokojnie, wszystko w naszej nowej serwerowni działa jak należy.Leonardo Rizzi / Foter / CC BY-SA

Kiedy już przejdziemy długi proces przygotowywania się do wybudowania centrum danych czy tylko serwerowni, zaakceptujemy najlepszą koncepcję, wybierzemy najlepsze zabezpieczenia i wreszcie uruchomimy wszystko i usłyszymy ten szum urządzeń oraz poczujemy chłód powietrza emocje na pewno będą duże i bardzo pozytywne. Ale co dalej? Wszystko działa, jest zabezpieczone na wiele sposobów, więc można by pomyśleć, że już jest całkowicie bezpiecznie teraz wystarczy czerpać korzyści z nowej infrastruktury. Jednak to nie wszystko. Zakończyliśmy jedynie etap realizacji i rozpoczyna się faza  utrzymania infrastruktury, która będzie trwała do końca funkcjonowania centrum danych.  Duża liczba instalacji i systemów, i wszystko musi działać cały czas. Co będzie, jak nastąpi awaria klimatyzacji i wzrośnie temperatura? Co jeśli padnie system zasilania? Co mam zrobić jeśli np. centrala przeciwpożarowa zgłosi awarię? Jak zabezpieczyć się przed takimi sytuacjami, jak temu przeciwdziałać i jak to naprawiać? Skąd w ogóle wiedzieć czy wszystko działa jak powinno?

Serwis i utrzymanie centrum danych

Etap utrzymania centrum danych trzeba rozpocząć od zapewnienia odpowiedniego serwisu serwerowni gwarantującego bezpieczeństwo jego funkcjonowania, zapobiegającego wystąpieniom awarii, a w razie pojawienia się jej - szybkiej naprawy. Na wszystkie urządzenia i instalacje dostajemy gwarancję  producenta lub wykonawcy na pewien okres. Samo utrzymanie tej gwarancji dla części systemów wymaga przeprowadzania okresowych przeglądów konserwacyjnych, co należy zaznaczyć w odpowiedniej umowie przeglądów serwisowych. Jest to zazwyczaj usługa płatna dodatkowo wliczona lub nie w ofertę, na podstawie której wybudowano centrum danych. Ustalenie takich warunków zapewnia naprawę awarii w czasie standardowej procedury gwarancyjnej czyli np. w dwa tygodnie.  W zależności od stopnia redundancji instalacji serwerowni, w przypadku krytycznej awarii, kiedy nie działa system klimatyzacji i trzeba poczekać na części z fabryki,  taki czas może okazać się zbyt długi.

Odpowiednia umowa

Zabezpieczeniem przed takim scenariuszem jest umowa z firmą świadczącą kompleksowe usługi serwisu serwerowni lub całego centrum danych z odpowiednio dobranymi parametrami SLA (ang. Service Level Agreement) określającymi poziom usług serwisowych. Umowa daje duże poczucie bezpieczeństwa osobie odpowiedzialnej za utrzymanie serwerowni. Dzięki takiej umowie, odpowiednio zdefiniowane usterki  będą naprawiana na przykład w kilka godzin, jeśli jest taka konieczność. Jest to możliwe w tak krótkim czasie, ponieważ usługodawca związany umową nie tylko zapewnia sobie odpowiednie części zamienne i elementy, które mogę ulec awarii, ale również zatrudnia pracowników mogących usunąć szybko uszkodzenia. Oczywiście nie są to wszystkie części, ponieważ trudno sobie wyobrazić, aby doszło do zniszczenia na przykład obudowy szafy klimatyzacyjnej. Wszystko jednak jest przemyślane, aby zapewnić gwarancję naprawy w określonym czasie.

Jeśli jest to konieczne należy zabezpieczyć się w możliwość zgłaszania awarii 24/7/365, a najlepiej przekierowywania zgłoszeń krytycznych systemu monitoringu warunków środowiskowych oraz stanu pracy urządzeń i instalacji do obsługi serwisu. Jeśli tego rodzaju system nie był wykonany na etapie realizacji, należy zainstalować go teraz. Bez odpowiednio szybkiego, automatycznego powiadamiania o zdarzeniach może dojść do sytuacji, że minie trochę czasu zanim ktoś się zorientuje, że coś się zepsuło. Alternatywą dla takiego rozwiązania jest zatrudnienie kilku serwisantów (całodobowe czuwanie, zgodnie z prawem pracy wymaga to kilku osób). Zatrudnienie pracowników wiążę się również z potrzebą ich szkolenia. Osoby te muszą również zająć się realizacją umów z podwykonawcami itp. Niestety takie rozwiązanie jest droższe i mniej bezpieczne (jak wyciągnąć konsekwencje od pracownika w przypadku przestoju systemu?). Z tego też względu mało kto decyduje się na taki krok.

Odpowiednio dobrane parametry SLA

SLA jest sprecyzowaniem oczekiwań właściciela centrum danych wobec firmy świadczącej usługę serwisu serwerowni i utrzymania obiektu. Pomaga on zdefiniować relacje pomiędzy usługodawcą a usługobiorcą oraz przedstawia wszelkie ustalenia dotyczące zakresu i sposobu świadczenia usług takich jak min.:

  • poziom usług (dostępność serwisu, czas zgłoszeń, sposób zgłaszania usterek, scenariusz napraw),
  • zakres usług (określenie systemów objętych serwisem, poziom ich krytyczności),
  • jasne zdefiniowanie pojęć (usterka, awaria, awaria krytyczna itp.) dla każdego serwisowanego systemu,
  • ustalenie czasu reakcji, czasu naprawy lub zastosowania rozwiązania zastępczego,
  • określenie sposobu realizowania usług.

Dobrze przygotowane SLA powinno precyzować 5 kluczowych aspektów

  1. Co zapewnia dostawca usług.
  2. Jak dostawca w praktyce będzie realizował te usługi.
  3. Kto i jak będzie kontrolował zapewnienie usług.
  4. Co się stanie jeśli dostawca nie wywiąże się z zobowiązań.
  5. Jak warunki SLA będą się zmieniały w czasie.
More data, more problems
Jak to nie mamy umowy serwisowej dla naszej serwerowni!? Nie działa cały system! Co ja mam teraz zrobić?✖ Daniel Rehn / Foter / CC BY-NC-SA

Wszystkie warunki SLA powinny być jasne, łatwe do zmierzenia i możliwe do zapewnienia. Dokładne ich sprecyzowanie wymaga czasu i należy go poświęcić tak dużo jak będzie trzeba, aż obie strony umowy nie będą miały żadnych wątpliwości, co do możliwości realizacji zobowiązań oraz ich zasadności. Wszystkie ustalenia muszą dotyczyć istniejącej infrastruktury i nie mogą być dobierane bez jej profesjonalnej analizy np. w oparciu o domysły.

Im bardziej szczegółowe będą zapisy takiej umowy tym łatwiej będzie uniknąć niemiłych sytuacji, które mogą się nieprzewidzianie wydarzyć.  Ponadto taka szczegółowość zapisów umownych pozwoli firmie serwisującej na większe skupienie się na tym, na czym naprawdę zależy właścicielowi serwerowni.

Jasne zdefiniowanie czym są usterka, awaria czy awaria krytyczna powinno być przeprowadzone dla każdego systemu z osobna. Należy jednak na tym etapie kierować się rozsądkiem i nie wymagać tego, co jest niepotrzebne. Każde skrócenie czasu naprawy, reakcji itp. pociąga za sobą odpowiednie koszty, które ostatecznie mogą być duże. Przy odpowiednio zaprojektowanej serwerowni, zawierającej wiele elementów nadmiarowych, należy rozważyć jak najdłuższy bezpieczny czas naprawy awarii. Różnica w kosztach naprawy w 3 dni, a w 2 tygodnie jest ogromna i często niepotrzebna.

Tak naprawdę o kosztach serwisu serwerowni i centrum danych oraz ich utrzymania należy myśleć już na etapie koncepcji i projektu. Odpowiednie zwielokrotnienie urządzeń i instalacji daje duże bezpieczeństwo, a prawdopodobieństwo wystąpienia awarii krytycznej maleje. W pewnej perspektywie czasu taniej jest dodać kolejne urządzenia jako nadmiar, niż zapewnienie szybkiego czasu naprawy przez cały ten okres. W procesie ustalania warunków SLA należy brać pod uwagę ewentualny koszt przestoju systemu dla biznesu. W niektórych branżach straty są tak duże, że zrozumiałe jest postawienie bardzo wygórowanych wymagań.

Przy ustalaniu warunków SLA zaleca się podział instalacji na krytyczne i niekrytyczne. Może nie mieć sensu ponoszenie kosztów utrzymania dodatkowej butli z gazem do systemu gaszenia, tak aby w razie akcji gaśniczej i wyzwolenia środka wymiana była możliwa w parę godzin. Na pewno krytyczne jest np. zasilanie i chłodzenie. Awaria krytyczna pierwszego (brak zasilania) wymaga bezwzględnie bardzo szybkiej reakcji (oczywiście awaria po stronie dostawcy energii wymaga po prostu cierpliwości i kontrolowania pracy agregatu prądotwórczego). Awaria krytyczna chłodzenia (stopniowy wzrost temperatury przy niewystarczającej ilości pracujących jednostek) jest również bardzo poważnym zagrożeniem.

Koszt utrzymania serwerowni czy centrum danych dla wysokich wymagań SLA jest bardzo duży. Jednak prosty bilans ewentualnych strat przestoju w stosunku do kosztów takiego serwisu może pokazać, że nie jest on wcale znaczący.

Weryfikacja bezpieczeństwa

Nawet największe kary za niedotrzymanie warunków umowy nie pokryją strat (być może częściowy koszt, ale nie dobre imię firmy). Niedopilnowanie i wynikający z tego przestój systemu może się źle skończyć dla obu stron. Dlatego lepiej, odsunąć nieco na bok prawne aspekty karne wynikające z umowy (również ważne) i upewnić się, że usługodawca jest w stanie się wywiązać z obietnic.

Serwis, np. systemu klimatyzacji czy systemów zasilania gwarantowanego (UPS-ów) szczególnie w okresie trwania gwarancji musi być prowadzony za pośrednictwem autoryzowanego serwisu. Firma świadcząca kompleksowy serwis centrum danych powinna mieć podpisaną umowę z takim serwisem, jeśli sama nie jest autoryzowana. Rozpoczynając współpracę można poprosić o możliwość wglądu do dokumentów lub nawet uzyskać potwierdzenie spełniania zawartych w umowach warunków przez wskazanego podwykonawcę. Zakres i różnorodność instalacji w centrach danych jest tak duży, że jest trudne (ale możliwe) aby jedna firma tylko i wyłącznie swoimi siłami świadczyła pełen zakres usług. Konieczna jest w tym wypadku duża wiedza na temat wszystkich systemów, organizowania serwisów, przeprowadzania przeglądów i zapobiegania awariom, dlatego też  jest to najskuteczniejsze zapewnienie bezpieczeństwa funkcjonowania centrum danych.

Serwis serwerowni z odpowiednią umową oraz sprecyzowanymi parametrami SLA jest niemalże koniecznością dla każdego poważnego centrum danych. Ustalanie warunków w niej zapisanych powinno być przeprowadzone rozsądnie i zgodnie z realnymi warunkami. Dla nowo projektowanych obiektów można zwiększyć nadmiarowość i niezawodność instalacji jeszcze przed realizacją tak aby zmniejszyć koszty utrzymania. Dla istniejących systemów należy mądrze przeanalizować sprawę i wykonać wspomniany bilans ewentualnych strat. Po ustaleniu warunków i podpisaniu umowy można już odetchnąć z ulgą i bezpiecznie korzystać z uroków i możliwości jakie zapewniają nam serwerownie i centra danych.

Dlaczego projekt serwerowni jest kluczowym etapem całego procesu realizacji centrum danych? Postaram się to wyjaśnić w niniejszym artykule.

W pewnym momencie funkcjonowania firmy okazuje się, że niewielkie pomieszczenie lub biuro, które wcześniej było idealne dla utrzymania kilku serwerów staje się za małe i nie zapewnia podstawowych warunków dla pracy większej ilości sprzętu. W innej firmie- system IT może na tyle się rozrosnąć, że nawet najlepiej wykonana serwerownia po prostu nie ma możliwości fizycznych na przyjęcie kolejnych urządzeń.

Jak się zabrać za podobny problem? Kto powinien się tym zająć? Komu zlecić projekt? Komu wykonanie? Jak ocenić prawidłowość poszczególnych kroków? Jak ogarnąć całość? Jak sprawdzić poprawność działania systemów?

Zgodnie z tym, co napisałem w dziale "Praktyka", można wyróżniamy cztery podstawowe fazy budowy serwerowni lub centrum danych:

1. Przygotowanie do projektowania, na co może się składać wykonanie:

2. Projektowanie, czyli wykonanie:

3. Realizację (budowa).

4. Serwis i utrzymanie.

Na etapie sporządzania projektu serwerowni (projektowani) podejmowane są najważniejsze decyzje, które mają ogromny wpływ na kolejne fazy oraz wszystkie aspekty i całościowy bilans budowy serwerowni lub centrum danych. Działa tutaj zasada kaskadowa i błędy popełnione w pierwszym etapie powielają się i zwiększają problemy oraz koszty w dalszych fazach.

_MG_0181
Projekt powinien przewidzieć wszelkie elementy serwerowni. Zmiany po wybudowaniu są znacznie bardziej kosztowne i trudne.Last.fm / Foter / CC BY-SA

 

Dlaczego projekt jest kluczowy?

W serwerowni znajduje się wiele instalacji różnych branż (m.in. elektryczna, klimatyzacji, systemów bezpieczeństwa, przeciwpożarowa, budowlana), z których do dyspozycji mamy po kilka rozwiązań, proponowanych przez konkurencyjne firmy. Wszystkie - mniej lub bardziej różnią się między sobą pod względem kosztów utrzymania, wydajności, niezawodności, warunków serwisu, sposobu instalacji, skuteczności działania itp.

Dla przykładu - dwa urządzenia, które działają identycznie pobierają różną ilość prądu. Biorąc pod uwagę średni czas życia serwerowni (10-15 lat) oraz mnogość instalacji i systemów daje to ogromne oszczędności albo dodatkowe koszty utrzymania serwerowni, co często przekracza koszt samej realizacji (budowy). W przypadku aspektu wydajnościowego jest podobnie. Urządzenia o zbliżonej cenie mogą przynosić różne efekty. Nie zapominajmy o niezawodności, ponieważ niektóre sprzęty statystycznie częściej ulegają uszkodzeniu od innych. Warunki serwisu określą nam, na jakiej zasadzie odbywa się naprawa. Koszt serwisu wchodzi w koszt utrzymania. Każdy system w serwerowni wymaga serwisowania dla zachowania warunków gwarancji i przede wszystkim sprawności. Kilka przeglądów w roku, razy koszt jednostkowy, razy liczba lat eksploatacji systemu, równa się duży koszt i duże różnice dla różnych rozwiązań.

Wielkim wyzwaniem jest pozornie łatwe do wykonania architektoniczne zaaranżowanie pomieszczenia. Tymczasem błędy projektowe mogą mieć różnego rodzaju poważne konsekwencje - np. niemożność wstawienia kolejnej szafy, UPS-a czy klimatyzatora, podczas gdy przy innym ustawieniu widać, że nie byłoby z tym najmniejszego problemu. Podczas aranżacji, która jest kluczowa, należy wziąć pod uwagę wszystkie instalacje i systemy tak, aby razem pozostawały ze sobą w harmonii.

Wielu architektów projektując np. budynki biurowe, gdzie większość najemców potrzebuje profesjonalnych miejsc na zainstalowanie sprzętu IT, nie bierze pod uwagę wymagań i parametrów niezbędnych do zapewnienia takiej możliwości. W efekcie pomieszczenie nazwane w projekcie architektonicznym budynku „serwerownią” jest zbyt małe i nieprzemyślane pod względem możliwości wykonania w nim niezbędnych instalacji wchodzących w skład serwerowni. W takim wypadku lepiej nazwać to „pomieszczeniem krosowym” lub „punktem dystrybucyjnym sieci LAN”.

Kilka pytań przed…

Zanim przystąpimy do budowy serwerowni powinniśmy postawić sobie dwa kluczowe pytania: „po co nam serwerownia” oraz „jakie parametry ma zapewnić”. Uwzględnienie w projekcie odpowiedzi na te zagadnienia, świadczy o tym, że projektant miał cały czas na uwadze właściwy cel zadania. Jednocześnie dla kogoś, kto będzie realizował na podstawie tych założeń serwerownię, jasna będzie zasadność zaprojektowanych rozwiązań lub też (dzięki swojemu doświadczeniu) będzie mógł przeanalizować wspólnie z projektantem i inwestorem sensowność ich zastosowania.

- Takie analizy powinny być przeprowadzone na początku drogi i jasno określone w dokumentacji projektowej bo już po uruchomieniu serwerowni mogą doprowadzić do niemiłych wniosków i kosztownych modernizacji. Niestety czasami w praktyce brak jest informacji o celach. Projekt sprawia wrażenie jakby był oderwany od realnych potrzeb użytkownika, a cały proces realizacji serwerowni może doprowadzić do niewłaściwego efekt.

W jakim celu planujemy budowę serwerowni lub centrum danych?

Projekt serwerowni powinien zawierać w miarę dokładną informację na temat celu, jakim kieruje się inwestor, Może to być np. proste zorganizowanie sieci lokalnej i pewnej liczby serwerów potrzebnych do codziennej pracy firmy, co na etapie ustalania wytycznych do projektu uznano np. jako system mało krytyczny; w innym przypadku serwerownia będzie centrum obliczeniowym dla nowo powstającego systemu informatycznego, na którym będzie się opierał cały biznes firmy a dostęp do niego musi być zagwarantowany przez cały czas (24/7/365), co na etapie ustaleń zakwalifikowano jako system krytyczny. Różne potrzeby wyznaczają różne podejścia do projektowanej infrastruktury.

Jakie parametry ma zapewnić serwerownia?

Wyjaśnienie tej kwestii wynika z informacji zawartych w odpowiedzi na pytanie ”w jakim celu planujemy budowę serwerowni lub centrum danych” i tak samo musi być dokładnie sprecyzowane w fazie przygotowania do projektowania. Dużą rolą jest tutaj wiedza projektanta lub koordynatora całego procesu budowy serwerowni, ponieważ użytkownik po prostu może nie wiedzieć dokładnie, jak wszystko rozwiązać i tak naprawdę zwrócił się do kogoś, kto ma mu w tym pomóc. Określenie parametrów jest kluczowe dla zapewnienia wysokiej dostępności, niezawodności, bezpieczeństwa, możliwości rozbudowy i wielu innych czynników. Im wyższe wymagania tym większy koszt realizacji inwestycji jednak korzyści dla biznesu są dużo większe. W przypadku systemu mało krytycznego, nie ma sensu inwestować w drogie do zapewnienie parametry, jeśli po prostu nie są one konieczne. Z drugiej strony, dla przypadku systemu krytycznego, nieuwzględnienie takich założeń może mieć różnorodne, negatywne skutki i nie zapewnić spełnienia celu inwestycji.

Fachowiec najważniejszy

Sprzęt serwerowy mocno się zmienia, średnio co 3-4 lata rozsądna jest wymiana na nowszy technologicznie, bardziej wydajny i energooszczędny. Nie oznacza to jednak, że z czasem liczba urządzeń będzie malała, ponieważ zapotrzebowanie na moc obliczeniową stale wzrasta. Wraz z pojawieniem się lepszych sprzętów, zmieniają się także systemy i instalacje serwerowni. Biorąc pod uwagę ich mnogość i liczbę producentów - dysponowanie wiedzą na temat nowoczesnych rozwiązań, czy nowinek technologicznych, wymaga dużego zaangażowania i wielu szkoleń.

Biura projektowe, których głównym celem nie są serwerownie i zajmują się nimi raczej „przy okazji” rzadko kiedy mają możliwość pracować przy zrealizowanym projekcie, nie otrzymują zgłoszeń serwisowych ani informacji zwrotnych od użytkowników na temat poprawności działania zaprojektowanych systemów. Często projekty branżowe nie są ze sobą skoordynowane. W praktyce instalacje mogą być ze sobą niezgrane i wzajemnie się wykluczać.

Firmy, które kompleksowo realizują serwerownie (od projektu po wykonanie i utrzymanie) specjalizują się w tej tematyce i są na bieżąco ze wszystkimi wymaganiami dotyczącymi zagadnień IT. Przydzielają osobę koordynującą całość procesu projektowania i realizacji serwerowni dla utrzymania spójności na każdym etapie. Współpracują również z biurami projektowymi koordynując prace, dając wytyczne dotyczące zastosowanych rozwiązań, analizując ich stosowność dla całego cyklu życia serwerowni. Dużą wagę przywiązują do szkoleń, edukacji i zdobywania informacji na temat najnowszych rozwiązań technologicznych w tematyce. Prowadząc proces budowy serwerowni wyciągają wnioski i poprawiają to, co mogło być wcześniej niewłaściwie dobrane. W okresie serwisowania dostają zgłoszenia i uwagi od użytkowników, dzięki czemu wiedzą, jakie rozwiązania sprawdzają się najlepiej, a jakie nie. Biura projektowe, oderwane od realizacji serwerowni i jej utrzymania, nie mają tego doświadczenia, co sprawia, że konieczność zmian w kolejnych projektach może nie być oczywista. Powierzenie całej inwestycji wyspecjalizowanej firmie już na etapie koncepcji biznesowej jest najbardziej skutecznym podejściem.

Koszt projektu serwerowni to tylko kilka procent wartości realizacji i jeszcze mniej procent całkowitego kosztu posiadania (z j. ang. TCO - Total Cost of Ownership). Projekt ma ogromne i kluczowe znaczenie dla tego wyniku, więc lepiej podejść do sprawy mądrze.