Dne 04.07.2025 došlo na území České republiky k rozsáhlejšímu výpadku elektrické energie, v jehož důsledku došlo také k restartu několika našich serverů. Podrobný popis celé události je k dispozici v incident reportu.
V návaznosti na tento incident jsme se samozřejmě zaměřili na identifikaci jeho příčin, abychom v budoucnu podobné situace mohli lépe předcházet. V tomto článku sdílíme výsledky měření, která provedli především technici z ČRA.
Díky relativně úzkému propojení českého IT trhu se nám podařilo rychle navázat kontakt s dalšími zákazníky, kteří měli servery ve stejných datových sálech. Potvrdili jsme, že k restartu došlo i u dalších provozovatelů. Většina dotčených serverů používala shodný typ napájecího zdroje, nicméně byly zaznamenány i případy, kdy servery se stejným typem zdroje zůstaly v provozu. U jiného zákazníka pak došlo k restartu i přesto, že byl použit odlišný typ zdroje.
Během výpadku byl zaznamenán pokles frekvence v elektrické síti, který považujeme za pravděpodobnou příčinu problémů. Právě na tuto anomálii se technici z ČRA při měření zaměřili.
Specifikace napájecího zdroje
V rámci našeho testování jsme se detailněji podívali na ovlivněné napájecí zdroje. Konkrétně šlo o model PWS-504P-1R.
Pro úplnost přikládáme odkazy na dokumentaci dostupnou přímo z webu výrobce:
Dalším postiženým zdrojem byl PWS-406P-1R, který má velmi podobné technické parametry.
Ze specifikací uvedených na webu ale bohužel vidíme jen, že zdroje pracují ve frekvenčním rozmezí 50-60Hz. Bohužel, výrobce na svém webu nijak detailněji nespecifikuje, jakou odchylku od této hodnoty jsou zdroje schopné tolerovat.
Komunikace s technickou podporou nám také moc nepomohla. Jen nám velmi stroze sdělili, že zvládnou odchylku 5%. Už se nám z nich ale nepovedlo získat, jestli to je nad udávanou frekvenci 50-60Hz nebo to je už v tomto rozsahu započítané.
Specifikace UPS v datacentru
Datové centrum ČRA Tower v postižených sálech používá UPS Eaton 93PM.
Synchronizace frekvence u UPS je důležitý proces, který zajišťuje, že výstupní napětí UPS má stejnou frekvenci jako napětí ze sítě nebo jiného zdroje napájení.
Tento proces je důležitý pro plynulý přechod mezi napájením ze sítě/diesel agregátu a UPS. Pokud by k synchronizaci nedocházelo, tak může dojít k napěťovým/přechodovým špičkám, které mohou poškodit zařízení za UPS.
Při výpadku byl naměřený pokles vstupní frekvence na hodnotu 46,2Hz.
Tato hodnota je na UPS konfigurovatelná a na ovlivněných UPS byla ve výchozím nastavením, které povolovalo rozptyl frekvence až o ±4Hz (46Hz až 54Hz).
Vzhledem k tomu, že i zástupci Českých Radiokomunikací (ČRA) chtěli mít k dispozici přesnou a objektivní příčinu samovolnéhu restartu serverů, domluvili jsme se na provedení měření. Pro tento účel si zapůjčili testovací servery – jeden od nás a další od jiného zákazníka.
Naše možnosti pro takto přesné měření jsou omezené, a proto jsme velmi ocenili, že ČRA měření převzali pod svou gesci.
Měření bylo koncipováno tak, aby byla nalezena prahová hodnota frekvence, při které zdroje přestávají pracovat. Postupně byla na zdroji snižována frekvence střídavého napětí:
Jako měřící přístroj byl použit certifikovaný analyzátor Fluke 1738
Supermicro číslo 1
V tomto případě se jednalo o server vybavený napájecími zdroji PWS-504P-1R. Z přiloženého grafu je patrné, že k vypnutí serveru došlo v čase 755 při frekvenci 46,2 Hz. Následná spotřeba 7 W odpovídá stavu, kdy je server fyzicky vypnutý a napájen je pouze managementový subsystém (IPMI). Indikace LED diod na napájecích zdrojích svítila oranžově, což odpovídá vypnutému stavu. Server v tomto režimu nereagoval na pokus o zapnutí pomocí tlačítka na čelním panelu.
Supermicro číslo 2
V tomto případě šlo o server zapůjčený jiným zákazníkem, osazený napájecími zdroji PWS-406P-1R. Stejně jako v předchozím příkladu došlo k vypnutí serveru při frekvenci 46,2 Hz na hodnotu 46,2 Hz – tentokrát v čase 751 sekund. Chování bylo stejné jako u prvního serveru.
Kontrolní server
Kontrolní server byl vybaven napájecím zdrojem Cisco 341-0631-01 A0 s deklarovaným výkonem 1200 W. Podle dostupných informací (datasheet se bohužel nepodařilo dohledat) by tento zdroj měl podporovat vstupní frekvenční rozsah 47–63 Hz.
V grafu je mezi časy 196 a 211 sekund patrný krátkodobý pokles spotřeby, který souvisí s restartem během inicializace – tento výkyv však neměl vliv na výsledky měření. Záznam bohužel končí při dosažení kritické hodnoty 46,2 Hz, tedy ve stejném bodě jako v předchozích případech.
Z následné komunikace s techniky z ČRA však vyplynulo, že při jiných testech (bez záznamu) tento typ zdroje fungoval spolehlivě až do frekvence 45 Hz, kde byl test ukončen.
Měření potvrdilo pravděpodobnou příčinu restartu serverů. Nešlo o technickou závadu, ale o rozdíl ve specifikacích napájecích zdrojů, jejichž vlastnosti často nejsou v dokumentaci dostatečně podrobně popsány – v kombinaci s nastavením UPS.
Na základě těchto zjištění bylo upraveno nastavení UPS tak, aby na pokles frekvence reagovala s větší rezervou a předešlo se podobným výpadkům v budoucnu. Na naší straně došlo k preventivní výměně zdrojů za jiné, u kterých jsme restart nepozorovali.
Jsme rádi, že výsledky tohoto měření můžeme sdílet veřejně, a velmi si vážíme přístupu techniků z ČRA, kteří se úkolu ochotně zhostili i přesto, že paralelně pracují na výstavbě nového sálu.
Ačkoli tento text vychází se zpožděním dvou měsíců od samotného incidentu, samotná analýza a výsledky byly k dispozici už po několika dnech. Kvůli dovoleným jsme se však k sepsání a publikaci dostali až nyní.