Incidentrapport

Özgür Bal Molnet Leave a Comment

Hur vår strömförsörjning är uppbyggd

Vårt strömförsörjningssystem har en arkitektur som på bästa möjliga sätt ska minimera risken att våra datahallar ska bli strömlösa. Om vi följer flödet så börjar det med flera, parallella huvudledningar från vår elleverantör in till en enorm “switch” som också är kopplad till vår dieselgenerator. UPS-systemen finns innanför “switchen” och det är genom dessa som strömmen levereras ut till de individuella racken. Kortfattat och väldigt förenklat kan man säga att det är som i en laptop, du tillför ström som laddar ett batteri som i sin tur driver datorn, i vårt fall är det dock i enorm skala och utöver det har vi även en dieselgenerator som kan leverera ström om det blir strömavbrott.

Om det blir strömavbrott har vi alltså UPS-systemen (batterierna) som omedelbart och utan fördröjning sköter strömförsörjningen till hela hallen, fram tills dess att dieselgeneratorn värmt upp och börjar leverera ström till hallen. Detta tar 15-30 sekunder. Så snart Dieselgeneratorn levererar ström kliver den tidigare nämnda “switchen” in och byter strömkälla från de strömlösa ledningarna hos vår elleverantör till dieselgeneratorns strömledningar. Vid det här laget sköts hela hallens strömförsörjning av dieselgeneratorn och så länge leveransen av diesel fungerar som den ska (något vi självklart har avtal och SLA på) så kan generatorn sköta strömförsörjningen så länge som det behövs.

Problemen som vi hade för två dagar sedan rörde delar av UPS-systemet som skulle bytas ut. Då just UPS-systemet är det som står mellan strömförsörjningen från elleverantören och själva racken fanns det inget som kunde ta över strömförsörjningen när det felade. Då strömmen från vår elleverantör inte var källan till problemet fick inte heller dieselgeneratorn någon signal om att starta upp och leverera ström.

Bakgrund

Med en stadig tillströmning av kunder och tjänster som både blir större och fler till antalet har vi börjat se över och göra stora investeringar i vårt datacenter i Karlskrona (men även andra städer). Både för att skapa ännu bättre redundans för våra kunder men också genom att designa våra system på ett sådant sätt att vi kan ha en arkitektur som körs i flera tillgänglighetszoner eller datacenters.

Den första fasen i våra expansionsplaner, att utöka vårt befintliga datacenter samt förbereda för en ny tillgänglighetszon, för Karlskrona var att installera ett nytt UPS system med högre kapacitet. Arbetet har utförts i samarbete med två företag som vi har anlitat många gånger tidigare. Tillsammans har de alltid levererat högkvalitativa produkter och tjänster och vi har hittills inte stött på några som helst problem, trots att vi genomfört liknande uppgraderingar.

Vad som skulle ha blivit ett rutinmässigt byte av UPS system gick tyvärr väldigt fel. Under gårdagen har vi fört dialog med båda företagen för att få klarhet i vad som egentligen hände.

Vad hände?

Onsdag 24/1 kl. 13:30. 1500 fysiska servrar i vårt datacenter tappar nätspänning. En minut efter första larmet är personal på plats i serverhallen och vid det här laget var många av de påverkade maskinerna på väg upp igen. Den första tanken om vad som gått fel var att bytet gett upphov till en strömspik vilket tagit ned maskinerna. Exakt vad som hände och sades mellan installatörerna och företaget som levererar UPS-systemet, vid tidpunkten för bytet, är ännu oklart. Det vi med säkerhet vet, nu i efterhand, är att en strömspik inte var den enskilda orsaken till problemet utan ett 26 sekunder långt avbrott i strömförsörjningen till servrarna. Med facit i hand kan vi med största sannolikhet säga att avbrottet uppkommit pga. oklara indikationer från UPS-systemet och den mänskliga faktorn. Dialogen med våra installatörer och leverantören fortlöper i ett försök att bättre förstå problematiken och för att förbättra processerna inför framtida jobb.

Under de kommande 4 timmarna jobbade ett arbetslag av 20 personer med att få upp alla servrar och tjänster som drabbats så fort det bara gick. Vissa servrar hade “bara” startats om och kom igång så snart strömmen var tillbaka. Resten kom upp i takt med att våra tekniker löste specifika problem som hindrade dem från att starta upp som de skulle. Utöver det faktum att det var så pass många maskiner som påverkades tog det än mer tid när våra tekniker stötte på diverse hårdvaruproblem.

Efter ungefär 1,5 timme var e-post tjänsten igång för majoriteten av våra kunder. Kort därefter, vid 14:48 var 80% av de virtuella maskinerna i City Cloud igång. Vid 15:00 var även vår delade miljö helt återställd. 2 timmar efter avbrottet var majoriteten av de påverkade servrarna igång. Kvarvarande servrar tog sedan längre tid att få igång bland annat på grund av hårdvarufel och oregelbunden nätverkstrafik.

Kl. 18:00 var det fortfarande ett antal virtuella maskiner som vi inte lyckats få igång på grund av hårdvaruproblem. Vid det här laget delade teknikerna in sig på olika spår för att på bästa och snabbast möjliga sätt få igång dem. Delar av arbetslaget koncentrerade sig på att diagnostisera och byta ut hårdvara medan andra påbörjade arbetet med att flytta tjänster från den trasiga hårdvaran. Kl. 20:00 var de flesta servrarna igång även i City Cloud uppe och vi öppnade även upp admin-panelen som ditintills varit blockerad för att förhindra fler problem. Admin-panelen var tidvis svår att nå och långsam att använda på grund av att så pass många servrar startades samtidigt och att ovanligt många kunder försökte ta sig in i gränssnittet för att se efter sina virtuella maskiner.

Vad som händer nu…

UPS-systemet som nu är på plats kommer enligt våra beräkningar att hålla måttet många år framöver och vi ser inget byte inom någon överskådlig framtid. Trots det tycker vi att det är av yttersta vikt att dra lärdom från den här incidenten och ta med oss det när vi blickar framåt. Utöver att även fortsättningsvis använda erfarna installatörer vid den här typen av arbeten anser vi att vi på ett bättre sätt hade kunnat kräva en närmare dialog mellan de två företagen som vi anlitade och självklart följa upp den dialogen. Cheklistor användes vid installationen men säg den process som inte kan förbättras.

Under nästa vecka kommer vi fortsätta att föra dialog med de två företag som vi anlitade och vi hoppas få till stånd ännu bättre rutiner och processer för den här typen av jobb som är så oerhört viktiga att de görs rätt. När en sån här incident inträffar gör vi alltid analyser av hur vi har jobbat och om det finns områden som kan förbättras för att snabba upp processen. Självklart finns det alltid områden som kan förbättras och detta är något vi kommer att titta på under de kommande veckorna.

Vi ber om ursäkt för de problem som den här incidenten har gett upphov till. Vi är mer än väl medvetna om att upptid är något av det viktigaste och känsligaste för våra kunder och det är även vår högsta prioritet. Vi tar det här på största allvar och kommer att göra allt som står i vår makt för att det aldrig ska upprepas i någon av våra serverhallar igen.