Information om uppföljande underhåll

johan Okategoriserade Leave a Comment

Som vi skrev i vår incidentrapport från förra veckan hade vi ett större avbrott pga fel under uppgradering av våra UPS-system. Under 26 sekunder hade ca 1500 fysiska servrar ingen ström vilket skadade viss hårdvara men skapade också mjukvaruproblem. Specifikt  blev vissa viktiga databaser korrupta eller data som inte var 100% konsekvent med vad våra management noder i City Cloud hade. Vi förstod detta tidigt och planerade underhåll för att ta detta sista steg några dagar senare. Efter underhållet skulle vi vara helt tillbaka till där vi var innan strömavbrottet.

På cnstatus.com gick vi ut med att tidigt denna tisdagmorgon (ca 01:30) skulle vi ta ner admin-gränssnittet och göra vissa uppdateringar – bland annat synka data baser mot våra management noder. Det skulle ta mindre än en timme och bara påverka admin-gränssnittet. Dock hade strömavbrottet påverkat mer omfattande än vad vi först trodde. Under första omgången av att återställa databaser och synka dem så upptäcks att vissa värdar (blad servrar) inte heller fungerade helt som de skulle – de rapporterade inte till management noderna som de ska. Även detta tror vi har skapats under strömavbrottet.

Vi gör återigen synkningar för att få data baser och management noderna att se exakt samma information – och vi tar ett steg i rätt rikning där färre värdar har problemet. Vi bootar i detta läget upp fler maskiner och aldrig var fler än 100 servrar påverkade.  Dessa VM:ar var dock upp och ner under hela morgonen då vi under tre tillfällen tar upp och i vissa fall ner servrar igen. Runt 7:00 på morgonen har sista omgången genomförts och de sista VM:arna börjar att tas upp. Några tog ytterligare en stund att få upp med alla dess tjänster.

Vid detta tillfället ser vi inte några former av varken hårdvaru- eller mjukvaruproblem. Det innebär att alla de skador som uppstod runt strömavbrottstillfället är helt åtgärdade och vi kommer inte sätta upp några fler planerade åtgärder. Vi kommer självklart hålla ett extra öga på systemen.

Vi ber om överseende med de problem detta kan ha åsamkat er. Tack för er förståelse. Skulle du mot förmodan ha några som helst problem så finns vår support som alltid redo att hjälpa dig.