Öppet brev till dig som påverkades av förra veckans nedtid

Özgür Bal Uncategorized Leave a Comment

Under förra veckan drabbades City Cloud av störningar vilket drabbade ungefär 10% av våra kunder på olika sätt. I det här öppna brevet vill vi ge er full insyn i vad som hände och hur vi kommer arbeta framöver för att få fram en permanent lösning på de problem som uppstod.

City Cloud är uppbyggt av en stor mängd bladservrar, som kör de virtuella maskinerna, samt stora lagringssystem. Flera lagringssystem är inblandade i lösningen och det system som vi haft problem med sedan förra veckan (även juni i år) är ett Gluster lagringssystem. Vi identifierade ett antal buggar i systemet redan i början av sommaren. Buggar som var relaterade till hur Gluster hanterar stora filer under vissa omständligheter. Vi såg att dessa buggar kunde påverka driften och stabiliteten hos vissa av de virtuella maskiner som körs i City Cloud. De flesta buggarna fixades under en uppdatering som vi genomförde den 21:a juni.

Förra veckan uppdagades ytterligare problem där flera problem drabbade vårt system och i vissa fall dig som kund. Gluster systemet omfattar flera noder, vilket i korthet är stora servrar innehållande stora mängder hårddiskar. Dessa noder jobbar i par för att säkerställa att all data alltid finns på två ställen så att nedtid på enstaka servrar, eller en fullständig systemkrasch, aldrig påverkar den lagrade datan. När en sådan nod av någon anledning går ned körs en process igång som kallas “Self Heal”. Processen säkerställer att datan mellan noderna är synkroniserad.

Förra veckans problem började med att en Glusternod gick ned och behövde startas om. Ett sådant scenario i sig är inga som helst problem då den andra noden i paret fortsätter att tillhandahålla data, det var precis vad som hände förra veckan. När den felande noden startats om initierades Self Heal för att sykronisera data med den “friska” noden i paret. Under Self heal processen påverkades vissa virtuella maskiner genom försämrad prestanda och i vissa fall även nedtid. När Self heal processen var klar upphörde även störningarna för de virtuella maskiner som använde de påverkade noderna. Problemet som uppstår här har identifierats och är relaterat till hur Gluster gör Self heal processen. Under de följande dagarna inträffade samma scenario ytterligare två gånger på olika noder. Varje gång Self heal processen kördes påverkades prestandan hos de virtuella maskiner som använde de drabbade noderna. Problemet är identifierat och relaterat till hur Gluster hanterar mycket stora filer.

När en nod gick ned på torsdagen lät vi den vara nere ett par timmar. Detta för att låta oss och Gluster undersöka källan till problemet. Under dessa timmar gick också den andra noden i paret ned vilket gjorde att delar av den data som de aktuella virtuella maskinerna använde sig av inte kunde nås. Ett begränsat antal av de virtuella servrarna förlorade åtkomst till sin lagringsdisk och gick givetvis ned i samband med det. Den sistnämnda noden startades upp bara minuter efter att den gått ned men alla virtuella maskiner startade inte automatiskt och krävde manuell uppstart. Några få virtuella maskiner krävde vår assistans för att komma igång.

I dagsläget har vi flyttat en del virtuella maskiner till våra andra lagringssystem (icke Gluster) och vi väntar i nuläget på en uppdatering från Gluster som ska fixa de problem som gav upphov till förra veckans nedtid. Vi kommer inom kort återkomma med datum och tidpunkter för de underhållsarbeten som vi kommer att utföra på Gluster mjukvaran. Vi är i daglig kontakt med Gluster och har fullt förtroende för att de kommer adressera alla problem.

Mer information kommer via e-post och även här i vår blogg. Tack för ditt tålamod om du var en av de som drabbades av förra veckans City Cloud problem.

/Johan Christenson, CEO City Network