Incidentrapport

Özgür Bal Molnet Leave a Comment

Bakgrund

I veckan har ungefär 1000 servrar i City Cloud påverkats av ett problem i en av våra storage noder. De här problemen är inte kopplade till de problem som uppstod med vårt Gluster system förra året. Vissa servrar fick sämre prestanda och vissa var nere under flera timmar.

Storage noden i fråga är en redundant NFS/ZFS lösning där vi i vissa fall har använt en form av deduplicering för bättre effektivitet i hur lagringsutrymmet används. Vi märkte av en prestanda-försämring redan i tisdags vilket kulminerade i en ännu värre försämring igår (torsdag) då många VM inte hade tillräckligt med IO-prestanda för att fungera. Deduplicerings-systemet använder en hel del minne och om det inte finns tillräckligt med minne så börjar den använda diskutrymme som helt enkelt inte är tillräckligt snabbt. Den här händelsen påverkade hårrddiskprestandan som i sin tur påverkade eller helt tog ned virtuella maskiner.

Vad händer nu?

Vi har haft extremt bra stabilitet på den här typen av storage noder under de senaste 5 åren. De erbjuder bra prestanda till ett bra pris och med bra kvalitet, något som direkt slår igenom för våra kunder. Vi kommer nu att ta bort alla typer av dedupliceringar som vi hittills har använt för att inte riskera ett liknande scenario igen. För att kunna säkerställa det kommer vi behöva flytta en hel del servrar bort från storage noden i fråga till en ny nod utan deduplicering.

Vi räknar med att vara klara med arbetet under februari och under tiden som vi genomför flytten kommer individuella VM drabbas av 10-15 minuters nedtid. Allt underhåll av denna typen kommer att göras nattetid.

Vi ber om ursäkt för de problem som kan ha uppstått i samband me  detta. Vi kommer att göra vårt yttersta för att det inte ska inträffa igen.

Tack för att du använder City Cloud.