Amazon EC2 går ner och tar stora sajter med dem – kan man lita på molnet och cloud computing? Vad gör man nu?

johan Molnet Leave a Comment

Quora is still recovering from AWS outage

Runt klockan 10 på morgonen svensk tid onsdagen den 21:a april så började problemen för Amazons AWS-tjänst. Det började med prestandaproblem men övergick sedan i ren nertid för några av de största webbplatserna på nätet. Det inkluderade Reddit, Quora, Foursquare och Hootsuite för att nämna några. Vi på City Network använder tex Co-Tweet och även de var nere i mer än 24 timmar. Quora har idag, tre dagar senare, fortfarande problem och försöker få tillbaka all data som du kan se på bilden här till höger.

Visst – du kunde ha designat dina system och tjänst att distribueras över flera regioner i AWS. Dvs över flera datacenters vilket skapar än bättre redundans. Detta skapar dock mycket mer komplexitet och kostnader samt kan vara svårt då man måste ut på det publika Internet och det finns latency problem som måste lösas. De som har följt Amazons “best practice” guide där man designar sina applikationer att distribueras över två eller flera så kallade “availability zones” gick, trots löften om full redundans, helt eller delvis ner. AWS availability zones skall ha designats på så sätt att det inte finns några kopplingar mellan dem som kan orsaka driftstopp i båda eller alla zonerna samtidigt. Det som nu skedde i Amazons region i östra USA (där absolut flest kunder finns då det fungerar bra för USA men är även närmare Europa) var att flera zoner gick ner samtidigt. Ingen vet egentligen hur Amazon har byggt sina system exakt utan kan bara läsa sig till att det inte skall finnas “single points of failure” mellan zoner. Uppbenbarligen är det inte så och det lär leda till vidare diskussioner om tilliten till Amazon men även molnet generellt.

Två dagar efter problemen började kunde man läsa detta på Reddits webbplats (översatt till svenska):

“Reddit är i “katastrofläge” just nu då Amazon upplever försämringar i sin tjänst. De jobbar på det men vi väntar fortfarande på dem att låta oss komma åt våra diskar. Det finns ingen bedöming eller tidsestimat om när vi kommer få tillgång till dem men vi försöker, med magi, få vår webbplats tillaka sakta men säkert. Vi återkommer.”

Med en region och flera availability zoner påverkade i världens ledande cloud computingtjänst – vad ska man göra? Amazon har trots allt både spenderat mest tid och pengar på att bygga en riktigt bra och redundant tjänst. Uppenbarligen behöver du än mer för att ha riktigt bra redundans.

Det är här en lösning som Cloud Foundry, WMwares nya initiativ, är extremt intressant. För att nå bättre redundans måste du skala och distribuera din data inte bara över availability zones – utan även över regioner som minimum. Men för att få den ultimata redundansen räcker inte ens det. Då måste du distribuera över regioner och även över olika leverantörer. Det är detta Cloud Foundry löser på ett enklare sätt. Ungefär som du byter en databas med en sträng text kan du i en rätt konfigurerad Cloud Foundry lösning byta leverantör eller lägga till flera. Att tex ha Amazon i USA och City Cloud i Sverige – det ger dig enorm redundans via olika nätverk, leverantörer och det görs med relativ enkelhet. Du kan sedan skala där det är mest kostnadseffektivt.

Vi jobbar hårt på att se till att alla våra kunder får chansen att så snart som möjligt få tillgång till en Cloud Foundry image för att börja förstå möjligheterna som denna typ av PaaS-tjänst ger dig.

Det finns inget tvivel på att cloud computing (och molnet generellt) är här för att stanna. Vi snackar tjänster som är lika bra eller bättre redundansmässigt än in-houselösningar. Javisst finns det enorma finansiella fördelar med cloud computing men det är faktsikt inte det största. Cloud computing ger en dramatisk ökad innovation tack vare sin flexibilitet och det är större än de kostnadsbesparingar man också får. Det är uppenbart att Amazons nertid under de senaste dagarna ger alla något att tänka på. Det blir uppenbart att det krävs än mer för 100% redundans där man måste kunna skala mellan leverantörer och data centers i olika regioner. Med City Cloud strävar vi efter att ge denna typ av redundans med flera regioner men också med de PaaS-tjänster som gör det möjligt till en realistisk kostnad. Varje leverantör måste varje dag bevisa varför man skall få behålla en kund. I det öppna molnet kan man lätt flytta mellan leverantörer vilket skapar de rätta förutsättningarna tekniskt och redundansmässigt men även affärsmässigt för våra kunder. City Cloud leder denna utveckling i Sverige och håll koll på bloggen här då nyheter kommer löpande för att skapa ett öppnare moln för dig som kund.

Den andra viktiga faktorn i sådana här lägen är kommunikationen. Vi anser att Svenska företag har en enorm fördel av att jobba med Svenska företag – mycket för just kommunikationen. Visst finns det andra anledningar som bättre latency och svenska lagar som gäller men i mångt och mycket är det kommunikationen som är en drivande faktor. Många av oss Svenskar känner att det är svårt att få en dialog med företag som Google och Amazon. När det sedan verkligen gäller – vad gör du då? Vi har hört historier över hela Sverige (som är roliga efterå) om problemen med kommunikationen när något har gått ner hos Amazon eller tex Google. Vem ringer vi? Kan vi prata svenska? Förstår vi vad de säger? Är du svenskt företag som har haft mycket nertid de senaste dagarna – hör av dig. Vi skulle gärna vilja diskutera problemen och hur vi som svenskt företag kan ge dig en bättre lösning på alla plan – inte minst kommunikationsmässigt.

Det är faktiskt inte bara Amazon som haft stora problem denna veckan. Sony har haft många tillfällen med nertid de senaste månaderna i sin speltjänst PSN. Denna veckan snackar vi inte timmar utan dagar som alla Playstation fans inte kan komma åt sina onlinetjänster. Allt detta visar på att det finns mer vi kan göra för att skapa äkta redundans som kan skapa en realistisk 100% upptid.

Följ gärna status för Amazons tjänster här i deras så kallade “Service Health Dashboard”. Då vi postar detta idag lördag den 23:e april så har Amazon tyvärr fortfarande problem men många kunder har rapporterat att de är delvis uppe eller på väg upp.

Om du är intresserad av att läsa mer titta gärna på några av dessa länkarna:

Mashable: Amazon Server Troubles Take Down Reddit, Foursquare & HootSuite

Mashable: What We Can Learn From Amazon’s Cloud Collapse

Tech Crunch: Amazon EC2 goes down, taking with it Reddit, Foursquare and Quora