Op 20 oktober stopte een groot deel van het internet simpelweg. Grote e-commercesites gingen uit de lucht. Bankapps liepen vast. Streamingdiensten gebufferd in de vergetelheid. Voor miljoenen zelfs Bel de deurbellen gestopt met werken. Maar zoals wij gemeld bij Dataconomy hadden deze sites niet individueel gefaald. Het waren dominostenen. Het probleem was de onzichtbare basis waarop ze allemaal stonden: Amazon Web Services (AWS). Maar weinig mensen begrijpen de ware aard van deze gebeurtenissen. Deze storing was een kritische case study van de diepgaande (en precaire) afhankelijkheid van de moderne economie van een handvol ‘hyperscale’ cloudproviders. Het onthult een systeemrisico dat verborgen is in de ‘cloud’, een coole term voor het handjevol enorme, gecentraliseerde bedrijven die nu de wereld besturen. Laten we die storing deconstrueren om drie kernthema’s te onderzoeken: de miljarden-dollar-wiskunde van digitale downtime, het systeemrisico van een ’too big to fail’-internet, en de strategieën die veerkrachtige bedrijven scheiden van de kwetsbaren.
1. De nieuwe wiskunde van downtime
De kosten van een storing zijn op het eerste gezicht het meest voor de hand liggend: omzetverlies. Maar dat is slechts het topje van een enorme economische ijsberg. De werkelijke kosten zijn ontzagwekkend. Voor bijna de helft van alle grote ondernemingen (48%) kost één uur IT-downtime meer dan genoeg $ 1 miljoen. Voor 93% is het voorbij $ 300.000. Dit is niet alleen een probleem in de technologiesector; het is een fysieke. Voor een moderne autofabrikant kan één uur stil aan de productielijn, terwijl de complexe logistiek bevroren is in de cloud, veel geld kosten $ 2,3 miljoen. Maar de echte schade ligt onder de oppervlakte. Het is de verloren productiviteit van een volledig personeelsbestand dat niets doet. Het zijn de herstelkosten van meerdere miljoenen dollars die gepaard gaan met het omleiden van hoogbetaalde ingenieurs van innovatie naar ‘brandbestrijding’. En het is de meest verraderlijke kostenpost: de erosie van vertrouwen. Uit een onderzoek bleek dat 40% van de bedrijven deze downtime rapporteerde hun merkreputatie beschadigd– een wond die elke technische oplossing overleeft. Wanneer u uitzoomt, wordt het beeld nog duidelijker. Ongeplande downtime is een mondiale economische belemmering. Het kost een schatting $1,4 biljoen per jaar van de 500 grootste bedrijven ter wereld – een stille belasting die gelijk staat aan 11% van hun totale inkomsten.
2. De ‘too big to fail’-infrastructuur
Waarom wordt door de struikelblokken van één bedrijf een derde van het internet platgelegd? Omdat het internet, ondanks de vroege belofte van decentralisatie, nu wordt beheerd door een handvol ‘hyperscalers’. Zij zijn de nieuwe verhuurders van het internet. De publieke cloudmarkt is een functioneel oligopolie. Slechts drie bedrijven – Amazon (AWS), Microsoft (Azure) en Google (GCP) – controleren een duizelingwekkende 68% van de gehele wereldmarkt. Amazon is de onbetwiste leider, met een 30-32% marktaandeeldie groter is dan de volgende paar concurrenten samen. Wanneer één enkele aanbieder de mondiale financiën, gezondheidszorg en media ondersteunt, wordt het een systeemrisiconet zoals het elektriciteitsnet of het mondiale banksysteem. We hebben een single point of faillment voor de digitale economie gecreëerd. Zoals experts waarschuwden De Bewaker na een soortgelijke gebeurtenis verlaat deze afhankelijkheid internetgebruikers “‘overgeleverd’ aan te weinig aanbieders.”
3. Anatomie van een storing: wat recht gaat het mis?
Hoewel het verleidelijk is om je een schimmige kliek van hackers voor te stellen, wordt de overgrote meerderheid van de grootschalige storingen door jezelf veroorzaakt. Het zijn geen externe aanvallen, maar interne, opeenvolgende mislukkingen. De voornaamste boosdoener is deprimerend eenvoudig: menselijke fouten. Uit onderzoek van het Uptime Institute blijkt dat dit ongeveer is 40% van de grote storingen wordt veroorzaakt door mensen. Een klassieke case study is de beruchte Facebook-storing in 2021. De zes uur durende wereldwijde black-out ter waarde van $79 miljoen was geen cyberaanval. Het werd veroorzaakt door een ingenieur verkeerde configuratie tijdens een routinematige update van zijn BGP-routers, de digitale ‘routekaart’ van internet. Grootschalige clouds zijn opgebouwd uit ‘kernservices’: fundamentele tools voor opslag, databases en netwerken waar alle andere services van afhankelijk zijn. Deze recente AWS-storing was bijvoorbeeld naar verluidt terug te voeren op een DNS-probleem met DynamoDBeen kritische databaseservice. Toen dit ene ‘kernblok’ wankelde, veroorzaakte het een kettingreactie, waardoor talloze diensten die ervan afhankelijk waren, omver vielen.
Architecten voor een wereld die faalt
De eerste mentale verschuiving voor elk modern bedrijf is het stoppen met het plannen van 100% uptime. Het bestaat niet. Het doel is om dat niet te doen voorkomen falen, maar overleven Het. Dit is de nieuwe wetenschap van ‘veerkracht’ en kent drie hoofdlagen:
- Niveau 1 – Zone met meerdere beschikbaarheid: Dit is de standaard. Het betekent dat u uw bronnen verspreidt over meerdere datacenters binnen dezelfde stad of regio. Het beschermt u tegen een lokale ramp, zoals een datacenterbrand. Maar zoals deze storing heeft bewezen, beschermt deze u niet tegen een regionale servicestoring, waardoor alle “beschikbaarheidszones” in die regio in één keer worden uitgeschakeld.
- Niveau 2 – Meerdere regio’s: Dit is wat de storing ons heeft geleerd dat nu nodig is. Het betekent dat u een redundante, actieve kopie van uw applicatie uitvoert in een compleet andere geografische regio (bijvoorbeeld één in de VS, één in Europa). Als de hele regio VS-Oost uitvalt, wordt het verkeer automatisch doorgestuurd naar de gezonde regio in de EU. De wisselwerking is uiteraard hogere kosten en een aanzienlijke technische complexiteit bij het gesynchroniseerd houden van gegevens over de continenten heen.
- Niveau 3 – Multicloud: Dit is de ‘nucleaire optie’ voor veerkracht: het gebruik van twee of meer verschillende, concurrerende cloudproviders (bijvoorbeeld AWS en Google Cloud). Het is de enige echte verdediging tegen een mislukking van de hele provider of het systeemrisico van het ‘oligopolie’-probleem. Het is fantastisch complex, maar het is de richting die veel bedrijven op wereldschaal nu moeten overwegen.
Tijdens een storing moet een bedrijf twee branden blussen: de technische storing en het informatievacuüm. Als je er niet in slaagt de tweede te beheren, wordt het vertrouwen sneller vernietigd dan de eerste. We hebben allemaal de nutteloze, vage statuspagina’s gezien: “We onderzoeken een probleem.” Dit vacuüm wordt onmiddellijk opgevuld door de woede van klanten op sociale media. Het beste draaiboek voor incidentcommunicatie gaat over radicale transparantie. De eerste prioriteit, volgens leiders op het gebied van incidentrespons Atlassischis een “enige bron van waarheid”—een openbare statuspagina die proactief wordt bijgewerkt. De sleutel is om op regelmatige, voorspelbare tijdstippen te communiceren. Als PagerDuty adviseert dat updates elke 30-60 minuten moeten komen, zelfs als de update “geen nieuwe informatie is, werken we nog steeds.” Dit geeft een paniekerig klantenbestand het signaal dat de situatie onder controle is. Nadat de brand is gedoofd, is de meest kritische stap het “onberispelijke post-mortem.” Dit is een openbaar, gedetailleerd rapport waarin precies wordt uitgelegd wat er mis is gegaan, hoe het is opgelost en welke stappen worden ondernomen om dit te garanderen gebeurt nooit meer. Deze daad van transparantie is de meest effectieve manier om het vertrouwen te herstellen.
De recente AWS-storing was geen anomalie. Het was een voorspelbare stresstest van onze hypergeconcentreerde digitale wereld.
De kosten worden niet in duizenden uitgedrukt, maar in biljoenen. De risico’s zijn niet alleen technisch, maar ook systemisch. De oorzaken zijn geen schimmige hackers, maar interne, trapsgewijze mislukkingen vaak menselijk.





