L’errore costato $150 milioni ad Amazon è un campanello di allarme per il cloud

Un comando errato ha inavvertitamente abbattuto una grossa porzione della rete, ma ha contribuito a confermare la necessità di realizzare servizi Web centralizzati più robusti.

di Jamie Condliffe

Se avete intenzione di trasferire tutti i vostri dati sul cloud, di certo vorrete che sia un cloud ben costruito. La scorsa settimana Amazon – il più grande fornitore di servizi cloud – ha dimostrato che un sistema cloud robusto deve ancora essere realizzato.

Martedì, grosse porzioni di Internet hanno semplicemente smesso di funzionare. Slack, Trello e persino l’edizione americana di MIT Technology Review sono crollati. Persino alcuni hardware per le case intelligenti hanno smesso di funzionare.

A causare questa serie di anomalie è stato il collasso del sistema cloud S3 di Amazon. La società è la più grande fornitrice di servizi cloud, e svariate società che dipendono da essi sono stati coinvolti di conseguenza. Non si è trattato di un problema semplice da risolvere. Le operazioni di ripristino hanno richiesto più di quattro ore.

È difficile quantificare esattamente il costo reale di una interruzione di servizio ma, stando al Wall Street Journal, la società di analisi Cyence avrebbe stimato perdite per almeno $150 mili0ni da parte di 500 società S&P. Apica, una società di monitoraggio del traffico Internet, ha segnalato un calo di prestazioni di almeno il 20 percento per 54 su 100 dei principali rivenditori online. Non ci sono dubbi sul fatto che questa interruzione sia costata cara.

Gli effetti di questo inconveniente non fanno che aggravare ulteriormente le già imbarazzanti ragioni per cui si è verificato. In una nota descrittiva dell’accaduto, Amazon ha ammesso che la radice del problema è stata trovata in un comando eseguito erroneamente da un membro dello staff presso la struttura nella Virginia del Nord durante un’operazione di ordinaria manutenzione. Sfortunatamente, un banale errore umano ha scatenato una catastrofica serie di eventi.

L’operatore avrebbe dovuto escludere solamente un ridotto numero di server, ma ha commesso un errore e disconnesso più server del previsto – inclusi due che venivano utilizzati per gestire i processi fondamentali dell’intero sistema. L’errore ha fondamentalmente annullato le capacità della struttura di gestire le richieste dei suoi utenti.

Amazon gestisce molteplici “aree cloud” in tutto il mondo, e i clienti dei suoi servizi sono in grado di conservare files e adoperare codici su più di uno alla volta. Il processo è però caro e, come precisato da Register, persino le società che operano su molteplici aree geografiche hanno riscontrato un disservizio, dovuto probabilmente a problemi di capacità dei sistemi rimasti in funzione.

Appena quattro giorni prima l’incidente, avevamo descritto i rischi inerenti la centralizzazione dei servizi Web e speculato sul possibile impatto che un disservizio dell’intera rete Amazon avrebbe potuto avere. Al tempo, avevamo avvertito che “i rischi erano elevati”, dato che “sicurezza, affidabilità, e competenza sono di vitale importanza – e probabilmente sottorappresentate – per le società che offrono servizi Web centralizzati.

Amazon sembra condividere la nostra stessa opinione a riguardo. Ha già allestito una serie di misure di sicurezza atte a impedire che un errore umano possa abbattere così tanti server con tanta facilità. Siamo solo all’inizio, però. È ormai chiaro che i servizi cloud necessitano di garanzie di sicurezza. Amazon, ad esempio, non avrebbe dovuto essere in grado di ritrovarsi in una situazione del genere – la struttura della Virginia del Nord poteva essere suddivisa in sottosistemi separati e in grado di operare indipendentemente.

Anche con una suddivisione delle operazioni, i servizi Web centralizzati potrebbero rimanere vulnerabili. Se un hacker dovesse attuare un attacco mirato a un singolo provider – utilizzando, ad esempio, un botnet, potrebbe comunque provocare il collasso di una grossa porzione della rete; se non altro, non si tratterebbe di un errore di battitura da parte di un tecnico.

(MO)

Related Posts
Total
0
Share