GettyImages 996136440 a90e500267854f1e9ed9081d9bc3756e scaled

Tärkeimmät oppimispisteet

  • Facebookin tekniset ongelmat olivat valitettavia, mutta ongelma olisi luultavasti ratkennut paljon nopeammin, jos se ei olisi tukeutunut niin moniin toisiinsa yhdistettyihin järjestelmiin.
  • Järjestelmävirheitä ei voida täysin estää, mutta on olemassa tapoja vähentää niiden todennäköisyyttä.
  • Varasuunnitelmat sille, milloin (ei, jos, milloin) järjestelmä epäonnistuu, voivat tehdä eron «ärsyttävän» ja «katastrofisen» välillä.
Äskettäinen Facebook-kriisi osoittaa, kuinka toisiinsa yhdistetyt järjestelmät on tuomittu epäonnistumaan ja miksi meidän ei pitäisi käyttää niitä kaikkeen. Facebookin, WhatsAppin ja Instagramin menettäminen useiksi tunteiksi maanantaina oli epämiellyttävää, vahingollista yrityksille ja joissain tapauksissa lähes katastrofaalista. Facebookin mukaan kaikki johtui sen verkkoa koordinoivien reitittimien kokoonpanomuutoksista. Se on järkevä selitys, mutta se, että tällainen yksittäinen virhe voi kaataa Facebookin lisäksi myös Facebookin muut järjestelmät, on hieman hälyttävää. Väärä reitittimen asetusmuutos aiheutti sen, että useat palvelut ja jopa VR-kuulokkeet lakkasivat toimimasta kokonaan. Lisäksi, kuten Facebook itse myöntää, Facebookilla oli myös peräkkäinen vaikutus yrityksen datakeskusten kommunikointitapaan, jolloin kaikki niiden palvelut suljettiin. «Riittaaminen toisiinsa yhdistettyihin järjestelmiin sisältää luontaisen riskin järjestelmä- tai jopa palveluvioista», sanoi Francesco Altomare, GlobalDotsin vanhempi tekninen myyntiinsinööri Lifewiren sähköpostihaastattelussa. «Tämän pelottavan riskin torjumiseksi yritykset käyttävät SRE-periaatetta ( System Reliability Engineering) sekä muut työkalut, jotka kaikki käsittelevät järjestelmän infrastruktuurin jokaiseen kerrokseen sisäänrakennettua eritasoista redundanssia.»

Mikä voi mennä pieleen

On syytä huomata, että kun tällainen järjestelmä epäonnistuu, se vaatii yleensä täydellisen myrskyn, jossa asiat menevät pieleen. Se on vähemmän kuin korttitalo, joka odottaa putoamista, vaan enemmän kuin paljas lämpöpoistoportti pienen kuun kokoisella avaruusasemalla. Useimmat yritykset ryhtyvät toimenpiteisiin varmistaakseen, että se yksi asia, joka voi upottaa kaiken kaaokseen, ei koskaan tapahdu, mutta joka tapauksessa, se voi tapahtua. «Odottamattomat käyttökatkot ovat osa liiketoimintaa ja voivat johtua työntekijöiden huolimattomuudesta, Internet-palveluntarjoajien verkkovioista tai jopa pilvitallennuspalveluongelmista», sanoi Sally Stevens, FastPeopleSearchin toinen perustaja, sähköpostihaastattelussa. «…Niin kauan kuin tarvittavat toimenpiteet järjestelmän suojaamiseksi, kuten varmuuskopiot, paikan päällä oleva reititin ja kerroskäyttö ovat käytössä, nämä viat ovat melko epätodennäköisiä.» Vaikka jopa lukuisten vikasuojainten armeijalla, kara voi silti epäonnistua. Jos esimerkiksi ensisijaisia ​​kosketusmuotoja, laitteita, ovia jne. ohjaava järjestelmä epäonnistuu, tulokset voivat olla merkittäviä. Lievästä epämukavuudesta täysin katastrofaaliseen riippuen siitä, kuinka paljon yksilöt ja yritykset luottavat siihen.

«On myös olemassa riski, että hakkerit pääsevät järjestelmään yhdeltä vähiten suojatuista laitteista, kuten jääkaapeista ja leivänpaahtimista», Stevens lisäsi, «mikä voi johtaa tietovarkauksiin ja kiristysohjelmiin.»

Kuinka voimme valmistautua

Ei voida taata, että järjestelmä ei koskaan epäonnistu, mutta on olemassa toimenpiteitä, joilla voidaan vähentää epäonnistumisen todennäköisyyttä tai tasoittaa vikoja. Näiden kahden lähestymistavan yhdistelmä, jossa yhdistyvät vikasuojat ja vastatoimenpiteet valmiussuunnitelmiin ja varajärjestelmiin, olisi ihanteellinen. «Näiden tehokkaasti käsiteltyjen kolmansien osapuolien tuotteiden ja palvelujen aiheuttamien vaarojen poistamiseksi kolmannen osapuolen riskienhallintaan liittyvät roolit ja tehtävät on kuvattava tarkasti», FindPeopleFastin perustaja ja teknologiajohtaja Daniela Sawyer sanoi lausunnossaan. . sähköpostihaastattelu: «Voit menestyä tässä uudessa ympäristössä, riskienhallinnan on ymmärrettävä tällaisen kehittyneen ekosysteemin olennaiset osat.» Facebookille, WhatsAppille ja Instagramille tapahtunut oli valitettavaa, mutta toivottavasti myös silmiä avaavaa. Yhdistetyistä järjestelmistä riippuvaisten ihmisten on ymmärrettävä, että oikea asia, joka menee pieleen, voi häiritä kaiken. Ja toimenpiteitä on ryhdyttävä (tai niitä on tutkittava ja jalostettava), jotta tällaisten häiriöiden todennäköisyys ja vaikutus vähenisi. Facebookin tapauksessa ongelmana ei ollut reitittimen ongelmat, vaan se, että melkein koko ekosysteemi oli yhteydessä kaikkeen muuhun. Joten kun Facebook (palvelu) oli lakannut, Facebookin (yrityksen) täytyi käyttää paljon enemmän aikaa ja energiaa ongelman järjestämiseen ja ratkaisemiseen. Jos se ei olisi käyttänyt niin juurtunutta, toisiinsa yhdistettyä järjestelmää tai sillä ei olisi ollut varasuunnitelmia tällaisen katkoksen korjaamiseksi, sen korjaaminen olisi todennäköisesti kestänyt paljon vähemmän aikaa.

Por Markus