Sulje

Häiriötilanteiden Atlassian-käsikirja

Yleiskatsaus

Teknisiä palveluita hoitavilta tiimeiltä odotetaan nykyään ympärivuorokautista käytettävyyttä joka päivä.

Jos jotakin menee pieleen, oli kyseessä käyttökatkos tai toimimaton ominaisuus, tiimin jäsenten on reagoitava välittömästi ja palautettava palvelu käyttöön. Tätä prosessia kutsutaan häiriötilanteiden hallinnaksi, ja se on jatkuva ja monitahoinen haaste sekä suurille että pienille yrityksille.

We want to help teams everywhere improve their incident management. Inspired by teams like Google, we've created this handbook as a summary of Atlassian's incident management process. These are the lessons we've learned responding to incidents for more than a decade. While it’s based on our unique experiences, we hope it can be adapted to suit the needs of your own team.

Caution alert exclamation point

Häiriötilanteeseen reagointi

Reagointiprosessi ja vaiheet, jotka on suoritettava häiriötilanteen havaitsemisen jälkeen.

Illustration of different kinds of charts

Häiriötilanteiden jälkiselvittelyt

Näin tehdään syyttelemätön jälkiselvittely, tunnistetaan taustalla olevat syyt ja suunnitellaan korjaavat toimenpiteet.

Illustration of book with lightbulb above it

Yleiskatsaus häiriötilanteiden käsikirjasta

Kenelle tämä opas on tarkoitettu?

Jos kuulut kehitys- tai käyttötiimiin, joka hoitaa internetpalveluita ympärivuorokautista käytettävyyttä vaativille asiakkaille, tämä käsikirja on juuri sinulle.

Mikä on häiriötilanne?

Määritelmämme mukaan häiriötilanne on tapahtuma, joka aiheuttaa häiriötä palveluun tai palvelun laadun heikkenemistä ja johon on reagoitava kiireellisesti. Tiimit, jotka noudattavat ITIL- tai ITSM-käytäntöjä, voivat käyttää tämän sijaan termiä laajavaikutteinen häiriö.

Häiriötilanne on ratkaistu, kun kyseessä olevan palvelun toiminta jatkuu normaalisti. Tämä koskee vain niitä tehtäviä, joita vaaditaan täyden toimivuuden palauttamiseksi. 

Häiriötilanteen jälkiselvittely tehdään häiriötilanteen jälkeen taustalla olevan syyn selvittämiseksi ja sellaisten toimien määräämiseksi, joilla varmistetaan syyhyn puuttuminen ennen kuin se voi aiheuttaa uusia häiriötilanteita.

Häiriötilanteita koskevat arvomme

Häiriötilanteiden hallintaprosessilla ei voida kattaa kaikkia mahdollisia tilanteita, joten annamme tiimeillemme valtuudet toimia yleisten, arvojen muodossa annettujen ohjeiden mukaan. Atlassianin yritysarvojen tapaan häiriötilanteita koskevat arvomme on suunniteltu seuraavia tavoitteita varten:

  • Ihmisten ja tiimien ohjaaminen itsenäiseen päätöksentekoon häiriötilanteiden ja jälkiselvittelyiden yhteydessä. 

  • Yhdenmukaisten käytäntöjen luominen tiimien välille häiriötilanteiden tunnistamisen ja hallinnan sekä niistä oppimisen suhteen.

  • Tiimien koordinointi sen suhteen, miten niiden tulisi reagoida kuhunkin häiriötilanteiden tunnistamisen, ratkaisun ja käsittelyn vaiheeseen.

Vaihe Häiriötilanteita koskeva arvo Asiaan liittyvä Atlassianin arvo Perustelut
1. Havaitse Atlassian tietää asiasta ennen asiakkaitamme

Build with Heart and Balance

Tasapainoinen palvelu sisältää riittävästi seurantaa ja hälytyksiä häiriötilanteiden havaitsemiseksi ennen asiakkaitamme. 

Ihanteellinen seuranta hälyttää ongelmista ennen kuin niistä edes tulee häiriötilanteita.

2. Reagoi Laajenna asteittain 

Toimi tiiminä

Nobody likes being woken up and we don’t take the responsibility lightly. But people understand that occasionally they will be woken for an incident where it turns out they aren't needed. What’s usually harder is waking up to a major incident and playing catch up when you should have been alerted earlier.

Kaikkia vastauksia ei saa valmiina, joten laajenna reagointitoimia rohkeasti.

3. Korjaa Ikäviä asioita tapahtuu, hoida ne nopeasti pois päiväjärjestyksestä Älä jätä asiakasta pulaan

Asiakkaamme eivät välitä, miksi palvelut eivät toimi, kunhan palautamme ne toimintaan mahdollisimman nopeasti.

Älä ikinä hidastele häiriötilanteen ratkaisussa, niin voimme minimoida asiakkaillemme aiheutuvat vaikutukset. 

4. Opettele Ei syyttelyä Open Company, No Bullshit Häiriötilanteet ovat osa palveluiden tarjoamista. Parannamme palveluita antamalla tiimeille vastuuta, emme etsimällä syyllisiä.
5. Paranna Älä anna saman häiriötilanteen tapahtua uudelleen Be the change you seek

Tunnista taustalla oleva syy ja muutokset, joilla ehkäistään kokonaisen häiriötilanteiden luokan esiintyminen uudelleen.

Sitoudu toteuttamaan tietyt muutokset määrättyihin päivämääriin mennessä.

 

Työkaluvaatimukset

Kuvatussa häiriötilanteiden hallintaprosessissa käytetään useita työkaluja, jotka ovat ominaisia Atlassianille ja jotka voidaan tarvittaessa korvata toisilla:

  • Häiriötilanteiden seuranta - jokaista häiriötilannetta seurataan Jira-tehtävänä, ja jälkiselvittelyiden loppuun saattamisen seuraamiseksi luodaan jatkotehtävä (Atlassian käytti Jira Softwaren vahvasti mukautettua versiota ennen kuin Jira Ops julkaistiin).

  • Chathuone - reaaliaikainen, tekstipohjainen viestintäkanava on olennainen häiriötilanteen diagnosoimiseksi ja ratkaisemiseksi tiiminä.

  • Videochat - monissa häiriötilanteissa tiimin videochat, kuten Blue Jeans, voi helpottaa keskustelua ja lähestymistavoista sopimista.

  • Hälytysjärjestelmä - työkalu, kuten OpsGenie, hallitsee päivystyskiertoja ja laajennuksia.

  • Dokumentointityökalu - käytämme Confluencea häiriötilanteen tilaa koskeviin asiakirjoihin ja jälkiselvittelyiden jakamiseen blogien kautta.

  • Statuspage - tilaa koskeva viestintä sekä sisäisten sidosryhmien että asiakkaiden kanssa Statuspagen kautta pitää kaikki ajan tasalla.

Häiriötilanteiden seuranta

Jokaista häiriötilannetta seurataan Jira-tehtävänä, ja jälkiselvittelyiden loppuun saattamisen seuraamiseksi luodaan jatkotehtävä. Tässä käsikirjassa kuvatussa prosessissa viitataan Jira Softwaren vahvasti mukautettuun versioon, joka toimi innoittajana Jira Opsin luomiselle. Sellaisenaan prosessi ei tarkalleen vastaa Jira Opsissa nykyisin saatavilla olevia toimintoja.

Häiriötilannetehtäviä laativat tyypillisesti tekniset tukihenkilöt vastauksena asiakkaiden tukipyyntöihin tai kehittäjät, jotka tunnistavat seurantahälytyksen häiriötilanteeksi. Kehotamme ihmisiä luomaan tehtävän, jos he ovat huolissaan jostakin, eikä odottamaan ennen toimien laajentamista.

Jiran myötä käytettävissämme on yksinkertainen työnkulku, jolla seurataan häiriötilanteita ratkaisuvaiheen läpi ja tallennetaan kaikki häiriötilanteeseen reagoinnin aikana toteutetut tärkeät toimet.

Häiriötilannevastaava

Kaikkia häiriötilanteita johtaa häiriötilannevastaava, jolla on häiriötilannetta koskeva kokonaisvastuu ja päätösvalta. Kyseisen henkilön nimeää häiriötilannetehtävän toimeksisaaja. Häiriötilannevastaavalla on valtuudet ryhtyä mihin tahansa toimiin, jotka ovat tarpeen häiriötilanteen ratkaisemiseksi. Niitä ovat esim. organisaation jäsenten hälyttäminen sekä häiriötilanteeseen osallisten henkilöiden varaaminen palvelun palauttamiseen mahdollisimman nopeasti. 

Häiriötilannevastaavalla tarkoitetaan häiriötilanteen yhteydessä roolia eikä niinkään yksittäistä henkilöä. Roolien määrittämisestä häiriötilanteen aikana on se etu, että yksittäiset henkilöt eivät ole korvaamattomia. Kunhan henkilö tietää, miten tietty rooli suoritetaan, hän voi omaksua kyseisen roolin minkä tahansa häiriötilanteen yhteydessä.

Onko sinulla ideoita tai ehdotuksia tätä opasta varten?

Hienoa! Voit lähettää palautetta osoitteeseen incident-handbook@atlassian.com ja kertoa meille mielipiteesi.

Caution alert exclamation point

Häiriötilanteeseen reagointi

Reagointiprosessi ja vaiheet, jotka on suoritettava häiriötilanteen havaitsemisen jälkeen.

Illustration of different kinds of charts

Häiriötilanteiden jälkiselvittelyt

Näin tehdään syyttelemätön jälkiselvittely, tunnistetaan taustalla olevat syyt ja suunnitellaan korjaavat toimenpiteet.

Etsitkö työkalua, joka helpottaa häiriötilanteiden hallintaprosessin toteuttamista?