Tietoa tehokkaasti hyödyntävät yhtiöt kasvavat kilpailijoitaan nopeammin sekä ovat näitä kannattavampia. Menestystä tavoittelevat yhtiöt huomaavat kuitenkin automaation laajentamisen ja tekoälyn soveltamisen kaatuvan kaikille tuttuun ilmiöön – heikkoon tiedon laatuun. Tällaisissa tilanteissa aloitetaan usein erilaisia projekteja tietoaineistojen laadun parantamiseksi, huoltokäytäntöjen kehittämiseksi sekä teknologisten työvälineiden hankkimiseksi. Tärkeintä on kuitenkin rakentaa laatu jo etukäteen organisaatioiden työkäytäntöihin ja teknisiin ohjelmistoihin, jotta tiedon laadulliset ongelmat ehkäistään jo ennen kuin ne ehtivät syntyäkään.
Tiedon laatu riippuu käyttötarkoituksesta
Akateemisessa tutkimuksessa ja käytännön ammattilaisten keskuudessa on vakiintunut määritelmä, että tieto on laadukasta kun ’tieto soveltuu käyttötarkoitukseensa’. Tällöin sama tieto voi olla riittävän laadukasta yhteen tarkoitukseen mutta liian huonoa toiseen tarkoitukseen. Toisaalta huonokin tieto voi riittää moniin yleisluontoisiin päätelmiin, vaikka sen avulla ei voisikaan automatisoida toimintoketjuja. Tiedon laatu riippuu siis aina asiayhteydestä ja käyttötarkoituksesta, eikä tiedon laadulle ole kyetty tähän päivään mennessä määrittelemään kaikenkattavia mittayksiköitä tai edes täysin yhtenäistä käsitteistöä.
Yksinkertaisimmillaan tiedon laatuongelmat ovat selkeästi virheitä, kuten esimerkiksi kirjoitusvirheitä tai ristiriitaisia väitteitä. Tällaisia selkeitä laatuvirheitä ovat esimerkiksi kuluttaja-asiakkailta puuttuvat yhteystiedot, vääriä merkkejä sisältävät työntekijöiden puhelinnumerot tai virheellisesti kirjatut tuoteparametrit.
Aina kyseessä ei ole kuitenkaan teknisestä ilmiasusta helposti tunnistettava virhe. Tiedot voivat usein näyttää päällepäin täsmällisiltä ja oikeilta, mutta hieman laajempi tietojen vertaileminen osoittaakin niiden olevan laajemmassa mittakaavassa ristiriitaisia ja väärin. Tällaisten haastavampien virheiden tunnistamiseksi tarvitaan usein monimutkaisempia tarkistussääntöjä sekä ylimääräistä metadataa kyseisen tiedon laatukontrolleista ja päivityskäytännöistä.
Kaikkien haasteellisimpia laatuongelmia ovat kuitenkin piilevät erot ja ristiriidat hyvin samankaltaisilta näyttävien tietojen välillä. Esimerkiksi viime vuosien pandemian aikana huomasimme eri maiden koronatilastojen poikkeavan huomattavasti toisistaan erilaisten testaamiskäytäntöjen vuoksi, vaikka lääketieteelliset testit, hoitoilmoitusten tietomallit ja jopa diagnoosikoodit oli kaikki standardoitu jopa kansainvälisesti. Tällaiset piilevät erot liittyvät usein tiedon käyttötarkoituksien semanttisiin vivahteisiin, organisaatioiden toiminnallisiin käytäntöihin tai inhimillisiin motiiveihin, joiden pelkkään tunnistamiseen tarvitaan liiketoiminnan tavoitteiden ja toimintaympäristön syvällistä ymmärrystä.
Tietojen virheitä valvotaan eri näkökulmista
Tietoteknisten ohjelmistojen kehittäjät ajattelevat tiedon laatua usein suppeasta teknisestä näkökulmasta. Tämä johtuu siitä, että heidän tavoitteensa on rakentaa luotettavasti toimiva ja käyttäjiä miellyttävä tietojärjestelmä, joka toimii sovittujen sääntöjen mukaisesti. Ohjelmistokehittäjien näkökulmasta laatuongelmat ovat usein heidän vastuullaan olevan ohjelmiston teknisiä ja loogisia virheitä, joita he voivat itse tunnistaa ja korjata omin voimin tiedon hyödyntäjien puolesta. Tiedon hyödyntämistä kehittävien substanssiasiantuntijoiden näkökulmasta tärkeiksi asioiksi nousevat myös edellä mainitut sisältöjen merkitykset ja niiden käyttöön liittyvät haastavammat piilevät ominaisuudet.
Kehittäjien näkökulmasta tiedon laatua valvotaan ohjelmistojen tietokantojen sisältöjä mittaamalla sekä vertaamalla niitä hyödyntäjien kanssa sovittuihin laatusääntöihin. Tällä tavalla on hyvä aloittaa valvomaan toiminnalle kriittisimpiä virheitä, jotka haittaavat merkittävästi loppukäyttäjien toimintaa tai lainmukaisuuden vaatimuksia. Tällaisia mitattavia asioita saattavat olla esimerkiksi potilaiden terveystietojen kattavuus, laitteiden huoltomerkintöjen täsmällisyys tai taloustietojen ristiriidattomuus. Toisaalta tämä lähestymistapa muodostuu hyvin nopeasti työlääksi ja kalliiksi, koska yksittäisiä sääntöjä keksitään, validoidaan ja toteutetaan tapauskohtaisesti toiminnan asiantuntijoiden ja teknisten kehittäjien toimesta.
Edellä mainitun vuoksi markkinoille on tullut viime aikoina uudenlaisia koneoppivia valvontajärjestelmiä (Data Observability-järjestelmät). Tällaiset järjestelmät liitetään valvomaan tietokantoja ja integrointialustoja, minkä jälkeen ne oppivat itsenäisesti kyseisten tietoaineistojen ominaisuuksia ja ehdottavat automaattisesti niihin liittyviä laatusääntöjä. Tällaisten itseoppivien valvontajärjestelmien avulla on helppo tunnistaa sisällön syntaksiin ja tiedonkäsittelyn koneiston toiminnallisuuteen liittyviä virheitä, joita syntyy ennalta arvaamattomasti eri puolilla monimutkaisia järjestelmäkokonaisuuksia. Tilastolliseen analytiikkaan perustuvat automatiikat eivät kuitenkaan tunnista semantiikkaan tai asiayhteyksiin liittyviä monimutkaisempia virheitä, joiden tunnistamiseen tarvitaan yhä inhimillisen asiantuntemuksen avulla luotuja monimutkaisempia tarkistussääntöjä.
Laatuongelmien ehkäiseminen edellyttää juurisyiden selvittämistä
Käytännön realiteetti on kuitenkin se, että tietojen laadullisiin haasteisiin havahdutaan usein vasta jälkikäteen päivittäisen toiminnan tai uuden kehittämisen yhteydessä. Esimerkiksi tiedon hyödyntäjät saattavat yhtäkkiä huomata taloustilastojen poikkeavan liikaa aiemmista vastaavan jakson totutuista luvuista. Tietojärjestelmien kehittäjät taas saattavat joutua toteamaan pitkään kehitetyn tekoälyn tekevän jatkuvasti liikaa vääriä päätelmiä. Tällaisten havaintojen jälkeen asianomaiset aloittavat etsimään mahdollisia syitä tunnistamilleen ongelmille.
Tämä on oleellista sen vuoksi, että samanlaisia tiedon laatuun liittyviä oireita voi aiheuttaa lukematon määrä erilaisia syitä. Esimerkiksi taloustietoja saattaa puuttua, koska työntekijät eivät ole kirjanneet kaikkia laskuja asianmukaisesti (inhimillisen toiminnan virhe) tai toisaalta tietoja keräävät ohjelmistoprosessit ovat voineet katketa teknisten virheiden vuoksi (tiedonkäsittelykoneiston virhe). Tällaisten juurisyiden tunnistaminen on oleellista, koska vain täsmälliset juurisyyt selvittämällä voidaan tunnistaa täsmälliset virhetyypit sekä suunnitella niiden korjaamiseksi tai ehkäisemiseksi tarvittavat toimenpiteet.
Tiedon laadunvalvonta ja järjestelmälliset huoltokäytännöt ovat tärkeitä ja oleellisia osia hyvin toimivaa organisaatiota. Niihin liittyy kuitenkin perustavanlaatuinen ongelma. Mikäli tiedon laadullinen virhe tunnistetaan vasta tietoaineistojen sisällöistä tai vaikkapa tietomallien rakenteista, niin tällöin ollaan jo auttamattomasti myöhässä. Tietosisältö olisi pitänyt luoda oikein jo syntyhetkellään ja sitä käsittelevän ohjelmistokoneiston tulisi toimia alun perinkin paremmin. Laatu olisi pitänyt rakentaa osaksi tiedon tuotantoprosessia jo ennen kuin itse tieto on syntynyt. Paradoksaalisesti parasta laadunhallintaa onkin sellainen, joka ei löydä yhtään virhettä koska se on ehkäissyt ne jo alun perinkin.
Tiedon laadunhallinnassa haasteellisimpia ovat systeemiongelmat
Menestyksekkäimmät tiedon hyödyntäjät eivät keskity ainoastaan yksittäisten käyttötapauksien tiedon laadun parantamiseen. He huomioivat myös systeemitason laajempia näkökulmia, kuten liiketoiminnan arvoketjuja, tietosisältöjen elinkaaria ja tiedon tuotantoprosessien päättelyketjuja. Näiden yhtä käyttötapausta laajempien näkökulmien huomioiminen on oleellista koska monet tiedon laadulliset virheet syntyvät itseasiassa aivan muualla kuin tietoa tuottavassa tai sitä hyödyntävässä yksikössä.
Monikäyttöisesti laadukas tieto tarkoittaa sitä, että tiedot virtaavat sujuvasti liiketoiminnan arvoketjuja pitkin esimerkiksi tuotesuunnittelusta rakentamiseen, markkinoinnista myyntitapahtumiin ja lopulta asiakastukipalveluihin ja viranomaisraportteihin asti. Tiedon pitää olla samanaikaisesti sekä ajantasaista että täsmällisesti historioituvaa esimerkiksi kehittyneen analytiikan, pätevien ennusteiden ja läpinäkyvän auditoinnin tarpeisiin. Laadukas tieto edellyttää myös sen tuotteistamista koko tuotantoprosessin lävitse tiedon alkulähteistä aina siitä muodostettuihin käyttötapauskohtaisiin tietotuotteisiin asti.
Haasteelliseksi nämä kolme systeeminäkökulmaa muodostuvat erityisesti silloin, kun ne hajautuvat lukuisiin eri järjestelmiin ja kun niiden eri vaiheita toteuttavat useat itsenäiset osapuolet osana laajempaa konsernia tai jopa liiketoiminnan ekosysteemiä. Tämän vuoksi edistyneimmät tahot keskittyvätkin tällä hetkellä kehittämään liiketoiminnan erillisten toimintojen ja kokonaisten toimialojen yhteisiä standardeja, jotta liiketoimintatiedon arvoketjut, jaettujen tietoaineistojen elinkaaret ja monimutkaiset tietotuotantoprosessit saataisiin toimimaan yksittäistä toimijaa laajempina ekosysteemien data-avaruuksina.
Laadun kestävä parantaminen vaatii visionääristä monialaisuutta
Tiedon laadunhallinnan asiantuntijan tavoitteena on auttaa muita luomaan heidän käyttötarkoituksiinsa soveltuvia tietopalveluja ja -tuotteita. Perinteisesti tiedon laadunhallintaa kehittävät asiantuntijat ovat keskittyneet luomaan teknisiä laadunhallintakoneistoja ja organisatorisia tietohuoltokäytäntöjä, jotka perustuvat aina jatkuvan parantamisen laatuympyrän neljään vaiheeseen: suunnittelu, toteutus, arviointi ja parantaminen. Haasteena on usein se, että tällöin huomio keskittyy liiaksi jo olemassa olevien tietojen valvontaan sekä reaktiiviseen ongelmien korjaamiseen. Kaikki kuitenkin tietävät, että tietosisältö olisi pitänyt luoda oikein jo syntyhetkellään ja sitä käsittelevän ohjelmistokoneiston tulisi toimia alun perinkin paremmin. Tämän vuoksi tiedon laadunhallinnan asiantuntijan tulisi päästä mukaan jo toiminnan uudistuksen ja ohjelmistokehitysprojektin suunnitteluun ennen kuin ensimmäistäkään tietoalkiota on edes luotu.
Ideaalitapauksessa laatuasiantuntija analysoisi jo suunnitteluvaiheessa kyseisen toiminnallisen uudistuksen tai ohjelmiston käyttötapauksen etsien siihen liittyviä potentiaalisia ongelmatilanteita sekä suosittelisi siihen erilaisia ratkaisumalleja, aivan kuten palvelu- ja käytettävyyssuunnittelijatkin tekevät yleisten käytäntöjen mukaisesti. Tiedon laadunhallinnan näkökulmasta analyysin pitäisi huomioida toiminnallisten tarpeiden ja käyttökokemuksen miellyttävyyden lisäksi myös kyseistä käyttötapausta laajemmat aiemmin mainitut tiedonhallinnan prosessinäkökulmat. Tiedon laatuasiantuntija ohjaisi kehittämistä huomioimaan myös liiketoiminnan arvoketjujen laajempaa tietoavaruutta, yksittäisiä käyttötapauksia pidempiä tiedon elinkaaria sekä tiedon monikäyttöisyyttä tukevia tiedonhallinnallisia ratkaisumalleja.
Käytännössä edellä mainittu tarkoittaa esimerkiksi sitä, että tiedon laadunhallinnan asiantuntija kuten allekirjoittanut suorittaa käytettävyystutkimuksista tutun sovelluksen tai verkkosivun läpikulun loppukäyttäjän käyttökokemuksen näkökulmasta, esimerkiksi kulkien läpi asiakkuuden luomisen ja tuotteen tilauksen prosessin. Hän tarkastelee käyttöliittymien ulkoasua, ruudulla näkyvien käsitteiden täsmällisyyttä, tapahtumapolkujen vaihtoehtoisia logiikkoja, laatukontrollien tehokkuutta, taustalla vaikuttavia tietomalleja, tiedonkäsittelyyn liittyviä toimintoja ja niin edelleen. Näitä tarkastelukohteita verrataan sitten esimerkiksi toiminnallisiin tavoitteisiin ja regulaatioiden vaatimuksiin, mikä saattaa edellyttää huomattavaa perehtyneisyyttä juuri kyseisen aihepiirin arkitodellisuuteen ja tietoalueen lainsäädäntöön. Merkittävin ero suhteessa käytettävyystutkijoiden tai ohjelmistokehittäjien analyyseihin syntyy kuitenkin siitä, että tiedon laatuasiantuntija analysoi tarkastelun kohteet myös kyseistä käyttötapausta laajemmin huomioiden, miten tapaukseen liittyvä tieto virtaa pitkin liiketoiminnan arvoketjuja, muuttuu osana laajempaa elinkaarta ja minkälaisia päättelyketjuja tehdään tiedon tuotantoprosessien yhteydessä. Tuloksena syntyy suosituksia ja suunnitelmia, jotka edistävät tiedon syntymistä jo alun perinkin oikein sekä edistävät tiedon yhteentoimivuutta osana kyseistä käyttötapausta laajempaa tietoavaruutta. Varsinaista operatiivista dataa ei tässä vaiheessa ole välttämättä vielä ollenkaan ja lisätyötä aiheuttavat virheet tai lainvastaisuudet ehkäistään jo etukäteen.
Kirjoittaja on Sami Laine, jolla on yli 20 vuoden kokemus tiedonhallinnan kehittämisestä, tutkimuksesta ja kouluttamisesta eri toimialoilla. Laine toimii Aalto University Executive Education and Professional Developmentin (Aalto EE) neuvonantajana ja on yksi tulevan pohjoismaiden ensimmäisen CDOIQ-symposiumin järjestäjistä. Hän on toiminut pitkään DAMA Finland ry:ssä (TIVIAn teemayhdistys) sekä MIT CDOIQ-symposiumin ohjelmakomiteassa.
DAMA Finland ry:n jäsenenä Laine edistää tiedonhallinnan hyvien käytäntöjen tuntemista ja levittämistä osana kansainvälistä DAMA International -yhteisöä ja valtakunnallista Suomen Tietojenkäsittelyliitto TIVIA ry -yhteisöä. DAMA Finland ry on kansainvälisen DAMA Internationalin paikallinen osasto Suomessa ja TIVIA ry:n valtakunnallinen teemayhdistys. Yhdistys on voittoa tavoittelematon ja riippumaton toimittajista ja teknologiasta. Sen tarkoituksena on edistää ja kehittää tiedonhallinnan parhaita käytäntöjä ja tiedon roolia tärkeänä voimavarana organisaation toiminnassa.