Tekoälyn aikakausi on lisännyt tarvetta ymmärtää tietoa entistä syvemmin. Koneoppimisen yleistyminen on korostanut tietomallinnuksen merkitystä, ja siirtyminen generatiivisen tekoälyn käyttöön tuo rinnalle uuden vaatimuksen: metatiedon ymmärtämisen. Kun kone “ymmärtää” dataa omalla tavallaan, pelkkä tietosisältö ei enää riitä. Yhä tärkeämmäksi nousee konteksti – miksi tietoa käytetään, miten sitä käytetään ja mihin sitä lopulta hyödynnetään. Organisaatioiden onkin siirrettävä katseensa yksittäisistä tietovarannoista laajempaan kokonaisuuteen, jossa tieto kytkeytyy ympäröivään maailmaan, liiketoimintatavoitteisiin ja ihmisten tarpeisiin.
Aihe tuo mieleeni varhaisen kokemuksen 15-vuotiaana, kun osallistuin ystäväni kanssa ATK-kerhon sanapelitehtävään. Naputtelimme pääsiäisen pyhinä Nykysuomen sanakirjan sisällön Commodore kuusnepalle, joten loimme käytännössä yksinkertaisen kielimallin – vaikkei käsitteitä kuten “large language model” tai generatiivinen tekoäly vielä tunnettu. Ymmärsimme kuitenkin, mihin tietoa tarvitsimme ja miten peli käsitteli syötettyjä sanoja eli sekoitti kirjaimet, josta pelaajan piti tunnistaa sana. Pelissä oli myös pieni algoritminen virhe: vaikka määritimme sanan pituudeksi esimerkiksi 20 merkkiä, ohjelma saattoi silti arpoa mukaan lyhyempiä sanoja – eräänlainen sen ajan “hallusinaatio”.
Kokemus havainnollistaa, myös sen miten tekoälyn aikakausi ei muuta vain teknologiaa – se muuttaa myös asiantuntijarooleja ja organisaatioiden perusrakenteita. Yksi merkittävistä muutoksista tapahtuu tietoarkkitehdin työssä. Siinä missä aiemmin keskiössä olivat tietorakenteet ja tietosisällön ymmärtäminen, nyt painopiste siirtyy merkityksiin, kontekstiin ja koneen ymmärrykseen. Tietoarkkitehdista on kehittymässä metatietoarkkitehti.
Perinteisesti tietoarkkitehdin tehtävänä on ollut mallintaa organisaation tieto: määritellä käsitteet, suunnitella loogiset ja fyysiset tietomallit sekä varmistaa, että data liikkuu järjestelmien välillä hallitusti ja eheästi. Työ on ollut kriittistä raportoinnin, analytiikan ja operatiivisten prosessien kannalta. Kun tieto on rakenteistettu oikein, se on ollut luotettavaa ja tehokkaasti hyödynnettävää.
Tämä ajattelumalli on kuitenkin syntynyt maailmassa, jossa tiedon ensisijainen käyttäjä on ollut ihminen tai ennalta määritelty sovellus. Tekoälyn aikakaudella käyttäjä on yhä useammin kone, joka tekee päätelmiä, yhdistää eri lähteitä ja tuottaa uutta sisältöä. Generatiivinen tekoäly ei lue tietokantaa samalla tavalla kuin raportointityökalu. Se tarvitsee kontekstia, suhteita ja merkityksiä – metatietoa.
Metatietoarkkitehdin rooli rakentuu juuri tähän tarpeeseen. Hän ei ainoastaan suunnittele, miten tieto tallennetaan, vaan miten sen merkitys kuvataan koneelle ymmärrettävässä muodossa. Tämä tarkoittaa semanttisten kerrosten rakentamista datan päälle: ontologioita, taksonomioita ja käsitemalleja, jotka kuvaavat, mitä käsitteet tarkoittavat ja miten ne liittyvät toisiinsa. Ei riitä, että mallinnetaan tietosisällöstä vain asiakas, sopimus ja tuote käsitemallin selkeiksi suhteiksi vaan tarvitaan myös dokumenttien metatietojen mallintamista kuten dokumentin tekijä, ajankohta, tarkoitus. Myös tarvitaan halutun toimintaprosessin kontekstin ymmärtämisstä käsitteelliselle tasolle, jotta tekoäly pystyy tekemään luotettavampia päätelmiä.
Näin korostuu datan alkuperän ja kontekstin hallinta. Mistä tieto on peräisin? Onko se ajantasaista? Missä käyttötarkoituksessa sitä saa hyödyntää? Ilman näitä tietoja tekoäly voi tehdä virheellisiä johtopäätöksiä tai tuottaa harhaanjohtavaa sisältöä. Metatietoarkkitehti vastaa siitä, että koneella on käytössään paitsi data myös ymmärrys sen rajoista ja luotettavuudesta.
Muutos konkretisoituu erityisesti RAG-ratkaisuissa (Retrieval Augmented Generation) ja niin sanotussa chunking-kehityksessä. RAG-mallissa tekoäly ei nojaa pelkkään esikoulutettuun tietoonsa, vaan hakee vastauksen tueksi organisaation omia dokumentteja. Näiden dokumenttien käsittely alkaa chunking-vaiheesta, jossa sisältö pilkotaan pienempiin osiin. Ilman huolellista suunnittelua chunking on vain tekninen toimenpide: teksti jaetaan tietyn merkkimäärän mukaan ja tallennetaan vektoritietokantaan.
Metatiedon näkökulmasta chunk ei kuitenkaan ole satunnainen tekstipala, vaan merkitysyksikkö. Hyvässä toteutuksessa pykälää ei katkaista kesken, otsikkorakenne säilytetään ja jokaiselle chunkille liitetään tietoa sen tyypistä, versiosta, voimassaolosta ja luotettavuudesta. Kun käyttäjä esittää kysymyksen, RAG-järjestelmä ei hae vain semanttisesti samankaltaista tekstiä, vaan suodattaa tuloksia metatiedon perusteella: esimerkiksi vain hyväksytyt ja voimassa olevat ohjeet. Näin vähennetään virheellisiä vastauksia ja lisätään läpinäkyvyyttä.
Chunking ja RAG osoittavat, että tekoälyn laatu ei synny pelkästä mallista, vaan siitä, miten tieto on jäsennetty ja rikastettu ennen kuin se annetaan mallin käyttöön. Metatietoarkkitehdin työ näkyy juuri tässä kerroksessa: siinä, että tekoäly saa käyttöönsä oikean kontekstin, ei vain oikean sanan.
Lopputuloksen laatu ja sitä kautta kilpailuetu ei tekoälyn aikakaudella synny pelkästä datan määrästä. Ratkaisevaa on se, kuinka hyvin organisaatio kykenee tekemään datastaan ymmärrettävää myös koneelle. Ne, jotka panostavat metatietoon ja merkitysten mallintamiseen, pystyvät hyödyntämään tekoälyä luotettavammin ja tehokkaammin kuin ne, jotka keskittyvät vain teknisiin ratkaisuihin.
Metatietoarkkitehti on tässä kehityksessä taustalla toimiva mahdollistaja. Hän rakentaa sillan datan, teknologian ja liiketoiminnan välille. Siinä missä tietoarkkitehti loi rakenteen tiedolle, metatietoarkkitehti mahdollistaa merkityksen koneelle. Juuri tässä merkityksen ymmärryksessä piilee tekoäly aikakauden todelliset mahdollisuudet ja arkkitehtuurivaatimukset.
Minna Oksanen on goforelainen data-ammattilainen ja DAMA Finlandin puheenjohtaja joka on siirtymässä tekoälynaikakauteen katsellen sitä tietoarkkitehdin silmälaseilla.
