Tekoäly mullistaa terveydenhuoltoa lähitulevaisuudessa on melkoisen usein kuultu mantra. Joitakin työkaluja onkin jo käytössä esimerkiksi kuva-analytiikassa ainakin ulkomailla, mutta Suomessa siirtymävaiheeseen ollaan mielestäni vasta kunnolla astumassa ja erilaisiin mahdollisuuksiin heräämässä potilastyöhön liittyen. Hidastavana tekijänä on (syystäkin!) alan tarkka regulaatio, kovat vaatimukset käytettäviltä työkaluilta ja saatavissa olevan datan määrä. Lisäksi valmiinkaan työkalun integroiminen erilaisiin sairaaloiden tai terveyskeskuksien tietojärjestelmiin ei ole aina kovin ketterää, koska järjestelmiä ei yleensä alunperin ole suunniteltu tällaista varten. Mahdollista tämä kaikki toki on, ja rajapintoja on rakenneltu paljonkin ja työ jatkuu edelleen. Tässä kirjoituksessa kerron aiheesta enemmän tutkimuksen näkökulmasta ja miten me tätä työtä Turussa teemme. Valotan ensin hieman infrastruktuuriamme ja kerron erilaisista esimerkkiprojekteista, joita olemme tehneet. Kaikki tutkimukset tehdään aina hyvin tarkkaa lupamenettelyä noudattaen.
Infrastruktuuri
Kaiken perustana toimii Hadoop-pohjainen tietoallasratkaisu, jota ylläpitää Turun yliopistollisen keskussairaalan IT-toimittaja 2M-IT. Tietoallasta voi kuvitella mielessä isona kiintolevynä, jonne raakadata poimitaan erilaisista sairaalan lähdejärjestelmistä, joita ovat esimerkiksi diagnoosikoodit, laboratoriotulokset, tehdyt toimenpiteet ynnä muu data. Raakadata ei yleensä ole kovin käytännöllisessä muodossa, vaan saattaa koostua kymmenistä erilaisista tauluista, jotka liittyvät toisiinsa eri järjestelmien sisäisen logiikan mukaisesti. Tämän vuoksi tutkimusta helpottamaan on perustettu Auria tietopalvelu, jonka yksi perustehtävä on jatkojalostaa raakadataa SQL-tauluihin huomattavasti helpommin käytettävään muotoon. Esimerkiksi kymmenistä xml-tiedostoista koostuva raakadata päätyy muotoon “potilas – diagnoosi – aikaleima”, jota voidaan helposti ja tehokkaasti käyttää kiinnostavien potilaskohorttien tunnistamiseen, tai vaikkapa tiedolla johtamiseen ja potilasmäärien seurantaan. Raakadatan rakenne ei pääsääntöisesti muutu ajassa ainakaan lyhyessä mittakaavassa, joten jatkojalostus SQL-tauluihin voidaan pitkälti automatisoida. Tämän ansiosta tietomme päivittyvätkin joka yö, eli voimme seurata erilaisia asioita lähes reaaliajassa.
Tietojen hyödyntämiseen käytämme tällä hetkellä ns. private cloud ratkaisua, eli serverimme ovat meidän omiamme ja sijaitsevat 2M-IT:n konesalissa sairaalan palomuurien suojissa. Tarkoituksena on välttää datan siirtelyä sairaalan ulkopuolelle ja pikemminkin tuoda tutkijat datan ääreen. Tutkimusprojekteille perustetaan omat eristetyt virtuaalikoneensa, joille poimitaan ainoastaan projektin luvitusvaiheessa määritelty data (esimerkiksi rintasyöpäpotilaat ajalta 2010-2015) ja dataa käsitellään ilman henkilötunnisteita. Tavallinen tilastotiede, lukujen visualisointi ja muu datan pyörittely ei yleensä vaadi kovin suuria laskentaresursseja tai GPU-kiihdytystä, ja toimimmekin pitkään aivan normaalien CPU-servereiden varassa. Kuluvan vuoden alussa konesalimme kuitenkin laajentui uudella, 4 Tesla V100 GPU:ta sisältävällä voimanpesällä, jonka avulla olemme tehneet jo useita keinoälyprojekteja, missä keinoälyllä tarkoitetaan neuroverkkopohjaisia malleja.
Tutkimus
Allekirjoittanut toimii kehityspäällikkönä Auria Biopankissa Turun yliopistollisessa keskussairaalassa. Biopankki on osa sairaalaa ja sinne kerätään näytteitä (kudosnäytteitä ja verinäytteitä) ja niihin liittyvää tietoa suostumuksen tehneistä potilaista. Sattuneesta syystä biopankista löytyy erityisen paljon patologialla tutkittuja näytteitä ja näistä suuri osa on peräisin erilaisista syövistä. Perinteisesti patologian kudosnäytteistä valmistetaan ohuita leikkeitä, joita värjätään erilaisilla väriaineilla ja kiinnitetään lasilevylle mikroskoopilla tutkimista varten. Väriaineet kertovat näytteestä erilaisia asioita, ja patologi osaa mikroskoopissa näkemänsä perusteella esimerkiksi selvittää onko kyseessä syöpä vai normaali kudos. Lisäksi näytteistä voidaan eristää vaikkapa DNA:ta ja laboratoriossa tutkia mitä geenimutaatiota kasvaimessa on. Näiden tietojen perusteella (ja toki myös monien muiden, koska potilaan tilanne arvioidaan aina kokonaisvaltaisesti) voidaan valita parhaiten sopiva hoito. Nykyisin moni laitevalmistaja tarjoaa myös digipatologian ratkaisuja, joissa mikroskooppilasit skannataan digitaaliseen muotoon ja tutkimus tehdään tietokoneella. Näin syntyvät kuvatiedostot ovat resoluutioltaan tyypillisesti hyvin suuria (luokkaa 100 000 x 100 000 pikseliä).
Biopankilla ja patologialla Turussa on omia skannereita, joilla näytteistä valmistettuja mikroskooppilaseja voidaan skannata kuviksi. Lisäksi meillä on sekä laitevalmistajan toimittamia että avoimen lähdekoodin ohjelmistoja kuvien annotointiin. Patologi voi esimerkiksi annotoida missä kohtaa kuvaa on syöpäkudosta ja missä normaalia. Toisin sanoen tällä tavalla voidaan tuottaa luokiteltua kuvadataa, jonka avulla voidaan rakentaa neuroverkkopohjaisia malleja esimerkiksi syöpäkudoksen tunnistamiseen. Syöpä vs. normaali on yleisesti ottaen hyvin yksinkertainen ongelma ja ei olekaan erityisen yllättävää, että neuroverkkopohjaiset luokittelijat ovat siinä hyviä. Karkeasti yleistäen voidaankin sanoa, että algoritmien puolesta syöpä vs. normaali on ratkaistu ongelma jokaisessa hyvin määritellyssä tapauksessa erikseen. Eli pääsääntöisesti on helppoa tehdä hyvin tarkka luokittelija esimerkiksi ongelmaan “Onko tämä rintasyöpä vai ei?” kun a priori tiedetään, että käsitellään nimenomaan rintasyöpänäytteitä. Oikeassa elämässä kaikki ongelmat eivät kuitenkaan ole näin suoraviivaisia, vaan kysymykset ja asetelmat ovat avoimempia ja epätarkempia.
Omat tutkimusprojektimme patologiassa ovat tuottaneet esimerkiksi keinoja tunnistaa syövissä olevia geenimutaatioita vain mikroskooppikuvia katsomalla. Olemme siis yhdistäneet laboratoriossa tuotettuja tuloksia syöpäkasvaimen mikroskooppikuvaan ja sovittaneet erilaisia konvoluutioverkkoihin perustuvia ja tavallisilla valokuvilla esiopetettuja malleja tällaiseen dataan. Tulokseksi olemme saaneet kuin saaneetkin aikaiseksi luokittelijoita, jotka näyttävät kuvaa katsomalla tunnistavan potilaita, joilla on tiettyjä utaatiota omassa syövässään. Vastaavia tuloksia keuhkosyöpään liittyen on julkaistu arvostetussa Nature-lehdessä ja toivottavasti voimme pian tuoda omatkin tuloksemme julki.
Patologian lisäksi olemme tutkineet neuroverkkosovelluksia radiologiassa kuvien analyysissa, potilastekstien analyysiä, koneoppimisen menetelmiä rakenteisessa datassa sekä huikean paljon ihan tavallisia tilastotieteen sovelluksia. Näistä voit lukea lisää esimerkiksi sivuiltamme https://www.auria.fi/biopankki/biopankkitutkimukset/index.php .
Loppusanat
Algoritmit ja menetelmät erilaisia mullistavia lääketieteen sovelluksia varten ovat jo olemassa. Suurimpana rajoittavana tekijänä on lääketieteellinen data, jota ei ylipäätään ole saatavissa suuria määriä. Vielä vähemmän on ammattilaisen luokittelemaa dataa, joka kuitenkin on avain menestykseen aivan kuten Imagenet oli avain konvoluutioverkkojen hurjaan kehitykseen. Omalta osaltaan sairaaloiden tietoaltaat pyrkivät vastaamaan tähän tarpeeseen.
Soveltavaa tutkimusta kannattaa myös tehdä itse eikä ainoastaan luottaa siihen, että muut tekevät ja hedelmät poimitaan omaan käyttöön. Tutkimus nimittäin tuottaa alan osaajia myös oman talon sisään, mikä olennaisesti helpottaa erilaisten palveluntarjoajien vertailua ja ylipäätään omien tarpeiden kartoittamista ja jäsentämistä. Tuulahdus tervettä kriittisyyttä on aina paikallaan erityisesti lääketieteessä, missä tavoitteena on potilaan suurin hyöty eikä välttämättä uusin ja hienoin neuroverkko.
Antti Karlsson on Auria Biopankin (https://www.auria.fi/) kehityspäällikkö Antti Karlsson. Taustaltaan hän on Kanadassa ja Turussa opiskellut ja väitellyt teoreettisen fysiikan tohtori.