BIG-hankkeessa opittuja ja havaittuja asioita


Business Finlandin ja yritysten rahoittaman Big data big business-hankkeen keskeisimpiä hyötyjä ovat 68 julkaisun (mukaan ei ole laskettu näitä miniblogeja) lisäksi opit uusista dataprojekteista ja niiden suhteesta liiketoimintaan. Sekä yrityksille että tutkimusorganisaatioille hanke on mm. opettanut miten dataa voi hyödyntää, miten alan asiantuntijoiden kanssa tehdään yhteistyötä ja ylipäätään mitä big data- ja AI-projektit edellyttävät. Konkreettisten kehityshankkeiden kautta opittiin aiheesta tekemällä konkreettisia osaprojekteja ja soveltavaa tutkimusta.


Tekoälyn ja datan keskinäinen rooli vahvistui entisestään, koska datasettien laatu, relevanttius ja esimerkiksi yksityisyyteen liittyvät asiat vaikuttavat hyödyntämismahdollisuuksiin. Luonnollisen kielen analytiikassa kohdemarkkinan ja opetuksessa käytettävän materiaalin sanasto voi olla eri abstraktion tasolla, jolloin kohdemarkkinan tiedotteissa, esitteissä, keskusteluissa tai verkkosivuilla ei käytetä samasta teemasta samoja termejä kuin palveluntarjoajan sisällöissä. Myös anonymisointi vaikuttaa informaatiorikkauteen, koska anynomisointi poistaa ”vihjeitä” jotka olisivat kone-oppimiselle tärkeitä. Luonnollisesti myös käytettävät analyysimenetelmät ja algoritmien soveltuvuus ko tehtävään vaikuttavat analyysiin osuvuuteen. Kaikki nämä ja monet muut asiat vaikuttavat siihen, kuinka valmiita analyysejä kone-oppiminen kykenee tuottamaan.

Eräs mielenkiintoinen hankkeen aikana opittu termi on interaktiivinen kone-oppiminen, jossa sisällön asiantuntijat joutuvat tekemään useita iteratiivisia kierroksia koneen (computational agents) kanssa opettaessaan ja tarkentaessaan analyysejä. Perinteisesti kyselytutkimuksessa data-aineisto on ehjää, rakenteistettu ja numeerisessa muodossa jolloin sitä on helppo analysoida. Luonnollisen kielen analytiikassa, kuten verkkoaineistossa tai somekeskusteluissa tilanne ei ole sama, jolloin joudutaan tekemään paljon ennakkotöitä.


Hankkeessa tutkittiin myös erilaisia businessrooleja datapohjaisessa liiketoiminnassa, markkinadisruptiota tekoälyn näkökulmasta, datan tuottamia arvon luonnin mekanismeja ja mahdollisuuksia sekä datan hyödyntämisen vaikutusta yritysten taloudelliseen menestykseen. Lisäksi toteutimme mm. datapohjaisia palvelukonsepteja ja analytiikkakokeiluja sekä rakensimme Spark-pohjaisen big data-ympäristön CSC:n palvelimille.

Tutkimustyö tällä saralla jatkuu vielä hankkeen päättymisen jälkeenkin!

Kirjoittaja: Ari Alamäki, Haaga-Helia