Miten säilyttää anonymisoidun keskusteludatan informaation laatu?


Datan jakamisella on tärkeä lisäarvo. Useimmiten sellainen data, jolla on rahallista arvoa sisältää luottamuksellista tietoa. Datasta on kuitenkin melkein aina poistettava elementtejä, joista ihminen voidaan tunnistaa. Tämä voi heikentää datan sisältämän informaation määrää ja siten myös laatua.


Koneoppiminen on tärkeää datan tutkimisessa. Aikaisemmin on tutkittu vain vähän sitä, miten koneoppimisen algoritmit tulkitsevat anonymisoitua dataa. Tutkimme datajoukkoa, jonka kaksi yritystä jakoi keskenään. Datajoukko sisälsi luonnollista kieltä. Data analysoitiin koneoppimisen ja neuroverkon menetelmien avulla.

Tutkimuksessamme kävi ilmi, että pitkälle anonymisoitu keskusteludata on tekoälylle haastavaa. Koneoppimisen algoritmit eivät yksin selviydy tehtävästä. Ne eivät yksin pysty oppimaan informaatiovihjeiden sisäisiä yhteyksiä ja merkityksiä. Jotta koneoppimista voitaisiin kunnolla hyödyntää datan analysoimisessa, tarvitaan ihmisten työpanosta. Parhaisiin tuloksiin päästään, jos tiimeissä on monenlaista osaamista: datatutkijoita, sisältöasiantuntijoita ja ohjelmistopohjaisia agentteja.

Teksti: Marjo Linnasalmi

Lähde: Alamäki, A., Aunimo, L., Ketamo, H. & Parvinen, L. (2019). Interactive Machine Learning: Managing Information Richness in Highly Anonymized Conversation Data. In L.M. Camarinha-Matos, H. Afsarmanesh & D. Antonelli (Eds.), Collaborative Networks and Digital Transformation. The Proceeding of 20th IFIP WG 5.5 Working Conference on Virtual Enterprises, PRO-VE 2019, pp. 173-183