Mitä on Big Data? Mitä eroa on Big Data – analytiikalla ja perinteisellä tilastollisella analyysillä?
Lili Aunimo, Haaga-Helia, 25.10.2017


Big Data (massadata) on hypetermi, jonka käyttö on yleistynyt jyrkästi sitten vuoden 2010. Esimerkiksi Googlen hakutilastoista kuvassa 1 nähdään, että maailmanlaajuisesti hakutermillä “big data” alettiin tehdä kasvavassa määrin hakuja vasta vuonna 2010 ja että tilanne alkoi tasaantua jo vuonna 2015. Tässä kirjoituksessa tarkastellaan big datan määritelmää siihen läheisesti liittyvien termien kuten tiedon louhinnan (data mining), koneoppimisen (machine learning) ja tilastollisen data-analyysin kautta. Ensin tarkastelemme kuinka hakutermien suosio on vaihdellut Google-hauissa. Tämän jälkeen kerromme kuinka massadatan analyysi ja tilastollinen analyysi suhtautuvat toisiinsa.

Kuva 1:

Googlen hakutilastot (http://trends.google.com) termeille "big data" (sininen), "data mining" (punainen), "machine learning" keltainen) ja "statistical analysis" (vihreä) alkaen vuodesta 2004. Termin "big data" käyttö yleistyi jyrkästi vuodesta 2010 alkaen. Vuonna 2017 hakutermin "machine learning" suosio ylitti termin "big data".

(klikkaa kuva suuremmaksi tästä)

Googlen hakutilastoista kuvassa 1 nähdään, että samaan aikaan kun massadatan käyttö hakuterminä on yleistynyt, on termin “data mining” (tiedon louhinta) suosio jatkuvasti laskenut. Tämä on oikeastaan luonnollista, sillä tiedon louhinta on massadatan analyysin esi-isä, koska käytetyt menetelmät ja filosofia ovat pitkälti samoja. Molempien tausta on tietojenkäsittelytieteessä ja pääpaino algoritmeissa, joiden avulla suurista datamassoista voidaan jalostaa tietämystä. Google Trends -käyrässä näkyy myös hakutermin “machine learning” eli koneoppimisen esiintyvyys Google-hauissa. Hakutermi “machine learning” näyttää olevan seuraava hypetermi, sillä sen suosio on kasvanut samalla kun massadatan suosio on tasaantunut. Koneoppiminen hakuterminä ohitti suosiossa massadatan vuonna 2017. Koneoppiminen liittyy läheisesti tiedon louhintaan ja massadatan analyysointiin, sillä molemmissa käytetään koneoppimismenetelmiä.


Tiedon louhinta, massadatan analysointi ja koneoppiminen ovat siis kaikki tietojenkäsittelytieteestä peräisin olevia termejä ja sen piirissä kehitettyjä menetelmiä. Usien kuulee kysyttävän, mitä eroa näillä on tilastollisen analyysin kanssa. Eikö kyseessä ole pohjimmiltaan sama asia? On ihan totta, että tilastollisella analyysillä ja massadatan analyysillä on paljon yhteistä. Suuri osa massadatan analyysimenetelmistä perustuu tilastomatematiikkaan. Perinteisellä tilastollisella analyysillä ja massadatan analyysillä on kuitenkin iso joukko merkittäviä eroavaisuuksiakin. Alla on listattu viisi tärkeintä eroavaisuutta, joista kolme viimeistä liittyvät massadatan kolmen V:n määritelmään.

1. Perinteisen tilastollisen analyysin kulmakivi on se, että ensin valitaan tilastollinen malli, kuten vaikkapa normaalijakauma tai lineaarinen funktio. Tämän jälkeen valittua mallia sovitetaan käsillä olevaan dataan ja pyritään estimoimaan mallin parametrit. Esimerkikisi normaalijakauman tapauksessa estimoidaan keskiarvo ja hajonta ja lineaarisen funktion tapauksessa pyritään estimoimaan lineaarisen funktion riippumattomien muuttujien kertoimet. Massadatan analysoinnissa lähdetään liikkeelle itse datasta ja tutkitaan sitä avoimin silmin ilman ennakko-oletuksia. Tätä lähestymistapaa kutsutaan eksploratiiviseksi data-analyysiksi. Menetelminä tässä voi olla vaikkapa klusterointi eli ryvästäminen ja yleisten maksimaalisten sekvenssien (frequent maximal sequences) etsiminen.

2. Toinen perustavanlaatuinen ero perinteisen tilastollisen analyysin ja massadatan analysoinnin välillä on se, että tilastollisessa analyysissä ei analysoida koko datajoukkoa (tai populaatiota), vaan otetaan edustava otos populaatiosta. Massadataa analysoidessa käytetään tyypillisesti ihan koko datajoukkoa eikä vain otosta. Massadatan perusfilosofiana on myös se, että hyödynnetään käyttämättömänä lojuvaa dataa, jota kertyy yhä enenevissä määrin kun prosessit muuttuvat digitaalisiksi. Tilastollisen analyysin pohjana on usein datajoukko, joka on varta vasten kerätty tilastollista analyysiä varten.

Loput kolme perustavanlaatuista eroa tilastollisen analyysin ja massadatan analyysin välillä juontuvat massadatan kolmen V:n määritelmästä: volume (massa), variety (monimuotoisuus) ja velocity (nopeus). Usein massadataksi hyväksytään data, jossa edes yksi yllä mainituista ominaisuuksista täyttyy. Tiukimmat koulukunnat vaativat, että kaikki kolme ominaisuutta täyttyvät, jotta kyseessä olisi massadata. Seuraavaksi esitellään massadatan kolme ominaisuutta ja niiden data-analyysille asettamat vaatimukset:

3. Massadatan analyysi ja perinteisen tilastollisen datan analyysi eroavat toisistaan siten, että massadatan analysointia ei voi tehdä henkilökohtaisella tietokoneella tai edes tilastollisia ohjelmistoja varten pystytetyllä palvelimella, sillä niiden keskusmuisti ja prosessointikapasiteetti eivät yksinkertaisesti riitä. Tässä on syytä huomata, että se mikä vielä kymmenen vuotta sitten oli massadataa, ei todennäköisesti ole sitä enää sillä tietokoneiden laskentakapasiteetti kasvaa jatkuvasti. Massadatan analysointiin tarvitaan laskentaklusterin mahdollistamaa hajautettua laskentaa. Spark on esimerkki ohjelmistosta, jonka avulla laskenta voidaan hajauttaa useaan eri laskentaklusteriin.

4. Massadata on usein monimuotoista ja rakenteetonta ja se tulee useasta eri lähteestä. Tästä esimerkkejä ovat tekstimuodossa oleva data, musiikki ja kuvadata. Iso osa rakenteettoman datan analyysiä on sen esikäsittely sellaiseen rakenteiseen muotoon, josta analyysi voidaan suorittaa. Tilastollinen analyysi sitä vastoin alkaa vasta kun datajoukko on hyvin strukturoidussa muodossa esim. taulukossa.

5. Massadata on usein nopeasti päivittyvää. Sitä tulee koko ajan lisää ja analyysin pitää valmistua reaaliaikaisesti tai hyvin lyhyen viiveen sisällä, esim. kerran kymmenessä minuutissa. Esimerkkejä tällaisesta päivittyvästä datasta ovat mm. erilaisten sensorien keräämä data ja Twitter-päivitykset. Tilastollinen analyysi sitä vastoin tehdään yleensä staattiselle datajoukolle joka ei muutu. Analyysin valmistumisen kanssa ei useinkaan ole kiirettä ja se tehdään vain yhden kerran.

Googlen hakutilastot -kuvassa näkyy hakujen frekvenssien kehittyminen haulle “statistical analysis”. Kuvasta näkyy, että vielä vuonna 2004 sillä haettiin enemmän kuin termeillä “big data” ja “machine learning”. Termiä “data mining” haettiin tuolloin kuitenkin yli kolme kertaa useammin. Vuonna 2017 termiä “statistical analysis” haetaan reilusti harvemmin kuin muita tarkastelun kohteena olleita termejä. Vaikka massadatan analyysi perustuu tilastomatematiikkaan, ei se yksin riitä, vaan tarvitaan myös algoritmeja, joiden avulla rakenteettomia, nopeasti päivittyviä ja suuria datajoukkoja voidaan käsitellä tehokkaasti. Tilastolliset menetelmät ovat siis yksi tärkeä osa massadatan analyysiä, mutta lisäksi tarvitaan myös tietojenkäsittelytieteessä kehitettyjä menetelmiä.

Lähteet:
Jay Liebowitz: Business Analytics: An Introduction, 2014. CRC Press.
Lillian Pierson and Jake Porway: Data Science for Dummies, 2017. Wiley et Sons.
Nicole Tache, editor: Big Data Now: 2016 Edition, Current Perspectives from O'Reilly Media, O'Reilly 2017.