Yli 24 miljoonaa twiittiä analysoitavana

Big data big business-tutkimushankkeessa on kerätty massiivinen määrä Twitterin big dataa Suomesta. Twiittejä tallentuu n. 50 000 - 100 000 päivässä ja niitä on kerätty jo yli 24 miljoonaa kappaletta. Twiittejä Suomesta on kerätty eri pituisissa jaksoissa nyt jo yli vuoden ajan. Järjestelmä onkin tallentanut systemaattisesti kaikki Suomen Twiitit nyt jo lähes puolen vuoden ajan. Olemme keskittyneet suomenkielellä käytävään Twitter-keskusteluun ja sen datan tallentamiseen. Twiitit joiden kielimäärityksenä on suomi kerätään Twitterin API-rajapinnan kautta ja tallennetaan Haaga-Helian CSC-palvelimilla sijaitsevaan big-data tietokantaan.

Kerätyn materiaalin pohjalta voidaan tehdä monia erilaisia analyyseja Suomen twitter liikenteestä. Kerätyn materiaalin pohjalta näyttäisi siltä, että merkittävä osa (yli 60 %) suomenkielisistä twiiteistä on re-twiittejä. Selvästi alle puolet twiiteistä on ns. alkuperäisiä twiittejä.

Tätä materiaalia hyödynnetään Big Data Big Business-hankkeen tutkimuksessa.


teksti: Harto Holmström ja Ari Alamäki