Jos lukee IT-alan julkaisuja, huomaa nopeasti, että tapetilla on taas uusi kuuma aihe, josta kaikki puhuvat. Big Datasta kirjoitettuja juttuja lentää silmille yhä useammin. Big Data nostettiin hiljan myös Gartnerin Hype Cyclen for Emerging Technologies 2011 -analyysiin.
Mitä Big Data sitten onkaan?

Big Datalla tarkoitettiin aluksi sellaista tietomäärää, jota ei käytännössä pystytty lataamaan relaatiotietokantoihin analysoitavaksi. Joko sitä oli liian paljon tai sitten se oli strukturoimatonta.
Tiedon määrän kasvu on tunnetusti ollut eksponentiaalista ja kaiken tarvittavan tiedon hakeminen, lataaminen, varastointi, jakelu, analysointi ja visualisointi on vaikeutunut kaiken aikaa. Tietoa tursuaa esim. uudenlaisista antureista, RFID-tägeistä tai reaaliaikaisemmasta prosessien seurannasta. Kaikesta tarvittavasta tiedosta on lisäksi reilusti suurin osa struktroimatonta, esim. uutistietoa, analyysejä tai dokumentteja.
Pelkkä tiedon määrä ei pysynyt pitkään ainoana Big Datan määrittäjänä. Joillain isot tietomassat saattavat tarkoittaa petatavuja, joissain yrityksissä vaikeuksia tulee jo huomattavasti pienemmillä määrillä. Useat tietokantateknologiat ja tietovarastot kykenevät fyysisesti käsittelemään suuriakin tietomassoja, mutta silti ongelmat eivät ratkenneet.
Kuvaukseen piti lisätä myös tiedon määrän (Volume) lisäksi tiedon muutos- tai tarvitsemisnopeus (Velocity) ja monipuolisuus (Variety). Mikä tahansa näistä kolmesta saattaa aiheuttaa ongelmia perinteisissä tiedon hallinnan ratkaisuissa…
Big Dataan liitetään usein myös pilvipalvelu-konsepti, sekä käsittelyn hajauttamisen, että erilaisten tietolähteiden hyödyntämisen näkökulmasta. Suhteellisen edullinen skaalautuvuus esim. MapReduce -tyyliseen käsittelyyn, jossa jaetaan sama kysely sadoille tai tuhansille koneille, mahdollistaa aivan uudentyyppisten analyysien teon. Enää ei tarvitse odottaa yön yli analyysien valmistumista.
Monessa kohtaa yllämainittua kuvausta tulee kuitenkin mieleen, että tämähän on sitä samaa asiaa, josta ollaan puhuttu jo kauan… Massiiviset tietovarastot, data mining, reaaliaikainen BI, useiden tietolähteiden yhdistäminen jne. ovat olleet osana ratkaisuja jo pitkään. Itse asiassa suurin osa kaikista Big Datan yhteydessä mainituista hyödyistä ja käytännön esimerkeistä on tehty jo aiemminkin.
Mikä sitten on muuttunut? Se, että uudet ratkaisut mahdollistavat yhä edullisemmin ja helpommin Big Data -tyyppisen tiedon hyödyntämisen. Eli tietoa voi olla aiempaa enemmän, useammasta lähteestä, jopa reaaliaikaisena, ja sitä pystytään käsittelemään ja analysoimaan yhä edullisemmin ja tehokkaammin.
Enää ei tarvitse lisätä rautaa rajalle, tehdä hirveitä virityksiä tai jatkuvaa optimointia tietokantoihin tietomassojen kasvaessa. Jos lähtisi esim. analysoimaan perinteisellä tavalla Twitter- ja muun sosiaalisen median viestien vaikutusta myyntiin ja asiakastyytyväisyyteen, saisi pistää melkoisesti rahaa tietovaraston rautaan, lisensseihin ja latausprosesseihin.
Kannattaa kuitenkin tehdä tässäkin asiassa “reality check” – miksei parikin. Suurta osaa bisnes-ongelmista ei ratkota lisäämällä tiedon määrää tai päivitysnopeutta. Tärkein osa koneistoa on analysoijan ja tiedon hyödyntäjän pääkopan sisällä. Jos ei osata muodostaa oikeita kysymyksiä, ei pystytä hyödyntämään suurta osaa tiedosta. Mikään kone ei tuota tietämystä ihmisen puolesta.
Tiedon laatu on myös entistä tärkeämpää. Mitä väliä on valtavista tietomassoista, jos tiedot ovat vääriä tai ristiriitaisia, poissa kontekstistaan tai muuten laaduttomia? Millaisin oletuksin tietoja kerätään, millaisin prosessein tieto on syntynyt ja mitä on mahdollisesti jätetty pois? Onko nämä seikat kuvattu tiedon hyödyntäjälle?
Big Data on vielä alkuvaiheissaan. Aikaiset omaksujat ovat alkaneet tutkia asiaa ja Big Data tulee nousemaan vielä hypetyksessä hieman ylemmäs, ennen kuin ensimmäiset isot epäonnistumiset ilmaantuvat ja turhat kuvitelmat karisevat.
Kypsyessään Big Data mahdollistaa useilla aloilla – ja yhä pienemmillekin yrityksille – uudenlaista Business Intelligenceä. Mutta ei kannata pidättää hengitystä… Mainstreamia Big Datasta tulee vasta muutaman vuoden kuluttua. Tällä hetkellä uusia mahdollisuuksia kannattaa kuitenkin käyttää tietyissä erityistapauksissa, joissa tarvitaan innovatiivisia ratkaisuita ja joihin nykyiset menetelmät eivät pure.
Kuitenkin jo nyt Business Intelligence- ja integraatioratkaisuissa kannattaa ottaa huomioon Big Datan vaatimukset niin erilaisten tietolähteiden reaaliaikaisessa käytössä, skaalautuvuudessa kuin käsittelyn hajauttamisessakin. Nousevatpa esiin sitten termit, teknologiat tai tuotenimet kuten cloud computing, Hadoop, NoSQL, NewSQL, MapReduce, MPP, BigTable, 1010data, Netezza tai Teradata, on oltava valmiita. Liiketoiminnan tarpeet saattavat tarvita uusien menetelmien hyödyntämistä nopeallakin viiveellä. Älä unohda myöskään tiedon laadun hallinnan nivomista näihin…
Minua kiinnostaisi tietää, onko teillä Big Dataan liittyviä haasteita tai kokemuksia… Laita kommenttia niin saadaan keskustelua pystyyn! Jos julkinen kommentointi ei houkuta, laita vaikka suoraan meiliä mikko.muurinen -at- infobuild.fi…
Ps. Kerään seuraavaan Linkkitiistaihin parhaimpia Big Dataan liittyviä linkkejä.
Pps. Tilaa blogin RSS-syöte, niin saat uusimmat blogikirjoitukset suoraan syötteiden lukuohjelmaasi, eikä sinun tarvitse käydä tarkistamassa päivityksiä sivustolta!
Mikko Muurinen