Tunnisteet ‘reaaliaikaisuus’

Mikä ihmeen Big Data?

17.8.2011

 

Jos lukee IT-alan julkaisuja, huomaa nopeasti, että tapetilla on taas uusi kuuma aihe, josta kaikki puhuvat. Big Datasta kirjoitettuja juttuja lentää silmille yhä useammin. Big Data nostettiin hiljan myös Gartnerin Hype Cyclen for Emerging Technologies 2011 -analyysiin.

Mitä Big Data sitten onkaan?

Big Data: water wordscape

Big Datalla tarkoitettiin aluksi sellaista tietomäärää, jota ei käytännössä pystytty lataamaan relaatiotietokantoihin analysoitavaksi. Joko sitä oli liian paljon tai sitten se oli strukturoimatonta.

Tiedon määrän kasvu on tunnetusti ollut eksponentiaalista ja kaiken tarvittavan tiedon hakeminen, lataaminen, varastointi, jakelu, analysointi ja visualisointi on vaikeutunut kaiken aikaa. Tietoa tursuaa esim. uudenlaisista antureista, RFID-tägeistä tai reaaliaikaisemmasta prosessien seurannasta. Kaikesta tarvittavasta tiedosta on lisäksi reilusti suurin osa struktroimatonta, esim. uutistietoa, analyysejä tai dokumentteja.

Pelkkä tiedon määrä ei pysynyt pitkään ainoana Big Datan määrittäjänä. Joillain isot tietomassat saattavat tarkoittaa petatavuja, joissain yrityksissä vaikeuksia tulee jo huomattavasti pienemmillä määrillä. Useat tietokantateknologiat ja tietovarastot kykenevät fyysisesti käsittelemään suuriakin tietomassoja, mutta silti ongelmat eivät ratkenneet.

Kuvaukseen piti lisätä myös tiedon määrän (Volume) lisäksi tiedon muutos- tai tarvitsemisnopeus (Velocity) ja monipuolisuus (Variety). Mikä tahansa näistä kolmesta saattaa aiheuttaa ongelmia perinteisissä tiedon hallinnan ratkaisuissa…

Big Dataan liitetään usein myös pilvipalvelu-konsepti, sekä käsittelyn hajauttamisen, että erilaisten tietolähteiden hyödyntämisen näkökulmasta. Suhteellisen edullinen skaalautuvuus esim. MapReduce -tyyliseen käsittelyyn, jossa jaetaan sama kysely sadoille tai tuhansille koneille, mahdollistaa aivan uudentyyppisten analyysien teon. Enää ei tarvitse odottaa yön yli analyysien valmistumista.

Monessa kohtaa yllämainittua kuvausta tulee kuitenkin mieleen, että tämähän on sitä samaa asiaa, josta ollaan puhuttu jo kauan… Massiiviset tietovarastot, data mining, reaaliaikainen BI, useiden tietolähteiden yhdistäminen jne. ovat olleet osana ratkaisuja jo pitkään. Itse asiassa suurin osa kaikista Big Datan yhteydessä mainituista hyödyistä ja käytännön esimerkeistä on tehty jo aiemminkin.

Mikä sitten on muuttunut? Se, että uudet ratkaisut mahdollistavat yhä edullisemmin ja helpommin Big Data -tyyppisen tiedon hyödyntämisen. Eli tietoa voi olla aiempaa enemmän, useammasta lähteestä, jopa reaaliaikaisena, ja sitä pystytään käsittelemään ja analysoimaan yhä edullisemmin ja tehokkaammin.

Enää ei tarvitse lisätä rautaa rajalle, tehdä hirveitä virityksiä  tai jatkuvaa optimointia tietokantoihin tietomassojen kasvaessa. Jos lähtisi esim. analysoimaan perinteisellä tavalla Twitter- ja muun sosiaalisen median viestien vaikutusta myyntiin ja asiakastyytyväisyyteen, saisi pistää melkoisesti rahaa tietovaraston rautaan, lisensseihin ja latausprosesseihin.

Kannattaa kuitenkin tehdä tässäkin asiassa “reality check” – miksei parikin. Suurta osaa bisnes-ongelmista ei ratkota lisäämällä tiedon määrää tai päivitysnopeutta. Tärkein osa koneistoa on analysoijan ja tiedon hyödyntäjän pääkopan sisällä. Jos ei osata muodostaa oikeita kysymyksiä, ei pystytä hyödyntämään suurta osaa tiedosta. Mikään kone ei tuota tietämystä ihmisen puolesta.

Tiedon laatu on myös entistä tärkeämpää. Mitä väliä on valtavista tietomassoista, jos tiedot ovat vääriä tai ristiriitaisia, poissa kontekstistaan tai muuten laaduttomia? Millaisin oletuksin tietoja kerätään, millaisin prosessein tieto on syntynyt ja mitä on mahdollisesti jätetty pois? Onko nämä seikat kuvattu tiedon hyödyntäjälle?

Big Data on vielä alkuvaiheissaan. Aikaiset omaksujat ovat alkaneet tutkia asiaa ja Big Data tulee nousemaan vielä hypetyksessä hieman ylemmäs, ennen kuin ensimmäiset isot epäonnistumiset ilmaantuvat ja turhat kuvitelmat karisevat.

Kypsyessään Big Data mahdollistaa useilla aloilla – ja yhä pienemmillekin yrityksille – uudenlaista Business Intelligenceä. Mutta ei kannata pidättää hengitystä… Mainstreamia Big Datasta tulee vasta muutaman vuoden kuluttua. Tällä hetkellä uusia mahdollisuuksia kannattaa kuitenkin käyttää tietyissä erityistapauksissa, joissa tarvitaan innovatiivisia ratkaisuita ja joihin nykyiset menetelmät eivät pure.

Kuitenkin jo nyt Business Intelligence- ja integraatioratkaisuissa kannattaa ottaa huomioon Big Datan vaatimukset niin erilaisten tietolähteiden reaaliaikaisessa käytössä, skaalautuvuudessa kuin käsittelyn hajauttamisessakin. Nousevatpa esiin sitten termit, teknologiat tai tuotenimet kuten cloud computing, Hadoop, NoSQL, NewSQL, MapReduce, MPP, BigTable, 1010data, Netezza tai Teradata, on oltava valmiita. Liiketoiminnan tarpeet saattavat tarvita uusien menetelmien hyödyntämistä nopeallakin viiveellä. Älä unohda myöskään tiedon laadun hallinnan nivomista näihin…

Minua kiinnostaisi tietää, onko teillä Big Dataan liittyviä haasteita tai kokemuksia… Laita kommenttia niin saadaan keskustelua pystyyn! Jos julkinen kommentointi ei houkuta, laita vaikka suoraan meiliä mikko.muurinen -at- infobuild.fi…

 

Ps. Kerään seuraavaan Linkkitiistaihin parhaimpia Big Dataan liittyviä linkkejä.

Pps. Tilaa blogin RSS-syöte, niin saat uusimmat blogikirjoitukset suoraan syötteiden lukuohjelmaasi, eikä sinun tarvitse käydä tarkistamassa päivityksiä sivustolta!

 

Mikko Muurinen

 

Reaaliaikainen Business Intelligence – WTF

26.11.2010

Pidin 24.11.2010 Sytyke ry:n syyskokouksessa esitelmän reaaliaikaisesta Business Intelligencestä. Ohessa tilaisuuden kalvot ja tiivistelmä aiheesta.



Reaaliaikainen Business Intelligence yhdistää perinteisen Business Intelligencen ja prosessikeskeisen liiketoimintatapahtumien seurannan ominaisuuksia. Datakeskeiseen ja analysointipainotteiseen, usein taaksepäin katsovaan malliin tuodaan ajankohtaisuutta ja prosessilähtöisyyttä. Reaaliaikaiseen Business Intelligenceen kuuluu myös automatisoinnin ja sääntöjen hyödyntäminen aiempaa enemmän. Perinteisen liiketoimintatiedon hyödyntämisen tietojen yhdistely tuodaan prosessien seurannan tueksi.

Termi ”Liiketoimintatiedon hyödyntäminen” ei ehkä kuvaa yhtä hyvin kuin englanninkielinen”Business Intelligence” sitä, mitkä asiat ovat tärkeimpiä tästä näkökulmasta – bisneksen edistäminen älykkäästi ja tietoon perustuen.

Päätöksenteon tueksi pitäisi saada kokonaiskuva siitä, mitä on tapahtunut, mitä tapahtuu juuri nyt, sekä myös siitä mitä tulee tapahtumaan seuraavaksi. Oleellista on saada apua päätöksiin, mitä pitäisi tehdä, jotta myönteiset tapahtumat voitaisiin hyödyntää ja kielteiset vaikutukset minimoida. Erilaiset skenariot, mallit ja trendityhdistettynä hyvinajantasaiseen taustatietoonauttavat tulevaisuuteen valmistautumisessa.

Ajantasainen,  useasta lähteestä rikastettu tieto, jonka käsittelystä on karsittu kaikki turhat manuaaliset vaiheet, luo kilpailuetua. Tämä kääntyy lopulta puhtaaksi taloudelliseksi eduksi.

On tärkeää selvitettää liiketoiminnan tiedon tarpeiden vasteaikatarpeet, jotta voidaan priorisoida kehitystä oikeisiin kohteisiin. Kaikki liiketoiminnan prosessit eivät tarvitse sekunnilleen ajantasaista tietoa. Mitä enemmän prosessin kriittiset vaiheet ovat ihmisten vastuulla, sitä suurempia viiveitä yleensä syntyy. Ihmiset eivät voi reagoida jatkuvasti reaaliaikaisesti tapahtumiin. Onkin tärkeää minimoida ja automoida sellaisia vaiheita, joihin voidaan vaikuttaa tiedon keräämis- ja käsittelyvaiheissa, analysointivaiheessa ja tiedon pohjalta tehtävän toiminnan vaiheissa.

Koska maailma ei ole yksinkertainen ja yritysten tietolähteet ja tietotarpeet syntyneet ja kehittyneet eri tavoin ja eri aikoina, on tärkeää ottaa reaaliaikaisessa Business Intelligencessä huomioon kaikki erilaiset tietojen integrointitavat. Tietoja pitää pystyä käyttämään suoraan sen syntysijoilta, suoraan operatiivisista järjestelmistä. Tietoa pitää pystyä keräämään, muuntamaan ja lataamaan esimerkiksi historiatietoja sisältäviin tietovarastoihin ja datamarteihin. Lähteiden muuttunutta tietoa pitää siirtää nähtäväksi esim. Change Data Capture –menetelmin tietokannoista tai sitten tapahtumia kuuntelemalla palveluväyläratkaisuista tai viestijonoista. Tietokantojen replikointiominaisuuksiakin voi tarvittaessa hyödyntää, unohtamatta erilaisia historiallisia järjestelmiä, tiedostoja jne.

Kuten perinteisessä Business Intelligencessä, ratkaisuissa tulisi kiinnittää huomiota joustavuuteen, sillä jollei reaaliaikainen BI-järjestelmä pysty muuttumaan jatkuvasti muuttuvan liiketoiminnan myötä, se on turha investointi. Myös tietojen konteksti ja metatietojen hyödyntäminen on tärkeää. Käyttäjille tulisi tuottaa mahdollisimman oleellista, selkeää ja helppokäyttöistä tietoa.

Oleellisinta on kuitenkin se, että reaaliaikainen BI upotetaan jokapäiväiseen operatiiviseen toimintaan, suoraan sinne, missä jokapäiväisiä pieniä päätöksiä tekevät ihmiset ovat. Jos tarvittavaa tietoa saadakseen pitää poistua esim. asiakaspalveluprosessin muusta ympäristöstä ja hakea tietoa vaikka kuinkakin hienon BI-portaalin kautta, jää oikea-aikaisuuden hyöty saavuttamatta ja usein mahdollisuudet käyttämättä. Parasta olisi jos reaaliaikaista BI:tä ei kukaan edes erikseen huomaisi, oikean muotoista ja oleellista tietoa vain olisi siellä missä sitä tarvitaan…

Mikko Muurinen

Linkkitiistai 3.3.2009

03.3.2009

Maaliskuun alun linkkeinä on kirjoituksia, joissa käsitellään Business Intelligencen kulutuksen helppoutta, reaaliaikaisen tiedon hyödyntämistä, data-integraation nykymahdollisuuksia sekä R tilasto-ohjelmistoa.

Claudia Imhoff kirjoittaa BeyeNETWORKin blogissa kuinka Business Intelligencen ei tulisi olla vain helppokäytöistä, vaan myös helposti kulutettavaa. BI-hankkeissa tulisi keskittyä myös siihen, miten, missä ja kuinka ihmiset hyödyntävät iformaatiota, eikä vain kuinka valitaan aineisto, muotoillaan raportti, luodaan graafi jne.

Doug Henschen kirjoittaa InformationWeekissä kuinka reaaliaikaista tietoa ja analyyttistä näkemystä voidaan käyttää ratkaisemaan todellisia liiketoiminnan ongelmia. Tuottava teollisuus ja jälleenmyyjät ovat tarttumassa uudenlaiseen kysynnän ennustamiseen, jonka takia ajantasaisen ja yksityiskohtaisen tiedon tarve on kasvamassa huomattavasti. BusinessWeekin artikkelissa puolestaan käsitellään BI-ratkaisuiden kykyä auttaa yrityksiä analysoimaan tietojaan kustannusten säästämiseksi tai myyntimahdollisuuksien luomiseksi.

Data-integraation imago-ongelmaa käsitellään Information Managementin Rick Shermanin kolumnissa. Data-integraatio mielletään vain ETL:n synonyymiksi, joka puolestaan on rinnastettu tietovarastointivälineeksi. Nykyiset mahdollisuudet integroida tietoja kaikkiin yrityksen liiketoimintatilanteisiin ja tarpeisiin usein unohdetaan. Shermanin mukaan yritykset ovat haaskanneet paljon mahdollisuuksia jättämällä informaatioonsa aukkoja. Tietojen integroinnin ja puuttuvan tiedon paikkaamisen kustannukset ovat olleet siilo-ajattelun takia kovia.

Hub Solution Designsin blogissa katsotaan, miten yksi informaation hallinan pala, master-tiedon hallinta, MDM, sopii yritysten arkkitehtuureihin, varsinkin SOA-mielessä. Saman blogin vanha kirjoitus kymmenestä parhaasta MDM-ratkaisun käytännöstä on tässä yhteydessä vielä oikein hyvin ajan tasalla.

Lopuksi vielä hieman Open Source -tilasto-ohjelmisto R:stä. Data Evolution -blogissa referoidaan paneelikeskustelua R-ohjelmiston käytöstä muutamissa suurissa R-käyttäjäyrityksissä, kuten Google ja Facebook. Kirjoituksessa on hyvin vedetty yhteen R:n vahvuudet ja heikkoudet yrityskäytössä.

Mikko Muurinen