Tunnisteet ‘tiedon hallinta’

Mikä ihmeen Big Data?

17.8.2011

 

Jos lukee IT-alan julkaisuja, huomaa nopeasti, että tapetilla on taas uusi kuuma aihe, josta kaikki puhuvat. Big Datasta kirjoitettuja juttuja lentää silmille yhä useammin. Big Data nostettiin hiljan myös Gartnerin Hype Cyclen for Emerging Technologies 2011 -analyysiin.

Mitä Big Data sitten onkaan?

Big Data: water wordscape

Big Datalla tarkoitettiin aluksi sellaista tietomäärää, jota ei käytännössä pystytty lataamaan relaatiotietokantoihin analysoitavaksi. Joko sitä oli liian paljon tai sitten se oli strukturoimatonta.

Tiedon määrän kasvu on tunnetusti ollut eksponentiaalista ja kaiken tarvittavan tiedon hakeminen, lataaminen, varastointi, jakelu, analysointi ja visualisointi on vaikeutunut kaiken aikaa. Tietoa tursuaa esim. uudenlaisista antureista, RFID-tägeistä tai reaaliaikaisemmasta prosessien seurannasta. Kaikesta tarvittavasta tiedosta on lisäksi reilusti suurin osa struktroimatonta, esim. uutistietoa, analyysejä tai dokumentteja.

Pelkkä tiedon määrä ei pysynyt pitkään ainoana Big Datan määrittäjänä. Joillain isot tietomassat saattavat tarkoittaa petatavuja, joissain yrityksissä vaikeuksia tulee jo huomattavasti pienemmillä määrillä. Useat tietokantateknologiat ja tietovarastot kykenevät fyysisesti käsittelemään suuriakin tietomassoja, mutta silti ongelmat eivät ratkenneet.

Kuvaukseen piti lisätä myös tiedon määrän (Volume) lisäksi tiedon muutos- tai tarvitsemisnopeus (Velocity) ja monipuolisuus (Variety). Mikä tahansa näistä kolmesta saattaa aiheuttaa ongelmia perinteisissä tiedon hallinnan ratkaisuissa…

Big Dataan liitetään usein myös pilvipalvelu-konsepti, sekä käsittelyn hajauttamisen, että erilaisten tietolähteiden hyödyntämisen näkökulmasta. Suhteellisen edullinen skaalautuvuus esim. MapReduce -tyyliseen käsittelyyn, jossa jaetaan sama kysely sadoille tai tuhansille koneille, mahdollistaa aivan uudentyyppisten analyysien teon. Enää ei tarvitse odottaa yön yli analyysien valmistumista.

Monessa kohtaa yllämainittua kuvausta tulee kuitenkin mieleen, että tämähän on sitä samaa asiaa, josta ollaan puhuttu jo kauan… Massiiviset tietovarastot, data mining, reaaliaikainen BI, useiden tietolähteiden yhdistäminen jne. ovat olleet osana ratkaisuja jo pitkään. Itse asiassa suurin osa kaikista Big Datan yhteydessä mainituista hyödyistä ja käytännön esimerkeistä on tehty jo aiemminkin.

Mikä sitten on muuttunut? Se, että uudet ratkaisut mahdollistavat yhä edullisemmin ja helpommin Big Data -tyyppisen tiedon hyödyntämisen. Eli tietoa voi olla aiempaa enemmän, useammasta lähteestä, jopa reaaliaikaisena, ja sitä pystytään käsittelemään ja analysoimaan yhä edullisemmin ja tehokkaammin.

Enää ei tarvitse lisätä rautaa rajalle, tehdä hirveitä virityksiä  tai jatkuvaa optimointia tietokantoihin tietomassojen kasvaessa. Jos lähtisi esim. analysoimaan perinteisellä tavalla Twitter- ja muun sosiaalisen median viestien vaikutusta myyntiin ja asiakastyytyväisyyteen, saisi pistää melkoisesti rahaa tietovaraston rautaan, lisensseihin ja latausprosesseihin.

Kannattaa kuitenkin tehdä tässäkin asiassa “reality check” – miksei parikin. Suurta osaa bisnes-ongelmista ei ratkota lisäämällä tiedon määrää tai päivitysnopeutta. Tärkein osa koneistoa on analysoijan ja tiedon hyödyntäjän pääkopan sisällä. Jos ei osata muodostaa oikeita kysymyksiä, ei pystytä hyödyntämään suurta osaa tiedosta. Mikään kone ei tuota tietämystä ihmisen puolesta.

Tiedon laatu on myös entistä tärkeämpää. Mitä väliä on valtavista tietomassoista, jos tiedot ovat vääriä tai ristiriitaisia, poissa kontekstistaan tai muuten laaduttomia? Millaisin oletuksin tietoja kerätään, millaisin prosessein tieto on syntynyt ja mitä on mahdollisesti jätetty pois? Onko nämä seikat kuvattu tiedon hyödyntäjälle?

Big Data on vielä alkuvaiheissaan. Aikaiset omaksujat ovat alkaneet tutkia asiaa ja Big Data tulee nousemaan vielä hypetyksessä hieman ylemmäs, ennen kuin ensimmäiset isot epäonnistumiset ilmaantuvat ja turhat kuvitelmat karisevat.

Kypsyessään Big Data mahdollistaa useilla aloilla – ja yhä pienemmillekin yrityksille – uudenlaista Business Intelligenceä. Mutta ei kannata pidättää hengitystä… Mainstreamia Big Datasta tulee vasta muutaman vuoden kuluttua. Tällä hetkellä uusia mahdollisuuksia kannattaa kuitenkin käyttää tietyissä erityistapauksissa, joissa tarvitaan innovatiivisia ratkaisuita ja joihin nykyiset menetelmät eivät pure.

Kuitenkin jo nyt Business Intelligence- ja integraatioratkaisuissa kannattaa ottaa huomioon Big Datan vaatimukset niin erilaisten tietolähteiden reaaliaikaisessa käytössä, skaalautuvuudessa kuin käsittelyn hajauttamisessakin. Nousevatpa esiin sitten termit, teknologiat tai tuotenimet kuten cloud computing, Hadoop, NoSQL, NewSQL, MapReduce, MPP, BigTable, 1010data, Netezza tai Teradata, on oltava valmiita. Liiketoiminnan tarpeet saattavat tarvita uusien menetelmien hyödyntämistä nopeallakin viiveellä. Älä unohda myöskään tiedon laadun hallinnan nivomista näihin…

Minua kiinnostaisi tietää, onko teillä Big Dataan liittyviä haasteita tai kokemuksia… Laita kommenttia niin saadaan keskustelua pystyyn! Jos julkinen kommentointi ei houkuta, laita vaikka suoraan meiliä mikko.muurinen -at- infobuild.fi…

 

Ps. Kerään seuraavaan Linkkitiistaihin parhaimpia Big Dataan liittyviä linkkejä.

Pps. Tilaa blogin RSS-syöte, niin saat uusimmat blogikirjoitukset suoraan syötteiden lukuohjelmaasi, eikä sinun tarvitse käydä tarkistamassa päivityksiä sivustolta!

 

Mikko Muurinen

 

Linkkitiistai 22.6.2010

22.6.2010

Kesälomien kynnyksellä linkkitiistaihin on kasattu näkökulmia tiedon laadusta ja master-tiedon hallinnasta; niiden vastuukysymyksistä, hyödyistä ja kustannuksista.

BeyeNETWORKin tuoressa artikkelissa Craig Izydor tuo hyvin esille kuinka liiketoimintajohdon on oltava viime kädessä vastuussa tietojen laadusta. Ilman johdon ymmärrystä ja tukea ei tiedon laadun ja luotettavuuden ongelmista päästä. Johdon on luotava yrityksissä tietoisuus siitä, ettei ulkoisen tai sisäisen tiedon huonoa laatua sallita. 

Dan Power perustelee Hub Solution Design Blogissa miksi master-data -ratkaisut ovat järkeviä. On hyvä olla olemassa oikeasti neutraali paikka asiakas-, tuote- ja muiden master-tietojen hallintaan. CRM-ja ERP-järjestelmiä ei vain ole suunniteltu käsittelemään master-dataa tehokkaasti. Niissä ei ole tietojen laadun hallinnan prosesseja koko yrityksen master-tietojen täydelliseen, ajantasaiseen ja yhdenmukaiseen hallintaan.

Samassa blogissa käsiteltiin viime vuonna master-tiedon merkitystä operatiiviselle Business Intelligencelle. Reaali-aikainen raportointi tuo erilaisia vaatimuksia MDM-ratkaisuille kuin operatiivisten järjestelmien tarpeet.

International Association for Information and Data Quality (IAIDQ) :n uutiskirjeessä professori Carlo Batini ja tutkija Monica Scannapieco käyvät perusteellisesti läpi kuinka suoritetaan kustannus-hyöty-analyysejä tiedon laadun alueella. Artikkelissa kerrotaan, miten mitataan puutteellisen tiedon laadun aiheuttamat kustannukset, kustannukset tiedon laadun parantamistyöstä ja hyödyt tällaisesta parantamisesta. 

Muutkin IDQ Newsletterin artikkelit ovat mielenkiintoista ja osuvaa luettavaa tiedon laadun aihepiiristä kiinnostuneille.

Lopuksi Wayne Eckerson vastaa TDWI:n sivuilla seitsemään yleisimpään master-tiedon hallinnan hankkeista kysyttyyn kysymykseen:

1. Mikä on paras paikka aloittaa MDM-hanke?
2. Miten rahoittaa MDM-hanke?
3. Millainen arkkitehtuurin tulisi olla?
4. Mikä rooli tietovarastolla on?
5. Mitä organisatorisia sudenkuoppia tulee vastaan?
6. Mitä teknisiä sudenkuoppia tulee vastaan?
7. Miten toteuttaa onnistunut MDM-hanke?

 

Näiden linkkien myötä toivotan kaikille lukijoille oikein hauskaa Juhannusta!

Mikko Muurinen

Linkkitiistai 11.8.2009

11.8.2009

Kesälomien jälkeen on taas aika käydä läpi useita hyviä Business Intelligence- ja integraatio-aiheisia kirjoituksia. Linkit vievät kirjoituksiin, jotka käsittelevät Business Intelligencen hyötyjä ja niiden mittaamista, hyvää tietoa ja sen hallintaa sekä edellytyksiä onnistuneeseen data-integraatioon.

Sarah Burnett kirjoittaa vuoden takaisessa blogissaan siitä, miten tärkeää on esittää tieto sillä tavoin, että niiden perusteella on mahdollisimman helppo toimia. Tiedon pitää olla relevanttia, sidoksissa muihin muuttujiin, kerätty useasta luotettavasta lähteestä ja toimitettu oikeaan aikaan. Mitä helpompaa tietoa on käyttää laajalti ja ryhmän viisautta keräten, sen paremmin sen pohjalta tehdyt päätökset tukevat liiketoimintaa.

Sekä Dorothy Millerin että Peter Thomasin kirjoitukset antavat hyviä vinkkejä siihen, mitä asioita kannattaa mitata BI:n hyödyn arvioinnissa. Hyvä BI antaa käyttäjille mahdollisuuden tehdä parempia liiketoimintapäätöksiä. Tästä syntyvät vaikutukset saattavat olla yrityksen kannalta massiivisia.

BI Question Blogissa Timo Elliott vetää yhteen onnistuneen BI:n edellytyksiä. Standardoimalla ja rationalisoimalla BI koko yrityksessä voidaan saavuttaa kustannussäästöjä, parempi hallinta tietoon sekä parempi tuki liiketoiminnan tavoitteiden seurannalle. Näistä seuraa suoria kilpailuetuja.

Datan hallinnasta on kirjoitettu muutamassa blogissa. Markkinoinnin asiantuntija Mary Schmidt arvioi sitä, miten tärkeää on, että yrityksellä on hyvää dataa. Mitä kaikkea tiedon hallinta oikein on, kysytään puolestaan BeyeNetworkin blogissa.

Data Doghousen People, Process & Politics -sarja on päivittynyt kolmella uudella kirjoituksella. Rick Sherman jatkaa aihetta kertomalla edellytyksistä, joilla taataan data-integraation hyöty liiketoiminnalle. Tarvitaan konkreettisia liiketoiminta-ongelmia, joita lähdetään ratkomaan. Integraatioratkaisuiden hankinta-portfoliolla voidaan taata integraatioratkaisuiden hyödynnettävyys yli liiketoiminta- ja it-sektorien. Integraatio-kompetenssi-keskuksen avulla voidaan organisoida ja järkeistää integraatioponnistukset koko yrityksen tasolla.

Mikko Muurinen