Hva er Big Data?

Alle snakker om big data og algoritmer. Hva er det egentlig?

I 1839 begynte den amerikanske marineoffiseren Matthew Fontaine Maury å samle inn informasjon fra store mengder gamle sjøkart, skipslogger og bøker med informasjon om strømninger, vind og værforhold på spesifikke datoer. Hver for seg ga «datakildene» ikke mer informasjon enn det man kunne lese fra kilden selv. Da han satte alt sammen, ble det et komplett kart over Atlanterhavet hvor informasjon om vær- og vindforhold ble angitt på korrekte koordinater – det første sporet av det vi i dag kaller big data.

En algoritme er som et sett med oppskrifter – hvis du følger det, gir det et bestemt resultat

I Magasinet kan du lese om hvilke muligheter og utfordringer fenomenet big data byr på. Det høres avansert ut og har blitt et motebegrep. Vi får stadig vekk høre at big data vil revolusjonere både næringslivet, helsesektoren og forskningen. I hverdagen merker vi big data best med spesialtilpasset reklame og Spotify som viser oss musikken vi liker. Men hvordan fungerer big data egentlig?

Big data er som en ball av informasjon som er så gigantisk at det er umulig å få oversikt med for eksempel et vanlig Excel-ark. Ikke bare er det stort, men dataene blir kastet rundt uten noe system – det er Twitter-meldinger, dokumenter, video og lyd – et fullstendig kaos. Den kaotiske ballen av data vokser også lynraskt – ofte er det utfordrende nok å lagre alt før det forsvinner igjen.

Det er når man kombinerer ustrukturert og strukturert data at man virkelig kan gjøre gull av gråstein. Frittstående rådata er ganske uforståelig – nærmest som abstrakt kunst. Med strukturert data vet man kun det grunnleggende om en person, med ustrukturert data får man plutselig kunnskap om hva du interesserer deg for. Først da kan vi snakke om verdifull informasjon – du får skreddersydde tilbud kastet mot deg med skremmende presisjon, men enda viktigere: medisinsk behandling kan for eksempel bli tilpasset akkurat deg. Ingen bieffekter, og mye større sjanse for suksess.

Det mest tydelige sporet av big data vi ser er annonser fra for eksempel Amazon. De serverer lynraskt nye forslag mens du ferder gjennom butikken. De bruker «cookies» – små informasjonskapsler som lagrer et lite stykke informasjon om deg som de husker til neste gang. De husker hvilke nyheter du liker å lese, reisemål du besøker og passordet ditt på Facebook. Alt dette er mulig på grunn av modeller for matematiske beregninger – såkalte algoritmer.

En algoritme er som et sett med oppskrifter – hvis du følger det, gir det et bestemt resultat. Når du baker en kake så følger du oppskriften trinnvis til kaken er ferdig. Du benytter systematisk kunnskap for å løse en oppgave. Datamaskinen bruker oppskriften for å gi deg det beste resultatet – fordi den vet at du googlet Kim Kardashian for to uker siden. Algoritmer er med andre ord ikke noe mer avansert enn en formel som blar seg gjennom enorme mengder data på et blunk, og vet hva den leter etter.

I dag snakker vi om datamengder som mest sannsynlig ville fått Matthew Fontaine Maury til å besvime, men metoden han brukte er i bunn og grunn ganske lik dagens system. Datamaskiner gjør egentlig ikke arbeidet noe bedre, bare uendelig mye raskere.