Utforskende dataanalyse

Ikke bidra til mer datasløsing, Chase Davis oppfordrer journalister til å få empati for dataene sine og å lære seg R.

Den vanlige måten å behandle data på er å forhøre de. Man bør heller utforske dataene og la de fortelle deg hva de egentlig har å si. For å dra det over i journalistbegrep bør man gå fra lukkede spørmål til åpne spørsmål. Man må studere hvordan de ulike variablene oppfører seg og hvordan de på virker hverandre. Hvor er utliggerne? Hva er trendene? Finnes det korrelasjon og medfører det kasualitet? (Forsiktig så du ikke begår en klassisk tankefeil her)

En annen grunn til å utforske dataene nøye er å ikke bidra . Vi sender forespørsler om datasett til det offentlige, får de i hus, publiserer saken og glemmer de. Dette er å kaste bort offentlige ansattes tid og skattepenger. Vi må ta vare på dataene og gjenrbuke de.

Firestegsmodellen

Davis presenterte en firestegsmodell til behandling av data.

  1. Sjekke tilstanden til dataene. Er dataene strukturert? Er det feil i? Inneholder feltene det de sier at de inneholder?
  2. Analyse av en variabel. Dette er det journalister er best på. Finne maks, min og utvikling over tid.
  3. Korrelasjon. Studere hvordan variablene påvirker hverandre.
  4. Kitchen sink. En samling frekke metoder for å komme videre.

For å utføre disse stegene anbefaler Davis at vi kommer oss i gang med R så fort så mulig. På github har han lagt ut et R-skript som viser de ulike stegene. Det er ingen tvil i at dette er et kraftig verktøy det er verdt å bruke tid på å beherske.

Kommandoen sum gir deg et lett overblikk over maks, min, mean og median for feltene dine . R hjelper deg også til å gjøre enkle visualiseringer til å forstå dataene dine bedre. Et scatter plot hjelper deg å finne utliggere, datapunkter som skiller seg ut fra resten. Hva skyldes det? Er det åpenbare årsaker (størrelse i forhold til andre) eller er det et skup?

R hjelper oss også å se på hvordan variablene oppfører seg i forhold til hverandre. Principal Component Analysis og Multi Dimensional Scaling er to metoder for å dypdykke i dataene.