BTs metoderapporter
Prisutdelingen under årets konferanse ble en serdeles hyggelig opplevelse for Bergens Tidende. Serien «Spillet om klimakronene» ble belønnet med både SKUP-diplom og IR-prisen.
Prisutdelingen under årets konferanse ble en serdeles hyggelig opplevelse for Bergens Tidende. Serien «Spillet om klimakronene» ble belønnet med både SKUP-diplom og IR-prisen.
Liste over datajournalistikk og multimediaprosjekt fra BT i året som gikk:
Lenkefest fra Hauststormen: En oversikt over verktøy og inspirasjon om datajournalistikk.
Lightning talk – versjonen av Nicar-oppsummering.
Sit på flyplassen med 1 times Boingo-tid å bruke. Så, fort og gale:
Dette har vore ein strålande konferanse, ein nerdenes hemn. Arrangørmessig er Nicar langtfrå den mest profesjonelle, men som fagkonferanse for dette viktige journalistiske området er det mykje å ta med seg heim.
Sånn, det var innsalet for å få reise neste år.
Ein amatør får fleire krasjkurs på ein dag. Og likar det.
Eg er ingen kodar. Truleg blir eg det aldri heller. Då kameratane heiv seg over Commodore 64-tastaturet og skreiv maskinkode på 1980-talet, laga eg musikk i dårlege musikkeditorar.
Flere og flere leser historiene våre på mobil og nettbrett. Vi må sørge for at budskapet til historiene våre ikke endrer seg etter hvilken enhet man ser visualiseringen på.
Miranda Mulligan og Pete Karl II gikk gjennom hvordan mobiltelefoner endrer måten vi må tenke på visualiseringer på. De to sentrale begrepene i design for mobil er «Mobile first» og responsivt design. Sistnevnte betyr at man lager en nettside som endrer seg etter hvilken type enhet man ser den med.
Responsivt design er veldig omdiskutert, noe Brad Frost adresserer i artikkelen: Responsive Web Design: Missing the Point
TIl nå har de fleste av oss laget visualiseringer for desktop uten tanke på hvordan utviklingen vil bli. Mulligan manet forsamlingen til å tenke mer langsiktig og sørge for at visualiseringene og historiene våre kan ha evig liv.
Wilson Miner – When We Build from Build on Vimeo.
Her har eg ingenting aa laere, tenkte eg. Men saa, plutseleg, blei det interessant.
Eg er stuck at boot camp. Overtok billetten til ein kollega til eit kurs for saerskild paamelde. Saa viser det seg at det dreier seg om Excel, og vi byrja paa nivaaet «dette kallar vi celle A1».
Oh. My. God.
Alt du treng vite om Nicar finn du her.
Denne lenka er så viktig at den fortener eit eige blogginnlegg.
Eg har høyrd på Hadley Wickham som har snakka om datavitenskap for dei perplekse.
Eg er like perpleks, men kan hende postar Lasse Lambrechts noko klokt frå denne sesjonen.
Eg nøyer meg med eit bilete av kvar datavitskapen er i landskapet.
Ein liten, idealistisk organisasjon i North Carolina har laga eit nytt verktøy som skal knekke PDF-data for deg.
Kva skal ein gjere med dei trøttande PDF-ane når det er data du er ute etter?
I år er det 20 år sidan Adobe lanserte PDF-formatet. Framleis er det levande i bruk, ikkje minst hjå mange av dei som sit på data vi vil ha; offentlege organar.
Jeff Larson og Chase Davis viste praktisk bruke av maskinlæring i journalistikk.
Jeff Larson fra ProPublica gikk gjennom hvordan de brukte maskinlæring på prosjektet The message machine.: «Political campaigns send many variations of each email to supporters. We’ve been collecting emails from political campaigns and tracking the variations.»
Rundt 700 mennesker bidro med 40 000 eposter som de hadde fått tilsendt fra de to leirene. Disse 700 hadde også oppgitt demografisk informasjon om seg selv. Målet var å kunne analysere hvilke type eposter som ble sendt til hvilke gruppering av mennesker.
For å kartlegge variasjonene i språket i de ulike epostene ble de benyttet Document Clustering. For enkle prosjekter har Larson benyttet MinHash-algorimten (funnet opp av Altavista i sin tid) og sitt egenproduserte kommandolinjeverktøy Fast cluster. I «The Message Machine» har han derimot gått for Term Frequency – Inverse-Document Frequency (TD-IDF, grundig gjennomgang finner du her)og Cosine Similarity (fantastisk godt forklart på Stack Overflow).
Etter å ha samlet dokumentene i fornuftige grupper var målet å se hvilke grupper av dokumenter som ble sendt til hvilke type mennesker. For å komme til bunns i dette valgte Larson å bruke en maskinlæringsmetode kalt decision tree, eller beslutningstre på norsk. Decision tree er en av de enkleste algorimtene innenfor maskinlæring. Algorimten blir servert et testsett og prøver å finne regler utfra hva den blir servert. En fordel med Decistion Tree er at det som kommer ut er enkelt å tolke for mennesker.
Weka er et verkøty hvor man kan leke seg med ulike maskinlæringsalgorimter.
Les bloggposten How ProPublica’s Message Machine Reverse Engineers Political Microtargeting for en grundigere gjennomgang
Til slutt kom vår venn Chase Davis inn igjen og gikk gjennom to av sine prosjekter: Fec-standardization og Citizen quote. Han gikk også gjennom mange av konseptene fra sin tidligere seanse.