On 1. mars 2013 by Lasse Lambrechts

Maskinlæring

Jeff Larson og Chase Davis viste praktisk bruke av maskinlæring i journalistikk.

Jeff Larson fra ProPublica gikk gjennom hvordan de brukte maskinlæring på prosjektet The message machine.: «Political campaigns send many variations of each email to supporters. We’ve been collecting emails from political campaigns and tracking the variations.»

Rundt 700 mennesker bidro med 40 000 eposter som de hadde fått tilsendt fra de to leirene. Disse 700 hadde også oppgitt demografisk informasjon om seg selv. Målet var å kunne analysere hvilke type eposter som ble sendt til hvilke gruppering av mennesker.

For å kartlegge variasjonene i språket i de ulike epostene ble de benyttet Document Clustering. For enkle prosjekter har Larson benyttet MinHash-algorimten (funnet opp av Altavista i sin tid) og sitt egenproduserte kommandolinjeverktøy Fast cluster. I «The Message Machine» har han derimot gått for Term Frequency – Inverse-Document Frequency (TD-IDF, grundig gjennomgang finner du her)og Cosine Similarity (fantastisk godt forklart på Stack Overflow).

Etter å ha samlet dokumentene i fornuftige grupper var målet å se hvilke grupper av dokumenter som ble sendt til hvilke type mennesker. For å komme til bunns i dette valgte Larson å bruke en maskinlæringsmetode kalt decision tree, eller beslutningstre på norsk. Decision tree er en av de enkleste algorimtene innenfor maskinlæring. Algorimten blir servert et testsett og prøver å finne regler utfra hva den blir servert. En fordel med Decistion Tree er at det som kommer ut er enkelt å tolke for mennesker.

Weka er et verkøty hvor man kan leke seg med ulike maskinlæringsalgorimter.

Les bloggposten How ProPublica’s Message Machine Reverse Engineers Political Microtargeting for en grundigere gjennomgang

Til slutt kom vår venn Chase Davis inn igjen og gikk gjennom to av sine prosjekter: Fec-standardization og Citizen quote. Han gikk også gjennom mange av konseptene fra sin tidligere seanse.