Utblick

”Folk kommer hit för att dela med sig”

På konferensen Dataharvest i Belgien har datajournalister samlats sedan 2009 för att dela med sig av sina kunskaper. Lasse Edfast besökte Mechelen utanför Bryssel.

Lasse Edfast

Text och bild

På en träbrygga under ender en stenbro i Mechelen, en liten stad strax utanför Bryssel, dansar några av Europas bästa datajournalister. Exakt vilka de dansande är kan få vara osagt, men enligt ett rykte är det den nederländska organisationen Follow The Money som har tagit dit kassarna med öl. Någon gång mellan fyra och fem på morgonen tystnar musiken då bluetooth-högtalaren till slut ramlar ner i kanalen; årets Dataharvest-rejv börjar gå mot sitt slut och kisande mot solen lämnar vi tunnelvalven.

Fem timmar senare berättar journalister från Der Spiegel hur de använt olika dataset för att granska internationell vapenhandel och någon har skrivit ett script för att se vilka personer vi döper våra städers gator efter.

Datajournalistik har alltid varit lite av en subkultur och av någon anledning har inte den exploderande tillgången på både data och behovet av dataanalys ändrat på det. Hittills. Kanske är det växande intresset för något så nördigt som Dataharvest ett tecken på att något håller på att hända. 

Datajournalistikfestivalen startade 2009 då ett 15-tal journalister samlades i Bryssel för att försöka ta reda på vad EU:s jordbruksstöd egentligen gick till. Några veckor tidigare hade siffrorna blivit offentliga och nu skulle det alltså ”skördas”. Staffan Dahllöf, svensk frilans baserad i Köpenhamn med inriktning på EU, var en av dem som var med redan då.

– Sedan dess har jag ångrat att jag inte lärde mig mer datametoder. Men nu är jag 68, andra får lära sig och sen hjälpa oss andra. 

När Scoop träffar honom kommer han från en session där journalistnätverket Lighthouse Reports visar hur man kan granska de algoritmer som påverkar alltmer i vår välfärd.

– Lighthouse-gänget är ju otroliga, och ett exempel på att det skett en otrolig professionalisering inom datajournalistikfältet.

Nu för tiden anordnas konferensen här i Mechelen en gång varje år, vanligtvis under fyra försommardagar. Det är belgiska Arena for Journalism in Europe som står som arrangör, men då organisationen är icke-vinstdrivande och med små resurser är det framför allt en kollektiv insats där de flesta föreläsare står för både eget boende och resa, och delar med sig utan arvode.

Robert Gebeloff, grävande journalist på The New York Times, har varit en del av datajournalistikkulturen i 25 år och föreläst här på Dataharvest sedan tio år. Han berättar för Scoop om den förändring han tycker sig se.

– Det jag försöker berätta är att en grävande journalist behöver så många verktyg som möjligt i sin låda, och då även verktyg för att kunna förstå stora mängder data. När jag började var vi absolut en egen liten grupp som intresserade oss för tabeller men nu är datajournalistik en del av alla nyexaminerade journalisters kunskap och något som efterfrågas i nästan alla jobbannonser, i varje fall på The Times.

Dataharvest har vuxit rejält sedan starten 2009.

Här på Dataharvest har Robert Gebeloff bland annat en session om regex, en metod för att exempelvis hitta rätt data i PDF:er och stoppa in den i tabeller (se faktaruta). De enkla metoder han visar har varit avgörande i flera av hans granskningar, bland annat en där han kunde visa hur de domare som USA:s förre president Donald Trump har tillsatt röstar.

– Vi har ofta en känsla för hur någonting är, eller vi tror vi vet någonting, men som journalister måste vi visa hur det faktiskt ligger till. Vi trodde nog allihopa att Trumps domare röstade annorlunda än andra domare, men med hjälp av tusentals dokument och några få rader kod kan vi säga exakt hur de röstar.

De där raderna med kod är egentligen inte svårare än något annat journalister lär sig varje dag: ett par tecken för att hitta det stycke där domarnas namn förekommer, en funktion för att filtrera bort olika ord och efter det stoppa in namnen i en tabell. Låt sen en dator köra koden på alla domar från alla domstolar man är intresserad av.

– Därifrån är det sen helt vanlig journalistik. Regex hjälper dig bara med de enorma högarna med dokument, du måste själv berätta historien.

Andra här jobbar med betydligt mer komplicerade saker, sånt som nästan inga journalister förstår. Irene Larraz, journalist på spanska fact checking-organisationen Newtral, begriper själv inte alltid vad ingenjörerna på hennes redaktion gör när de bygger AI-modeller men säger till Scoop att hon är tacksam över hur de hjälper henne att hitta bra uppslag.

– Med hjälp av maskininlärningen kan vi sortera ut de intressantaste uppslagen att gå vidare med. I stället för 1000 tweets att faktagranska flaggar programmet kanske 20.

”En grävande journalist behöver så många verktyg som möjligt i sin låda, även verktyg för att kunna förstå stora mängder data.”

Robert Gebeloff, The New York Times

Newtral är en relativt liten organisation men ligger långt fram i att använda sig av AI och har för det anställt ett halvdussin ingenjörer. Men ingenjörer förstår framför allt teknik och inte alltid  journalistik, vilket skapat en del problem enligt Irene Larraz.

– Det svåra är att få dem att jobba bra ihop med oss journalister, då behöver man journalister med datakompetens och det är ont om dem. Vi hittade en i Mexiko förut men han försvann snabbt. De som har kompetensen kan välja fritt var de vill jobba så de hoppar omkring mellan olika redaktioner som de vill. 

En annan svensk journalist som varit med länge, om än inte från början, är Sandra Foresti, lärare på JMG i Göteborg. Dataharvest är hennes favoritkonferens ”alla kategorier” just eftersom allting här bygger på att dela med sig.

– Folk kommer inte hit för att stajla och säga hur duktiga de är, utan för att dela med sig att hjälpa varandra. Det är generöst och vänligt, även de mest kända journalisterna från hela Europa är där, och alla delar med sig som jämbördiga. Det är därför jag säger till mina studenter att åka hit, och jag tror att många som bara varit på Gräv skulle bli överraskade av ”dela med sig-stämningen” här.

En av de saker som Sandra Foresti delar med sig av här är verktyg för scraping eller ”webbskrapning”, alltså hur man automatiserat kan samla ihop information från en webbsida (se faktaruta för hennes tre favoritverktyg). Det kan vara uppgifter för HVB-hem, protokoll på kommunens hemsida eller inlägg i sociala medier – allt du kan se på en skärm kan du på det ena eller andra sättet skrapa ner, och kommer du på hur informationen är strukturerad så kan du bygga egna databaser utifrån den.

– Jag tycker om att bygga upp databaser så att de fungerar. Det logiska steg-för-steg-tänket, det tycker jag är roligt.

Under Dataharvest skriver Sandra Foresti en tenta om just databasmodellering, men när hon undervisar i datajournalistik på JMG försöker hon placera kodning och olika tekniska applikationer i bakgrunden. 

– Det som är viktigt är egentligen själva tänket och inte verktygen. Att med hjälp av strukturerad data kunna dra slutsatser och berätta något på ett journalistiskt sätt. Sen så finns det en massa olika verktyg och de utvecklas hela tiden, och då är Dataharvest bra för att följa med i utvecklingen och få inspiration. 

Sandra Foresti.

Hemma i Sverige vill Sandra Foresti avdramatisera datajournalistiken, göra den till ett verktyg och en kompetens bland alla andra.

– Precis som att intervjua människor är en naturlig del av journalistiken, och de verktyg som behövs för att intervjua människor – bandspelare, videokamera, kunskap om hur man lägger upp och genomför en intervju. Datajournalistik ska vara lika naturlig, i alla fall grunderna – att kunna hantera data, att förstå vad strukturerad data är för någonting, det borde vara en helt naturlig del av journalistiken. Och jag skulle vilja att det syntes tydligare på grävseminarer och liknande.

Ett av de mer välbesökta seminarierna här är Researching alt-right and conservative groups online: blueprints for an investigation. Under en fullmatad timme beskriver Anna Gielewska, grävande journalist från Polen och chefredaktör för VSquare.org, hur hon och journalister från bland annat Slovakien, Kroatien, Bulgarien, Lettland och Ungern i projektet Firehose of Falsehood bland annat analyserade tusentals kanaler på chat-tjänsten Telegram för att förstå hur rysk krigspropaganda sprids på och mellan olika sajter. I presentationen samsas nästan alla datajournalistiska metoder och verktyg man kan tänka sig: scraping-script för att samla ihop meddelanden i olika Telegram-trådar, nätverksanalys i programmet Gephi, en rad verktyg för visualisering, tjänster för att kolla vem som äger en internetdomän, och mycket mer. Anna Gielewska påpekar att risken för tool fatigue – ”verktygströtthet” – är stor, men också att alla inte behöver använda alla verktyg när så många journalister jobbar ihop.

– Kraften i den här typen av samarbete är att vi har väldigt olika tankesätt och färdigheter i teamet, säger Anna Gielewska.

– Kraften i den här typen av samarbete är att vi har väldigt olika tankesätt och färdigheter i teamet, säger Anna Gialewska till Scoop. Det är omöjligt att hitta en person, eller ens tre personer, som är lika skicklig i alla dessa verktyg, tillvägagångssätt, metoder och så vidare. Men kan vi koppla ihop olika färdigheter så kan vi ta reda på väldigt mycket om något som vi förut knappt visste något om alls.

I teamet har också flera journalister helt utan datajournalistikkunskaper ingått. Exempelvis kunde man koppla ett antal Face-book-konton till Telegram-datan, och efter att ha identifierat Facebook-profilerna gällde helt vanliga journalistiska regler: förstå vilka personerna är, vad som är relevant att berätta om dem och sen berätta storyn.

– Vi skrev en serie reportage där vi visade vilka personer som var viktiga för att sprida propagandan i olika länder. Och det kommer att kunna bli mycket mer, det här är ett pågående projekt där vi har massor av mer data att analysera, säger Anna Gielewska.

På kvällen hittar jag Irene Larraz från Newtral på en uteservering tillsammans med ett tiotal andra journalister. Alla råkar vara från medelhavsområdet: två från Turkiet, en från Syrien, sex från Grekland, en från Portugal, två från Italien. Grekerna pratar om hur de känner sig övervakade efter Predator-skandalen och Irene Larraz berättar om spanska journalisters erfarenheter av det israeliska spionprogrammet Pegasus. Sen känner någon igen henne från en föreläsning och vill veta detaljer kring modellen för att automatiskt flagga tweets, eller inlägg på X som det egentligen heter nuförtiden, för faktagranskning.

– Går det att sätta en högre trigger-nivå? frågar en av journalisterna från Grekland. Alla politiker i Grekland ljuger hela tiden så det hade ju blivit alldeles för många röda flaggor annars.

Irene Larraz lovar att undersöka huruvida modellen fungerar på grekiska och om hon kan skapa ett konto åt henne som frågar. Några telefoner skickas runt bordet så att alla får skriva in sina kontaktuppgifter i olika anteckningar och listor. Och så finns ju gruppchatten på Signal, döpt till Rave, där dansen under bron styrdes upp igår. Där finns namn och nummer till ett hundratal trötta datajournalister.

Senaste Numret

Prenumerera eller beställ lösnummer

omslag nr 4

Global Investigative Journalism Conference i Göteborg får stor plats även i detta nummer, med bland annat en matig genomgång av de bästa handfasta tipsen som lärdes ut på konferensen.

Läs även om SvD:s Spotifygräv, oligarken som äger en av Sundsvalls största fabriker och journalisterna som jagar en hundplågare i Malmö.

Ute vid lucia.

Beställ här