Cursus datajournalistiek: Les 2

Vanaf dinsdag 7 februari volg ik een cursus datajournalistiek. In vier lesavonden probeer ik meer structuur in mijn werk te vinden en heb ik een excuus om met data te spelen.

Wat is een typische Academy Award-winnende film? Zo begon ik mijn eerste blog over de cursus datajournalistiek ook. Ben ik in de tussentijd dichter bij het antwoord gekomen? Nog niet echt, maar ik weet nu waar ik mijn informatie vandaan wil halen en hoe ik mijn data kan omzetten naar iets bruiksbaars.

Zie hieronder de slides van het college van Peter Verweij.

Peter Verweij liet tijdens de tweede cursusavond datajournalistiek zien hoe je data kunt vinden. Dat betekent vaak dat je informatie in een formaat krijgt waar je in een spreadsheet niet mee kunt werken. Goed voorbeeld: de lijst met burgemeesters in Nederland.

In die PDF staat enorm veel nuttige informatie: namen, gemeenten, man/vrouw, etc. Maar je kunt die informatie niet selecteren, kopiëren en plakken naar Excel. Informatie komt dan in de verkeerde cellen, waardoor je handmatig ontzettend veel moet verbeteren. Welke opties blijven dan nog over? De lijst erbij pakken en overtikken, waarbij je nog steeds veel kans op fouten hebt. Of je stuurt de PDF naar Cometdocs (bedankt voor de tip, Peter Verweij!), die het automatisch voor je in een spreadsheet zet.

Vorige week vond ik een Wikipedia-pagina met alle Academy Award-winnende films. Deze informatie staat in een HTML-tabel. Nog een tip: een HTML-tabel kun je niet naar Excel kopiëren – alle informatie wordt dan in één cel geplaatst – maar in een Google Spreadsheet gaat het wel goed. Eerder heb ik daar een flinke tijd mee zitten stoeien in Google Refine. Nu kost het me 5 seconden werk.

Maar waar sta ik nu met mijn eigen dataproject? Ik heb al een lijst met alle voorgaande ‘Best Motion Pictures’ van de Academy Awards genomineerden en winnaars van de Academy Awards in de categorie Best Motion Picture. Die lijst wil ik nu aanvullen met overige relevante informatie. Wat overweeg ik?

  • Welke overige films waren genomineerd in datzelfde jaar?
  • Wat zijn de scores van het publiek voor die films?
  • Op welke datum was de film in de bioscoop te zien?
  • Welke locaties worden in de film bezocht?
  • Welk genre?
  • Uitgebracht door welke filmstudio?
  • Veel data kan ik wel vinden en handmatig in een sheet zetten, maar ik doe deze cursus voornamelijk om sneller te leren werken. Via Twitter kreeg ik al een aantal hele goede tips voor API’s van filmdatabases, bijvoorbeeld de onofficiële IMDB-API en die van Rotten Tomatoes. Weet iemand hoe ik deze spreadsheet daaraan kan koppelen om snel die informatie eruit te krijgen?

    Als bovenstaande lukt en ik heb tijd over, ga ik me ook in Cinemetrics verdiepen. Daarmee kun je bijvoorbeeld beeldanalyse van trailers doen.