Open Beelden video’s verrijkt met Open Data

Thursday, December 29th, 2011

Tijdens en naar aanleiding van het Code Camping event van Hack de Overheid van 26 november zijn er meerdere programmeurs, hackers en coders met Open Cultuur Datasets aan de slag gegaan. Jaap Blom ontwikkelde een Open Beelden data mash-up die gemaakt is met o.a. datasets van Open Beelden video’s (Beeld en Geluid), het Rijkmuseum en het Amsterdam Museum. In deze blog het resultaat en een toelichting van de maker.

Voor Beeld en Geluid heb ik in het kader van het initiatief Nederland opent Data de eerste basis voor de hieronder besproken demo gemaakt. De demo laat zien hoe je een video in een verrijkte context kunt afspelen door open databronnen te koppelen aan termen die voorkomen in de spraaktranscripten van de video. Voor het Code Camping event van Open Cultuur Data heb ik de demo uitgebreid met nieuwe datasets.

Basisbeginselen
Het uitgangspunt van deze demo-applicatie was het hergebruik van en koppelen van datasets aan de collectie van Open Beelden die meer dan 1.700 vrij te (her)gebruiken video’s van met name Polygoonjournaals bevat, welke gepubliceerd zijn onder Creative Commons licenties. Aan de basis van de werking van de demo liggen de spraaktranscripten van deze video’s, die zijn geleverd door de spraakherkenningssoftware van X-MI.

Het idee voor de demonstratie ligt in het contextualiseren van bekeken video’s om de kijker zodoende te voorzien van nuttige, leuke en onverwachte achtergrondinformatie over hetgeen er gesproken wordt in het filmpje.

Demo Open Beelden - Open Cultuur Data

Om een voorbeeld te geven: wanneer Philip Bloemendal in het filmpje getiteld ‘Grote delen van Nederland compleet ingesneeuwd’ spreekt over: ‘(…) maar ook op tal van plaatsen in Drenthe (…)’ zal er naast de video in verschillende blokjes informatie verschijnen over Drenthe. Elk blokje vertegenwoordigt informatie verkregen uit een open databron. Voor het eerste prototype waren deze bronnen o.a.: Google Maps en Wikipedia. Ter illustratie: in het geval van het herkende concept ‘Drenthe’ wordt er bij Google Maps ingezoomd op de provincie Drenthe; in het Wikipedia blokje wordt er een artikel over Drenthe getoond.

In het kader van het Code Camping event van Hack de Overheid heb ik twee nieuwe datasets toegevoegd: de collecties van het Rijksmuseum en van het Amsterdam Museum.

Hoe het allemaal werkt
Aan de basis van de werking van de demo liggen dus de Open Beelden video’s en het bijbehorende spraaktranscript, dat wordt gebruik om aan elk gesproken woord uit het filmpje de exacte tijdscode te koppelen.1

Stap 1
Omdat niet elk woord in een zin interessant is en uitleg behoeft, is de eerste stap het eruit filteren van het spraaktranscript op stopwoorden, zoals de lidwoorden, preposities en bijwoorden.

Stap 2
In de tweede stap wordt er op de overgebleven woorden een script losgelaten dat deze tracht te sorteren op ‘belangrijkheid’. In deze berekening wordt gebruik gemaakt van een combinatie van woordscores en de frequentie dat een woord voorkomt in de tekst. Woorden die een hoge score hebben en vaak voorkomen zullen hierdoor het hoogste eindigen in de sortering.

Stap 3
Na deze sortering worden in volgorde van belangrijkheid de woorden gebruikt als zoekvraag voor zowel de GTAA thesaurus (o.a. gebruikt door Beeld en Geluid), als ook voor de Freebase webservice. Deze laatste service van Google biedt een grote collectie onderling gerelateerde concepten met beschrijvingen uit een grote verscheidenheid aan domeinen. Freebase kan gezien worden als een uitgebreide thesaurus met informatie uit een groot aantal verschillende (vak)gebieden.

Wanneer de GTAA of Freebase een concept oplevert, wordt deze in een kandidatenlijst opgenomen. Op deze kandidatenlijst wordt vervolgens een zeer rudimentaire slag gemaakt om de meest onzinnige concepten er uit te filteren (b.v. wanneer het concept uit meerdere woorden bestaat, wordt het niet meegenomen).

Stap 4
In stap 4 wordt elk GTAA en Freebase concept uit de kandidatenlijst gebruikt voor een zoekvraag naar elk van de gebruikte open databronnen, te noemen:

  1. Google Maps (alleen als het concept herkend is als locatie)
  2. Wikipedia
  3. Amsterdam Museum
  4. Rijksmuseum

Als er resultaten gevonden worden, zullen deze gekoppeld worden aan de tijdcode van het gesproken woord uit het spraaktranscript waarmee de uiteindelijke informatie gevonden is.2 3

Stap 5
Als laatste stap communiceer ik de tijdsgecodeerde contextdata terug naar de browser middels een JSON object, wat ik vervolgens gebruik om met Popcorn.js events te genereren. Deze events zijn gekoppeld aan een HTML5 video player en zorgen ervoor dat er tijdens het spelen de juiste (context)informatie getoond word in de verschillende blokjes.

Omdat het verwerken van deze 5 stappen per filmpje gemiddeld zo’n 15-20 seconden duurt, sla ik de resultaten in .json files op. Bij het openen van de demo worden deze files dus ingelezen in plaats van het ‘live’ ophalen van de data (zoals beschreven in de verschillende stappen)

Er is nog een hoop te doen
De demo toont aan wat mogelijk door conceptdetectie (of ook: Named Entity Recognition) in te koppelen aan open databronnen, maar kan in een aantal aspecten nog sterk verbeterd worden:

Verbetering conceptdetectie

De conceptdetectie zoals die is toegepast kan nog sterk verbeterd worden. Zo wordt er in deze demo geen rekening gehouden met concepten die bestaan meer dan één woord, b.v. ‘Amsterdam Museum’ zou in dit geval twee concepten, ‘museum’ en ‘Amsterdam’, opleveren i.p.v. één concept: ‘Amsterdam Museum’.

Verder zou er specialistische Named Entity Recognition (NER) web services, zoals DBpedia Spotlight (vooral goede resultaten voor het Engels) onderzocht moeten worden om de resultaten te verbeteren. Voor de Nederlandse taal blijft het echter nog even zoeken naar een goeie open source NER service.

Selectie relevante bronnen voor de gebruiker

Wat betreft de relevantie voor de getoonde informatie naar de gebruiker toe kan er beter nagedacht worden over de selectie van de contextbronnen. Waarom bijvoorbeeld iemand die een filmpje over ‘Nederlands oudste stoomgemaal’ bekijkt, iets wil weten van een museumstuk ‘Hensbeker van het gezelschap De negenden’ (gevonden op basis van het woord ‘Gorinchem’) is iets om over na te denken.

De demo geeft in ieder geval aan hoe spraaktranscripten van video’s kunnen worden gecombineerd met open databronnen en hoe deze op hierdoor wederzijds gecontextualiseerd worden. In het kader van het Nederland opent Data project wordt deze demo verder uitgewerkt. De voortgang hiervan zal op ook op Open Cultuur Data worden vermeld!

Jaap Blom | Software engineer | Afdeling R&D, Nederlands Instituut voor Beeld en Geluid

Je kunt de demo hier vinden. 4

Voetnoten

  1. Spraakherkenningssoftware is niet perfect, wat betekent dat niet elk woord in een spraaktranscript 100% zal overeenkomen met het woord dat daadwerkelijk in de video wordt uitgesproken.
  2. Voor de collectie van het Rijksmuseum heb ik eerst de hele collectie geharvest uit hun OAI-PMH data provider en geïndexeerd met SOLR. Via Lucene queries is vervolgens de collectie met vrije tekst te doorzoeken. Tijdens het maken van de index liep ik tegen veelal dezelfde slordigheden in de metadatavelden aan als Hay Kranen, die het Virtuele Rijksmuseum maakte.
  3. De collectie van het Amsterdam Museum is op drie verschillende manieren ontsloten: via AdlibOAI-PMH en via een SPARQL endpoint. Voor deze demo heb ik voor de laatste optie gekozen, omdat het niet zoals OAI-PMH eerst gerharvest moet worden, maar direct via de service doorzocht kan worden. Het was sowieso weer goed wat te spelen met het Semantic Web d.m.v. SPARQL queries.
  4. Je kunt de demo het beste bekijken in Google Chrome, Firefox en Safari. Hij werkt niet optimaal in Internet Explorer.
 

Bereik Open Beelden content vergroot door hergebruik op Wikipedia

Thursday, August 25th, 2011

De audiovisuele content op Open Beelden wordt aangeboden onder Creative Commons licenties. Deze vrije licenties maken het mogelijk dat de content op verschillende manieren kan worden hergebruikt. Dit hergebruik vindt onder andere plaats op Wikipedia. Hiervoor worden video’s van Open Beelden op Wikimedia Commons gezet, het centrale archief van afbeeldingen, video, audio en andere bestanden die worden ingezet voor Wikimedia-projecten zoals Wikipedia. In het begin gebeurde dit nog handmatig, maar tegenwoordig verloopt dit proces automatisch dankzij de Open Beelden API. Momenteel zijn ruim 1500 media-items van Open Beelden beschikbaar op Wikimedia Commons. Open Beelden is daarmee verantwoordelijk voor ongeveer 15% van het totale videoaanbod op Wikimedia Commons en is hiermee de grootste aanbieder.

De Wikipediagemeenschap gebruikt de content van Open Beelden om lemma’s op Wikipedia te verrijken. Het lemma ‘Elfstedentocht‘ bevat bijvoorbeeld een video over de Elfstedentocht in 1954:

Een video van Open Beelden op het lemma 'Elfstedentocht'

Naast de volledige video’s worden ook afgeleide werken zoals screenshots gebruikt. Deze screenshots worden bijvoorbeeld als foto gebruikt om lemma’s over bekende personen van een afbeelding te voorzien, zoals is gebeurd bij het lemma van de Nederlandse politicus Pieter Oud:

Het lemma 'Pieter Oud' met een screenshot gebruikt als foto

3 miljoen views
Het bereik van de Open Beelden content op Wikipedia blijkt groot. In mei 2011 zijn Wikipedia-lemma’s met media-items van Open Beelden ruim 3 miljoen keer bekeken. Dit is bijna een verdrievoudiging van het aantal views in december 2010. Opvallend daarbij is dat de meerderheid van de views niet van de Nederlandstalige Wikipedia afkomstig zijn, hoewel de meeste video’s op Open Beelden in het Nederlands zijn en over Nederlandse onderwerpen gaan. Van de 3 miljoen views zijn er 880.000 op de Nederlandstalige Wikipedia, de overige 2,2 miljoen vonden plaats op Wikipediapagina’s in andere talen. De vijf best Wikipedia’s waar lemma’s met Open Beelden content het best werden bekeken in mei 2011 waren:

  1. de Engelstalige Wikipedia
  2. de Nederlandstalige Wikipedia
  3. de Franstalige Wikipedia
  4. de Portugeestalige Wikipedia
  5. de Japanstalige Wikipedia

In totaal maken er op de verschillende Wikipedia’s nu al meer dan 850 lemma’s gebruik van content van Open Beelden.

Het best bekeken lemma in mei 2011 was ‘Mother’s Day‘ op de Engelstalige Wikipedia, dat bijna 1,5 miljoen keer werd bekeken. De video op dit lemma wordt door verschillende Wikipedia’s gebruikt, naast de Engelstalige en de Nederlandstalige ook bijvoorbeeld op de Tibetaanstalige en Perzischtalige Wikipedia. De best bekeken lemma’s met Open Beelden content in mei 2011 waren:

  1. Mother’s Day (EN) 1.445.756 views
  2. AFC Ajax (EN) 121.322 views
  3. AFC Ajax (NL) 111.190 views
  4. Billy Graham (EN) 94.485 views
  5. Giro d’Italia (EN) 73.055 views

Conclusie
De bovenstaande cijfers laten zien dat het aanbieden van materiaal onder een vrije licentie zeker een meerwaarde heeft voor erfgoedinstellingen. Voor de erfgoedsector is het een goede manier om hun collecties onder de aandacht te brengen van een groot publiek. Daarnaast biedt het de (internet)gemeenschap de mogelijkheid om hun projecten te verrijken met historische beelden. De mogelijkheden voor hergebruik zijn natuurlijk niet beperkt tot Wikipedia. Door collecties onder een vrije licentie aan te bieden worden ze een rijke bron voor (her)gebruik voor diverse culturele, educatieve en creatieve doeleinden.

 

Een heer in het verkeer

Wednesday, February 16th, 2011

De bedrijvigheid op de Nederlandse wegen is van alle tijden. Aanwijzingen van de eerste opstoppingen van auto’s zijn er al in de jaren ‘20. Zij vormen de voorlopers van de huidige alom bekende frustraties in de ochtend en avond: files. Met de jaren bleef de vraag naar gemotoriseerde voertuigen groeien wat resulteerde in kopzorgen bij menig ambtenaar. Dit leidde in 1938 tot de oprichting van het “Legioen der Welwillende Weggebruikers”. Een initiatief van de Koninklijke Nederlandse Automobiel Club (KNAC) om de hoffelijkheid in het verkeer terug te brengen, zodat de veiligheid op straat gewaarborgd kon blijven. Leden van het Legioen ‘opereerden’ onder de slogan “paraat voor wellevendheid op straat.”

Het verkeer kan niet enkel vertouwen op de welwillendheid van de weggebruikers, en zo wordt in 1965 een aantal nieuwe verkeersregels ingevoerd. Veiligheid staat daarbij hoog in het vaandel. Binnen de bebouwde kom mogen voetgangers niet meer gehinderd worden in hun oversteek door onoplettende automobilisten en pijlsnelle brommers. Het Polygoon Hollands Nieuws laat in een reportage zien dat de wijzigingen van het verkeersreglement ook de uiteenlopende functies van vluchtstroken inperkten.

Bijna 30 jaar na de oprichting van het Legioen der Welwillende Weggebruikers is de situatie op de weg vaak nog altijd één doffe ellende. Het ongewenste rijgedrag van menig weggebruiker is nog niet helemaal in de kiem gesmoord. Vooral in de drukke binnenstad van Amsterdam vormen automobilisten een groot probleem, althans hun trots bezit. Er wordt op de vreemdste plekken dubbel geparkeerd. Er kan echter niet met de boze vinger alleen naar de burger worden gewezen, er is te weinig parkeergelegenheid gecreëerd in de stad. De pittoreske bruggen die de grachten verbinden doen in 1967 korte tijd dienst als parkeerplaatsen. Al snel blijkt dat deze oplossing zenuwslopend is voor andere weggebruikers en de Gemeenteraad Amsterdam gaat gewapend met gele verf de straat op.

Naast het aanpakken van asociaal rijgedrag en parkeerproblemen, komt het autovrij maken van de Amsterdamse binnenstad ook steeds hoger op de agenda te staan. In antwoord hierop komt industrieel ontwerper Luud Schimmelpennink begin jaren ’70 met een innovatief concept voor milieuvriendelijk vervoer op de markt: de Witkar. Een driewielig elektrisch aangedreven voertuig voor twee personen dat maar liefst 30 kilometer per uur haalt. Deze elektrische driewieler is bedoeld voor het collectief: als abonnee hoef je niet te piekeren over een parkeerplaats, de Witkar is namelijk op vijf plaatsen in Amsterdam in een lader te ‘hangen’.

 

Podiumkunsten in Nederland: podiumkunstenaars door de jaren heen

Tuesday, February 15th, 2011

Zo klein als Nederland is, zo groot is de vrijheid voor ‘podiumkunstenaars’ vaak geweest. Binnen allerlei kunstdisciplines is er door de jaren heen ruimte geweest voor artiesten om zichzelf te ontplooien voor een groot publiek. Al in 1958 kreeg de veertienjarige violist Dick Bor de kans om als solist uit te komen voor het Nationaal Jeugd Orkest (tegenwoordig Nederlandse Orkest- en Ensemble-Academie) tijdens een concert in het Kurhaus te Scheveningen. Dit concert werd gehouden in het kader van het Holland Festival, een inmiddels jaarlijks terugkerend evenement dat in Amsterdam gehouden wordt en een platform vormt voor alle vormen van zowel Nederlandse als internationale podiumkunsten.

Niet alleen het Nederlandse Jeugd Orkest is een kweekvijver voor toneelkunstenaars gebleken. Al sinds 1888 heeft het vooraanstaande Koninklijk Concertgebouworkest (KCO) vele generaties getalenteerde musici voortgebracht. Het KCO wordt wereldwijd erkend als een vooraanstaand symfonieorkest en het is dan ook niet verwonderlijk dat internationale podiumkunstenaars door de jaren heen graag samen wilden werken met het KCO. In 1946 reisde de befaamde Duitse dirigent Bruno Walter op 71-jarige leeftijd af naar Amsterdam om met het Koninklijk Concertgebouworkest te repeteren. Na jaren vertrouweling te zijn geweest van grootmeester Gustav Mahler, was de keuze van Walter voor het repertoire van de samenwerking met het KCO snel gekozen: Mahlers Vierde Symfonie.

Het harmonische samenspel tussen verschillende artiesten inspireerde niet alleen de sector van de podiumkunsten. Ook de overheid zag het maatschappelijk belang in van de schone kunsten en eind jaren ’40 wordt de Raad voor de Kunst (tegenwoordig Raad voor Cultuur) opgericht met het doel de overheid te adviseren op het gebied van kunstbeleid in de sectoren filmkunst, theater, muziek, beeldende kunsten en letterkunde. In 1956 wordt op feestelijke wijze in Den Haag de raad geïnstalleerd door minister Jozef Cals van Onderwijs, Kunsten en Wetenschappen. De posities binnen de raad worden bekleed door prominenten uit de vijf sectoren van de schone kunsten. Zo kreeg onder andere balletdanseres Sonia Gaskell de sector theater onder haar hoede.

 

Opmerkelijke technologieën en uitvindingen

Tuesday, April 27th, 2010

Polygoonjournaals werden vanaf de jaren twintig in de Nederlandse bioscopen vertoond. Onderwerpen uit het dagelijks leven in Nederland onderbouwd met sprekende beelden stonden daarbij hoog in het vaandel. Om het publiek door de jaren heen geboeid te houden moest Polygoon zich blijven vernieuwen. De nieuwste uitvindingen op het gebied van techniek en innovatie waren daarbij een dankbaar onderwerp. Daarbij werd er ook aandacht besteed aan de massaconsumptie van mensen in de ‘eeuw van de automatisering’. Uitvindingen en ontwikkelingen die oplossingen bieden voor het toenemende energieverbruik, vonden vaak hun weg in de journaals.

De aankondigingen van deze nieuwe technieken gingen vaak gepaard met optimisme. Zo werd met enig enthousiasme een nieuw soort elektriciteitsfabriek geïntroduceerd: de kernreactorcentrale te Dodewaard. Waar kernenergie tegenwoordig vaak in een negatief daglicht staat, werd in het nieuwsitem uit 1966 nog geen aandacht besteed aan mogelijke gevaren. De nadruk lag op de nieuwe mogelijkheden: de centrale zou de mensen en hun toenemende energieverbruik immers van alle gemakken voorzien in een tijd van massaconsumptie.

Er werd niet alleen gezocht naar nieuwe methoden om gehoor te geven aan de energievraag van Nederlanders. Steeds meer mensen wisten het vliegveld Schiphol te vinden en het luchtvrachtverkeer groeide gestaag waardoor er meer druk op de schouders van de verkeersleiders kwam te staan. Dit vroeg om betere communicatietechnieken. Met de komst van de radar kon het Nederlandse luchtruim beter in kaart gebracht worden en was voor de verkeersleiders beter te overzien welke vliegtuigen zich waar in de lucht bevonden. In een Polygoonjournaal uit 1951 is te zien hoe de verkeersleider van Schiphol een vliegtuig ‘binnenpraat’ met de hulp van de toen relatief nieuwe radartechniek.

Ook werd er ook aandacht besteed aan opmerkelijke uitvindingen dicht bij huis die het dagelijks leven vergemakkelijkten. Zo werd in 1963 bijvoorbeeld verslag gedaan van de voorloper van de huidige koopzondagen en nachtwinkels: de automatische winkel in Boxtel.

Het steeds meer industrialiserende Nederland verschafte de mensen ook met nieuwe gebruiksvoorwerpen. De technische innovaties die in het Polygoonjournaal werden getoond laten zien hoe snel nieuwe technieken elkaar tegenwoordig opvolgden. Zo werd in 1978 een voorloper van de DVD getoond: de beeldplaat. Zoals vaak in het Polygoonjournaal bevat ook dit item naast het informatieve karakter een komische noot. Gedemonstreerd wordt hoe met een afspeelapparaat geschikt voor beeldplaten, aangesloten op een normale televisie, onder andere vertraagd terugspoelen mogelijk wordt. Hierdoor kunnen de billen van een mannequin die over de catwalk loopt nogmaals in slowmotion worden bekeken. Op deze manier bleef de kijker geboeid kijken naar het Polygoonjournaal.

 

Eerste selectie beeldmateriaal volledig op Open Beelden beschikbaar

Tuesday, November 17th, 2009

De eerste selectie van beeldmateriaal voor Open Beelden staat inmiddels geheel online! De 469 items die nu op Open Beelden te vinden zijn, komen voornamelijk uit de Polygoon Hollands Nieuws collectie en enkele uit de RVD collectie. De huidige selectie is grotendeels gecentreerd rond een aantal thema’s, namelijk: stad, zomer, natuur, water, voeding, sport, onderwijs, religie en arbeid. De onderwerpen van de items zijn heel divers, zoals bijvoorbeeld een item over een caravan die ook als boot dienst doet, maar ook beelden van de Tour de France in Nederland of de eerste bewoners van Almere. Het beeldmateriaal beslaat de periode 1919 t/m 1980 en gaat van stom zwart-wit materiaal tot kleurrijke beelden met het karakteristieke commentaar van Philip Bloemendal.

Om een indruk te geven van wat er allemaal te vinden is, een kleine greep uit het aanbod. Uit de vroege jaren, toen er nog geen commentaar onder het beeld zat, komen bijvoorbeeld deze beelden van overstromingen in Ridderkerk en Barendrecht in 1928:

Vanaf de jaren dertig komt er steeds vaker geluid bij het beeld. Tijdens de Tweede Wereldoorlog wordt het Polygoonjournaal voornamelijk aangewend als propagandamiddel voor de Duitsers en de NSB. Zo is er in 1941 een serie items genaamd ‘Nederland voedt zichzelf’ waarin propaganda wordt gemaakt voor het nationaalsocialistische idee dat een land in staat moet zijn in zijn eigen voedsel te voorzien:

Na de Tweede Wereldoorlog worden de beelden voorzien van het commentaar van Philip Bloemendal. Met zijn karakteristieke stemgeluid is hij onlosmakelijk verbonden met het Polygoonjournaal:

Vanaf de jaren zeventig worden er ook journaals in kleur gemaakt. Een mooi voorbeeld van de meerwaarde die dit geeft is te zien in de kleurenpracht van de vlinderverzameling van de amateurentomoloog Hermans:

Voor 2009 zijn wij met de toevoeging van de hierboven beschreven selectie even klaar met het toevoegen van materiaal aan Open Beelden. Maar volgend maand wordt het mogelijk om ook als gebruiker materiaal aan Open Beelden toe te voegen. Dit kan materiaal zijn dat gemaakt is op basis van Open Beelden, maar ook eigen werk.

Na de jaarwisseling zullen wij het toevoegen van beeldmateriaal uit ons archief aan Open Beelden hervatten. Daarnaast zullen wij actief samenwerking zoeken met ander collectiehouders, om zo het aanbod op Open Beelden verder te vergroten en meer divers en nog interessanter te maken.

Om de voorbeelden van beeldmateriaal in dit bericht te kunnen bekijken raden wij aan om gebruik te maken van Firefox 3.5, of een andere moderne browser die HTML5 <video> technologie ondersteunt. Internet Explorer e.d. zal de voorbeelden niet kunnen weergeven.