Bij12 wil haar datavalidatie software verbeteren. Met een prototype onderzochten we of AI hierin een rol kan spelen. De resultaten zijn zeer positief.
Case samenvatting
BIJ12 ontvangt miljoenen natuurwaarnemingen per jaar in haar natuurdatabank NDFF. Datavalidatie software beoordeelt nieuw ontvangen data. Data die de software als ‘onbetrouwbaar’ markeert, worden aan menselijke validatie experts voorgelegd.
Helaas ontvangen de experts zeer veel data die zij alsnog goedkeuren. Als de datavalidatie software betrouwbare data beter kan herkennen, kan dit de experts veel tijd besparen. Zij kunnen zich dan beter richten op de uitzonderingen en onzekere waarnemingen.
Doel van de pilot was daarom het verminderen van de onterechte markeringen door de datavalidatie software, zonder dat de werkelijk onbetrouwbare data over het hoofd worden gezien.
Het resultaat: op basis van een grote testset (5 miljoen records) bleek dat datavalidatie software met AI de menselijke experts 75% minder werk voorlegt, terwijl alle werkelijk onbetrouwbare data nog steeds worden gedetecteerd.

Datavalidatie software
Aan de NDFF (Nationale Databank Flora en Fauna) worden jaarlijks miljoenen natuurwaarnemingen toegevoegd, door partijen zoals waarneming.nl, waterschappen en adviesbureaus. In de nieuwe Omgevingswet is de NDFF opgenomen als natuurregister, één van de gegevensbestanden die noodzakelijk zijn voor de onderbouwing van de uitvoering van het natuurbeleid en –beheer, en voor de uitvoering van de wettelijke taken vanuit de Wet natuurbescherming en de Omgevingswet.
Omdat datakwaliteit voor de NDFF belangrijk is, valideert ze alle binnenkomende data. Dit gebeurt eerst door datavalidatie software en daarna door menselijke experts.
Nieuwe waarnemingen worden bij binnenkomst beoordeeld door de datavalidatie software, op basis van vaste dataregels. Waarnemingen die volgens deze software als ‘onzeker’ worden aangemerkt, worden daarna aan de experts voorgelegd.
Sommige van die onzekere waarnemingen worden door de menselijke experts daadwerkelijk afgekeurd. Maar verreweg de meeste markeren zij alsnog als ‘betrouwbaar’. Dit komt onder meer omdat de regels in de datavalidatie software strikt en statisch zijn. Hierdoor worden de onbetrouwbare waarnemingen goed gevonden, maar komen er ook relatief heel veel onnodig bij de experts terecht.
Datavalidatie met AI
Het doel van deze pilot was om vast te stellen of op basis van bestaande data een effectief machine learning algoritme kan worden getraind. Dat algoritme beschouwen we als effectief als het in staat is om minder data onnodig aan de experts voor te leggen, zonder daarbij werkelijk onbetrouwbare data te missen.
Om die reden kozen we er voor om het algoritme te laten samenwerken met de huidige datavalidatie software, door het daar ‘achter’ te plaatsen. Het algoritme verfijnt zo de data die voortkomen uit de software.
De scope van het algoritme werd bepaald door een dataset van bijna 5 miljoen waarnemingen. We gebruikten een klein deel van deze data om verschillende algoritmes te trainen. Het andere deel gebruikten we om die algoritmes op te testen.
Om tot een optimaal algoritme te komen voerden we experimenten uit, zoals het aanpassen, aanvullen of uitsluiten van data, het verkleinen van de scope en het gebruiken van verschillende architecturen.
Resultaat
De uitslag van de pilot was positief. Met het algoritme dat we bouwden, zouden validatoren op deze dataset ruimschoots driekwart minder werk voorgelegd krijgen, waarbij alle relevante onzekere waarnemingen nog steeds zijn ingegrepen.
Het doel van deze pilot was om vast te stellen of machine learning kan bijdragen aan de uitkomsten van de datavalidatie software. We hebben dit aangetoond op een relatief eenvoudige en technisch laagdrempelige manier.
We gebruikten een open source AutoML framework en leverden het algoritme ‘verpakt’ in een testapplicatie en een API voor integratie. Dit maakt het relatief eenvoudig om het algoritme verder te optimaliseren en in gebruik te nemen.
Wil je ook vaststellen of AI een rol kan spelen voor jouw organisatie?
Een AI prototype is een doeltreffende en overzichtelijke eerste stap.