BIJ12 ontvangt miljoenen natuurwaarnemingen per jaar in haar natuurdatabank NDFF. Deze data worden door BIJ12 gevalideerd, deels automatisch en deels door menselijke experts. Als het automatische proces betrouwbare data beter kan herkennen, bespaart dit de experts veel tijd. Zij kunnen zich dan beter richten op de uitzonderingen en onzekere waarnemingen. Met een pilot liet BIJ12 onderzoeken of AI hierin een rol kan spelen.
Doelstelling
Aan de NDFF (Nationale Databank Flora en Fauna) worden jaarlijks miljoenen natuurwaarnemingen toegevoegd, door partijen zoals waarneming.nl, waterschappen en adviesbureaus. In de nieuwe Omgevingswet is de NDFF opgenomen als natuurregister, één van de gegevensbestanden die noodzakelijk zijn voor de onderbouwing van de uitvoering van het natuurbeleid en –beheer, en voor de uitvoering van de wettelijke taken vanuit de Wet natuurbescherming en de Omgevingswet.
Omdat datakwaliteit voor de NDFF belangrijk is, valideert ze alle binnenkomende data. Dit gebeurt deels automatisch en deels door menselijke experts.
Nieuwe waarnemingen worden bij binnenkomst beoordeeld door een automatisch validatieproces, op basis van vaste dataregels. Waarnemingen die volgens deze regels als ‘onzeker’ worden aangemerkt, worden daarna aan de experts voorgelegd.
Sommige van die onzekere waarnemingen worden door de menselijke experts daadwerkelijk afgekeurd. Maar verreweg de meeste markeren zij alsnog als ‘betrouwbaar’. Dit komt onder meer omdat de dataregels vrij strikt en statisch zijn. Hierdoor worden de onbetrouwbare waarnemingen goed gevonden, maar komen er dus eigenlijk ook veel onnodig bij de experts terecht.

De pilot
Het doel van deze pilot was om vast te stellen of op basis van bestaande data een effectief machine learning algoritme kan worden getraind. Dat algoritme beschouwen we als effectief als het in staat is om minder data onnodig aan de experts voor te leggen, zonder daarbij werkelijk onbetrouwbare data te missen. Om die reden kozen we er voor om het algoritme te laten samenwerken met de huidige dataregels, door het daar ‘achter’ te plaatsen. Het algoritme verfijnt zo de data die voortkomen uit de regels.
De scope van het model werd bepaald door een dataset van bijna 5 miljoen waarnemingen. We gebruikten een deel van deze data om modellen te trainen. Het andere deel gebruikten we om die modellen op te testen.
Om tot een optimaal model te komen voerden we experimenten uit, zoals het aanpassen, aanvullen of uitsluiten van data, het verkleinen van de modelscope en het gebruiken van verschillende architecturen.
Resultaat
De uitslag van de pilot was positief. Met het algoritme dat we bouwden, zouden validatoren op deze dataset ruimschoots driekwart minder werk voorgelegd krijgen, waarbij alle relevante onzekere waarnemingen nog steeds zijn ingegrepen.
Het doel van deze pilot was om vast te stellen óf machine learning kan bijdragen aan het validatieproces. We hebben dit aangetoond op een relatief eenvoudige en technisch laagdrempelige manier.
We gebruikten een open source AutoML framework en leverden het algoritme ‘verpakt’ in een testapplicatie en een API voor integratie. Dit maakt het relatief eenvoudig om het algoritme verder te optimaliseren en in gebruik te nemen.
Ook vaststellen of AI een rol kan spelen voor je organisatie?
Een AI pilot of prototype is een doeltreffende en overzichtelijke eerste stap!
