AI prototype: tijdwinst met datavalidatie – BIJ12

BIJ12 ontvangt miljoenen natuurwaarnemingen per jaar in haar natuurdatabank NDFF. Deze data worden geautomatiseerd én door menselijke experts gevalideerd. Als het automatische proces betrouwbare data beter zou herkennen, bespaart dit de experts veel tijd. Zij kunnen zich dan beter richten op de uitzonderingen en onzekere waarnemingen. Met een pilot liet BIJ12 onderzoeken of AI hierin een rol kan spelen.

Doelstelling

Aan de NDFF (Nationale Databank Flora en Fauna) worden jaarlijks miljoenen natuurwaarnemingen toegevoegd, door partijen zoals waarneming.nl, waterschappen en adviesbureau’s. In de nieuwe Omgevingswet is de NDFF opgenomen als natuurregister, één van de gegevensbestanden die noodzakelijk zijn voor de onderbouwing van de uitvoering van het natuurbeleid en –beheer, en voor de uitvoering van de wettelijke taken vanuit de Wet natuurbescherming en de Omgevingswet.

Omdat datakwaliteit voor de NDFF belangrijk is, valideert ze alle binnenkomende data. Dit gebeurt deels automatisch en deels door menselijke experts.

Nieuwe waarnemingen worden bij binnenkomst beoordeeld door een automatisch validatieproces, op basis van vaste dataregels. Waarnemingen die volgens deze regels als ‘onzeker’ worden aangemerkt, worden daarna aan de experts voorgelegd.

Ruim 99 op de 100 van deze onzekere waarnemingen worden door de menselijke experts echter alsnog als ‘betrouwbaar’ aangemerkt. Verreweg het grootste deel van de waarnemingen wordt dus onnodig aan de experts voorgelegd.

 

De pilot

Het doel van deze pilot was om vast te stellen of op basis van bestaande data een effectief machine learning algoritme kan worden getraind. Dat algoritme beschouwen we als effectief als het in staat is om minder data onnodig aan de experts voor te leggen, zonder daarbij werkelijk onbetrouwbare data te missen. Om die reden kozen we er voor om het algoritme te laten samenwerken met de huidige dataregels, door het daar ‘achter’ te plaatsen. Het algoritme gaat aan de slag met de data die voortkomen uit de regels.

De scope van het model werd bepaald door een dataset van bijna 5 miljoen waarnemingen. We gebruikten een deel van deze data om modellen te trainen. Het andere deel gebruikten we om die modellen op te testen.

Om tot een optimaal model te komen voerden we experimenten uit, zoals het aanpassen, aanvullen of uitsluiten van data, het verkleinen van de modelscope en het gebruiken van verschillende architecturen.

Resultaat

De uitslag van de pilot was positief. Het beste algoritme zou op de test dataset ongeveer 85% handmatig werk verminderen.

Het doel van deze pilot was om vast te stellen óf machine learning kan bijdragen aan het validatieproces. We hebben dit aangetoond op een relatief eenvoudige en technisch laagdrempelige manier.

We gebruikten een open source AutoML framework en leverden het algoritme ‘verpakt’ in een testapplicatie en een API voor integratie. Dit maakt het relatief eenvoudig om het algoritme verder te optimaliseren en in gebruik te nemen.

Ook vaststellen of AI een rol kan spelen voor je organisatie?

Een AI pilot of prototype is een doeltreffende en overzichtelijke eerste stap!

AI naar kennis