De NDFF en VAART software starten een pilotonderzoek naar de mogelijkheden van machine learning (ML) voor datavalidatie. Datavalidatie is belangrijk voor de NDFF, want zij stelt strenge kwaliteitseisen aan de waarnemingen die ze verwerkt.
De NDFF verwerkt miljoenen waarnemingen per jaar en dat worden er steeds meer. Validatie van al die waarnemingen gebeurt in twee stappen: automatisch door software en handmatig door menselijke experts.
Doel van dit onderzoek is om vast te stellen in elke mate ML kan bijdragen aan het automatische datavalidatie proces, zodat het aandeel tijdrovend repeterend werk van de menselijke validatie experts afneemt waardoor zij meer tijd kunnen besteden aan complexe gevallen.
De NDFF en VAART software werkten eerder samen aan een pilot beeldherkenning van vissoorten.
NDFF op haar website over datavalidatie:
“Validatie
Alle waarnemingen in de NDFF worden gevalideerd voordat ze worden opgeslagen, zodat ze voldoen aan de strenge kwaliteitseisen die de NDFF stelt. Voor het genereren van verspreidingskaarten, het formuleren van beleidsadviezen, het plannen van ruimtelijke ontwikkelingen, het uitvoeren van wetenschappelijk onderzoek en voor andere toepassingen van de NDFF is het van belang dat de gegevens vergelijkbaar zijn. Dat houdt in dat ze allemaal op dezelfde manier moeten worden gevalideerd en opgeslagen. Zo worden vergissingen voorkomen en kunnen verspreidingsgegevens op de juiste manier worden geïnterpreteerd.
Automatische validatie
De waarnemingen worden eerst gecontroleerd op soort, aantal, datum en locatie binnen Nederland. Daarna vindt de inhoudelijke validatie plaats op grond van kennisregels. Daarbij wordt getoetst op verschillende criteria zoals tijd van het jaar of vindplaats. Bijvoorbeeld: een waarneming van een vlinder in december, terwijl deze soort alleen in augustus vliegt is zeer onwaarschijnlijk en moet nader worden bekeken. Dit gebeurt bij de handmatige validatie.
Handmatige validatie
Alle waarnemingen die niet voldoen aan de gestelde criteria worden handmatig gecontroleerd door een validatieteam. Ongeveer 10% van de ingevoerde waarnemingen komt bij hen terecht. Wanneer er twijfel bestaat over de waarneming, doet een validator navraag bij de betreffende waarnemer(s). In overleg besluiten zij of de waarneming juist is.“