AI datavalidatie helpt waarnemingen sneller beoordelen

We trainden een AI model voor datavalidatie van Citizen Science waarnemingen. Het voorspelt of een waarneming te vertrouwen is. Tests op een bestaande dataset tonen positieve resultaten. Goed geïmplementeerd kan dit algoritme wetenschappers veel tijd besparen.

Waarom datavalidatie

Op het online platform Waterdiertjes.nl kunnen scholieren en andere vrijwilligers invullen wat ze met een schepnetje vangen in een sloot. Het platform wordt gebruikt in educatie campagnes en krijgt regelmatig veel aandacht in de media. De ingevoerde data leveren belangrijke informatie op over de waterkwaliteit in Nederland.

Maar wetenschappers kunnen niet alle ingevoerde data zomaar gebruiken in hun analyses. Er worden ook regelmatig grappen ingevoerd en fouten gemaakt. Daarom kunnen beheerders ingevoerde data uitsluiten als zij vermoeden dat er onzin of fouten in staan.

Ze moeten daarvoor wel alle data bekijken. En elk jaar groeit het aantal waarnemingen, waardoor beheerders steeds meer tijd kwijt zijn aan het beoordelen van de data.

waterkwaliteit rapportage

Doelstelling

Het doel van dit onderzoeksproject was een algoritme te bouwen dat de validatie werklast van wetenschappers kan verminderen. Het is voor AI natuurlijk niet mogelijk om elke ‘foute’ waarneming met 100% zekerheid te herkennen. Daarom kiezen we niet voor een automatisch proces, maar voor een co-piloot vorm.

AI maakt in dit geval niet de ultieme beslissing of data wordt goedgekeurd, maar het helpt met filteren. Door de validatoren niet alle, maar alleen de door AI ‘verdachte’ data te laten zien. Zo houden menselijke experts de controle, maar op een hele efficiënte manier, omdat ze veel minder data hoeven te bekijken.

Resultaat

In een test met ruim 2500 waarnemingen kwamen 220 waarnemingen naar voren die het algoritme niet vertrouwt. Daarvan hebben de wetenschappers er 136 daadwerkelijk uitgesloten. Van de overige 2280 waarnemingen miste het algoritme er 11 die wetenschappers tóch afkeurden. Dit is een acceptabele foutmarge en de afname van de hoeveelheid data om te controleren beperkt de werklast enorm.

Wil je meer weten over hoe we dit algoritme gebouwd hebben? Lees dan de blogpost ‘Voorspellen met je eigen database’ over dit onderwerp.

Over Waterdiertjes

Waterdiertjes wordt wetenschappelijk geleid vanuit WUR. In 2022 besloot een grote groep waterschappen Waterdiertjes financieel te steunen zodat het platform nog meer betekenis kan krijgen.

Waterdiertjes.nl is een project van EIS-Kenniscentrum InsectenGLOBE NederlandWaarneming.nlIVN Natuureducatie, Nederlands Instituut voor Ecologie (NIOO-KNAW), Wageningen University & ResearchSTOWAWaterschap Brabantse Delta, het Ministerie van Infrastructuur en Waterstaat en VAART software.

 
Waterdiertjes.nl Citizen Science platform