Beeldherkenning annotatie en labeling – maak het niet zelf!

Software architect en AI engineer Jorrit Venema

door Jorrit Venema – AI architect en oprichter

Om beeldherkenning modellen te trainen heb je trainingsdata nodig. Trainingsdata bestaat uit afbeeldingen die ‘geannoteerd’ zijn: je selecteert de interessante onderwerpen en geeft die een label zoals Voertuig, Schade of Hert. Het annoteren van trainingsdata is een belangrijk proces en kost veel tijd.

Ik ken best wat organisaties die nog steeds hun eigen annotatie/label tools bouwen en onderhouden. Maar ook aan annotatie kant gaan de ontwikkelingen in AI hard!

Check bijvoorbeeld Supervisely: waanzinnig hoe goed en gemakkelijk je hiermee objecten in hoog detail kunt segmenteren. Wij testten het met dieren, fluitje van een cent. Met Supervisely selecteer je in één of iets meer klikken je onderwerp in superhoog detail.

Segmentatie en boxes

Je ziet in onderstaande plaatjes dat de herten en het visje perfect langs de randen zijn gearceerd. Het selecteren van gebieden in zo’n hoog detail noemen we segmentatie. Bij elk segment kun je een label opslaan.

In veel gevallen is het detail van segmentatie trouwens niet nodig, maar heb je genoeg aan de vier uiterste hoeken van je onderwerp in de afbeelding, de ‘box’. Daarom laat Supervisely ook die box om je segment zien. Ook deze kun je vervolgens labelen.

Niet meer zelf bouwen

Het Supervisely platform is (zo belooft het) bovendien flexibel te integreren in je workflow. Het draait on premise, biedt een open ecosysteem, heeft een API en storage connectors.

En het gaat niet om dit ene voorbeeld, er zijn zat alternatieven, zowel platforms als frameworks. Wat dacht je van Labelstudio of PaddleSeg?

Ik vind dat je als architect echt niet meer zomaar kan roepen dat je dingen zelf moet bouwen omdat je “onafhankelijk wil zijn”. Jaag geen schijnonafhankelijkheid na, maar bouw gelaagde functionaliteit met pluggable componenten die je kunt vervangen.

Je data is de kern, de functionaliteit er omheen moet inwisselbaar zijn.

Anders zit jij straks de bugs te fixen in je legacy webapp om labeltjes te trekken, terwijl de AI innovatie trein verder dendert zonder dat je gebruikers daarvan profiteren…

Praktijktoepassingen

Toen ik een korte versie van dit bericht schreef op LinkedIn kreeg ik uit verschillende hoeken positieve reacties. Bijvoorbeeld van een data scientist bij een grote gemeente, die vertelde dat ze Labelstudio hebben getest en in productie gaan nemen. Zijn woorden:

“We hebben de eerste tests met Labelstudio uitgevoerd, en vooral de mogelijkheid om de volledige annotatie-pipeline er op aan te sluiten spreekt ons erg aan.

We hebben bijvoorbeeld al veel gemeente data waarmee we automatisch al wat pre-annotaties kunnen doen. Dan willen we die inladen en de software er nog een menselijke slag er overheen laten doen.

Weinig annotatietools zijn zo flexibel dat ze dat toelaten, en je kan de UI inrichten naar gelang de data verandert.

Beeldherkenning met VAART

Overweeg je beeldherkenning in te zetten voor je organisatie? Wij ontwikkelden al heel wat praktische beeldherkenning toepassingen. Ben je aan het oriënteren, lees dan onze praktijktips voor succesvolle beeldherkenning. En wil je veilig en efficiënt de meerwaarde van beeldherkenning vaststellen (of van andere vormen van AI), dan raad ik je aan te starten met een prototype.

Meer weten?