Schat aan informatie
Foto’s of video’s kunnen een schat aan informatie bevatten. Maar een constante bron van beeldmateriaal wordt natuurlijk snel heel groot. Zulke grote hoeveelheden beeld kun je meestal niet handmatig verwerken.
Hoe werkt beeldherkenning
In de basis werkt beeldherkenning heel eenvoudig: een algoritme analyseert een beeld foto of videoframe en geeft een voorspelling. Die voorspelling kan verschillende vormen hebben, afhankelijk van hoe het algoritme getraind is. De meest voorkomende vormen zijn categorisatie, lokalisatie en segmentatie.
Met categorisatie voorspelt het algoritme in wat voor categorie de afbeelding valt. De output is een lijstje met categorieën, en per categorie de waarschijnlijkheid (0-100%) van de voorspelling. Bijvoorbeeld: Kat 60%, Hond 40%.
Met lokalisatie voorspelt het algoritme welke onderwerpen er in de afbeelding te zien zijn. De output is een lijst met onderwerpen, hun locatie in de afbeelding (een rechthoek met x,y, hoogte en breedte) en de waarschijnlijkheid (0-100%) van de voorspelling.
Segmentatie lijkt erg op lokalisatie, maar hierbij wordt het onderwerp zo precies mogelijk geselecteerd in de afbeelding. Er worden dus geen x, y, b en h teruggegeven, maar een lijst met coordinaten. Dit maakt het mogelijk een onderwerp uit de afbeelding te ‘snijden’, of om de oppervlakte van een onderwerp te gebruiken voor berekeningen.
Beeldherkenning lokalisatie – het onderwerp is in de afbeelding omlijnd
Voorbeeldtoepassingen
De drie hierboven genoemde vormen van beeldherkenning maken het bijvoorbeeld mogelijk om:
- Te bepalen of een vat leeg, halfvol of vol is (categorisatie)
- Vast te stellen of een boot een pleziervaartuig of vrachtschip is (categorisatie)
- Beschadigingen in een onderdeel te signaleren (lokalisatie)
- Te tellen hoeveel auto’s er op een parkeerterrein staan (lokalisatie)
- Uit te rekenen hoeveel oppervlakte van een gebied begroeid is (segmentatie)
- Willen we een oordeel over de gehele afbeelding, of over alle onderwerpen die in de afbeelding te zien zijn?
- Moet er geteld en/of gerekend worden met gevonden onderwerpen?
- Leiden de voorspellingen tot bepaalde waardes of acties in software?
Uitdagingen bij beeldherkenning
Zoals elke vorm van AI heeft ook beeldherkenning onzekerheden waar je rekening mee moet houden.
Om te beginnen is de output altijd een voorspelling. Bij het beoordelen van een voorspelling is het van belang dat de waarschijnlijkheid (het % van een voorspelde categorie, locatie of segment) in acht wordt genomen. Het zomaar klakkeloos voor “waar” aannemen van de hoogste waarde, is vaak niet verstandig.
Daarnaast is het altijd de vraag in hoeverre een getraind algoritme bekend is met alle varianten in beeldmateriaal die het in de praktijk “te zien” kan krijgen. En ook al is een algoritme in het begin voldoende afgestemd op de praktijk, meestal verandert dit na verloop van tijd. Doordat nieuwe camera’s gebruikt worden, onderwerpen er anders uit gaan zien, enzovoort. Een algoritme moet daarom onderhouden worden.
Er zijn nog meer uitdagingen, je vindt ze in ons artikel over de kansen en 6 grootste valkuilen van beeldherkenning.