Wat is beeldherkenning?

Wat is beeldherkenning? Beeldherkenning is een vorm van AI (kunstmatige intelligentie) waarmee informatie uit beelden wordt gehaald. Beeldherkenning maakt het mogelijk om foto’s en video’s te gebruiken om beslissingen te nemen.

Schat aan informatie

Foto’s of video’s kunnen een schat aan informatie bevatten. Maar een constante bron van beeldmateriaal wordt natuurlijk snel heel groot. Zulke grote hoeveelheden beeld kun je meestal niet handmatig verwerken. 

Beeldherkenning maakt het mogelijk om beeldmateriaal op grote schaal toe te passen in processen en automatisering.

Hoe werkt beeldherkenning

In de basis werkt beeldherkenning heel eenvoudig: een algoritme analyseert een beeld foto of videoframe en geeft een voorspelling. Die voorspelling kan verschillende vormen hebben, afhankelijk van hoe het algoritme getraind is. De meest voorkomende vormen zijn categorisatie, lokalisatie en segmentatie.

Met categorisatie voorspelt het algoritme in wat voor categorie de afbeelding valt. De output is een lijstje met categorieën, en per categorie de waarschijnlijkheid (0-100%) van de voorspelling. Bijvoorbeeld: Kat 60%, Hond 40%.

Met lokalisatie voorspelt het algoritme welke onderwerpen er in de afbeelding te zien zijn. De output is een lijst met onderwerpen, hun locatie in de afbeelding (een rechthoek met x,y, hoogte en breedte) en de waarschijnlijkheid (0-100%) van de voorspelling.

Segmentatie lijkt erg op lokalisatie, maar hierbij wordt het onderwerp zo precies mogelijk geselecteerd in de afbeelding. Er worden dus geen x, y, b en h teruggegeven, maar een lijst met coordinaten. Dit maakt het mogelijk een onderwerp uit de afbeelding te ‘snijden’, of om de oppervlakte van een onderwerp te gebruiken voor berekeningen.

Beeldherkenning lokalisatie

Beeldherkenning lokalisatie – het onderwerp is in de afbeelding omlijnd

Voorbeeldtoepassingen

De drie hierboven genoemde vormen van beeldherkenning maken het bijvoorbeeld mogelijk om:

  • Te bepalen of een vat leeg, halfvol of vol is (categorisatie)
  • Vast te stellen of een boot een pleziervaartuig of vrachtschip is (categorisatie)
  • Beschadigingen in een onderdeel te signaleren (lokalisatie)
  • Te tellen hoeveel auto’s er op een parkeerterrein staan (lokalisatie)
  • Uit te rekenen hoeveel oppervlakte van een gebied begroeid is (segmentatie)
 
Hoe bepaal je nu wat voor soort voorspelling je nodig hebt (categorisatie, lokalisatie of segmentatie)? Daarvoor stel je jezelf de vraag: op welke manier brengen voorspellingen ons de meeste waarde? Dit kun je eventueel opdelen in deelvragen zoals:
 
  1. Willen we een oordeel over de gehele afbeelding, of over alle onderwerpen die in de afbeelding te zien zijn?
  2. Moet er geteld en/of gerekend worden met gevonden onderwerpen?
  3. Leiden de voorspellingen tot bepaalde waardes of acties in software?

Uitdagingen bij beeldherkenning

Zoals elke vorm van AI heeft ook beeldherkenning onzekerheden waar je rekening mee moet houden. 

Om te beginnen is de output altijd een voorspelling. Bij het beoordelen van een voorspelling is het van belang dat de waarschijnlijkheid (het % van een voorspelde categorie, locatie of segment) in acht wordt genomen. Het zomaar klakkeloos voor “waar” aannemen van de hoogste waarde, is vaak niet verstandig.

Daarnaast is het altijd de vraag in hoeverre een getraind algoritme bekend is met alle varianten in beeldmateriaal die het in de praktijk “te zien” kan krijgen. En ook al is een algoritme in het begin voldoende afgestemd op de praktijk, meestal verandert dit na verloop van tijd. Doordat nieuwe camera’s gebruikt worden, onderwerpen er anders uit gaan zien, enzovoort. Een algoritme moet daarom onderhouden worden.

Er zijn nog meer uitdagingen, je vindt ze in ons artikel over de kansen en 6 grootste valkuilen van beeldherkenning.

Meer weten?

Heb je een vraag of opmerking n.a.v. dit artikel? Stuur ons een bericht en we nemen snel contact met je op.