Tensorflow Lite Posenet of Pose-schatting is de taak van het gebruik van een ML-model om de pose van een persoon te schatten op basis van een afbeelding of een video door de ruimtelijke locaties van belangrijke lichaamsgewrichten (sleutelpunten) te schatten.
Positieschatting verwijst naar computervisie-technieken die menselijke figuren in afbeeldingen en video's detecteren, zodat men bijvoorbeeld kan bepalen waar iemands elleboog in een afbeelding te zien is. Het is belangrijk om u ervan bewust te zijn dat het schatten van pose slechts een schatting is van de plaats van de belangrijkste lichaamsgewrichten en niet herkent wie er op een foto of video staat.
Het PoseNet-model neemt een verwerkt camerabeeld als invoer en geeft informatie over sleutelpunten weer. De gedetecteerde sleutelpunten worden geïndexeerd door een onderdeel-ID, met een betrouwbaarheidsscore tussen 0,0 en 1,0. De betrouwbaarheidsscore geeft de waarschijnlijkheid aan dat er een sleutelpunt op die positie bestaat.
Prestatiebenchmarks
De prestaties variëren op basis van uw apparaat en de uitvoer (heatmaps en offset-vectoren). Het PoseNet-model is invariant van de afbeeldingsgrootte, wat betekent dat het poseposities kan voorspellen op dezelfde schaal als de originele afbeelding, ongeacht of de afbeelding wordt verkleind. Dit betekent dat u het model configureert om een hogere nauwkeurigheid te hebben ten koste van de prestaties.
De uitvoerstap bepaalt hoeveel de uitvoer wordt verkleind ten opzichte van de invoerbeeldgrootte. Het heeft invloed op de grootte van de lagen en de modeluitvoer.
Hoe hoger de outputstap, hoe kleiner de resolutie van de lagen in het netwerk en de outputs, en dienovereenkomstig hun nauwkeurigheid. In deze implementatie kan de uitvoerstap waarden hebben van 8, 16 of 32. Met andere woorden, een uitvoerstap van 32 zal resulteren in de snelste prestatie maar de laagste nauwkeurigheid, terwijl 8 zal resulteren in de hoogste nauwkeurigheid maar de traagste prestatie. De aanbevolen startwaarde is 16.