von Thomas Witthinrich
Im Forschungsgebiet der Mensch-Computer-Interaktion bietet die Kinect von Microsoft für den Entwickler die Möglichkeit, Menschen als virtuelle Daten darzustellen. Eine Kinect kann Skelette aus 20 Körperpositionen erzeugen und damit Körperhaltungen virtuell zur Verfügung stellen. Das Prinzip basiert auf Kameratechnik (Farb-/Tiefenkamera), bietet somit nur einen begrenzten Sichtbereich und schränkt damit die Möglichkeiten für das Tracking ein.
Die vorliegende Arbeit entwickelt eine Methode zur Stabilisierung des Skelett-Trackings unter Verwendung mehrerer Kinect Sensoren (a). Die Zielstellung besteht darin, den trackbaren Bewegungsradius zu vergrößern. Es sollen demnach Bewegungen erfassbar werden, die mit einer Kinect nicht trackbar sind. Zusätzlich gilt es Fehlerkennungen zu verringern, Bewegungen flüssiger zu erkennen und das Tracking in einer Szene zu stabilisieren.
Ein Verfahren zur Kalibrierung mehrerer Tiefensensoren wird als Grundlage vorgestellt. Die Anordnungsmöglichkeiten mehrerer Kinects zueinander und die Stabilität des Skelett-Trackings werden analysiert. Als Voraussetzung für die Methode werden die Skelette der Geräte synchronisiert (b). Die strukturierte und priorisierte Nutzung definitiv erkannter Skelettdaten verschiedener Kinects, eine vorausschauende Positionsberechnung für von keiner Kinect einsehbare Teile einer Person und eine Filterung zum Ausgleich von Messungenauigkeiten stellen die grundlegende Funktionsweise der entwickelten Methode dar.
Das Verfahren wurde als Prototyp implementiert und evaluiert. Neue Körperhaltungen können erfasst werden, wie z.B. eine sich hinter dem Rücken befindliche Hand (c). Nicht sichtbare Körperteile können kurzzeitig näherungsweise optimal ergänzt werden. Im Endeffekt liegt pro Person in der Szene ein optimales Skelett bereit (abhängig von der Kinectanzahl), das sich in einem globalen Koordinatensystem befindet. Die zugehörigen Personen können sich nun freier bewegen und werden stabil in Skelettdaten umgewandelt.