Automatisches Tracking bei PTZ-Kameras

Rating: 4.94 (7265 votes)

PTZ-Kameras (Pan-Tilt-Zoom) sind eine Revolution für alle, die filmen möchten, ohne ständig einen Kameramann zur Verfügung zu haben. Diese fest installierten Kameras können ferngesteuert oder, was immer häufiger der Fall ist, automatisch schwenken (Pan), neigen (Tilt) und zoomen (Zoom). Der Schlüssel zu dieser Autonomie liegt in einem zuverlässigen Tracking-System. Doch wie funktioniert dieses „Autopilot“-System, das Motive erkennt und die Kamera darauf ausrichtet? In diesem Artikel tauchen wir tief in die Welt des automatischen PTZ-Trackings ein und beleuchten die verschiedenen Technologien dahinter.

Das automatische Tracking wird in der Regel durch spezielle Software realisiert, die oft auf künstlicher Intelligenz (KI) basiert. Diese KI ist darauf trainiert, ein bestimmtes Motiv – meist eine Person – im Bild zu erkennen und die Kamera so zu steuern, dass dieses Motiv optimal im Bildausschnitt bleibt. In komplexeren Setups mit mehreren Kameras muss das System sogar entscheiden, welche Kamera das Motiv am besten erfassen kann, und dann nahtlos zwischen den Perspektiven wechseln.

Was ist Tracking Pan Tilt?
PTZ(Pan-Tilt-Zoom)-Kameras sind feststehende Kameras mit der Möglichkeit zu schwenken (pan), vertikal zu neigen (tilt) sowie den Bildausschnitt zu verändern (zoom). Entweder werden sie von einem Kameramann ferngesteuert oder automatisch per „Autopilot“ gesteuert.

Motiverkennung: Das Auge der KI

Damit Software die Rolle eines Kameramanns übernehmen kann, muss sie lernen, was ein Motiv ist. Für das menschliche Auge ist dies ein intuitiver Prozess, der auf der Verarbeitung visueller Eindrücke basiert. Für eine Software ist das Kamerabild die Grundlage, ähnlich wie das Abbild auf der menschlichen Netzhaut. Die Software muss zunächst wissen, was ein „Motiv“ überhaupt bedeutet. Motiverkennung ist nicht nur für PTZ-Kameras relevant, sondern auch in der modernen Fotografie weit verbreitet, beispielsweise bei spiegellosen Systemkameras oder Smartphones, die automatisch Gesichter oder Tiere erkennen und den Fokus setzen.

In einer Szene, in der ein Mensch neben einem Baum steht, ist in den meisten Fällen der Mensch das Hauptmotiv. Steht ein Hund neben einem Baum, wird oft der Hund als Motiv priorisiert. Die automatische Auswahl des Motivs ist sehr oft korrekt, kann aber natürlich auch Fehler machen. Viele Kamerasysteme bieten daher die Möglichkeit, eine Priorisierung einzustellen. Ein Naturfotograf könnte beispielsweise festlegen, dass die Kamera bevorzugt auf die Augen von Tieren fokussieren soll.

Bei stationären PTZ-Kameras, die häufig in Konferenzräumen, Hörsälen oder Studios eingesetzt werden, sind die Motive fast immer Menschen – sei es ein Dozent, ein Redner oder ein Teilnehmer einer Videokonferenz. Hier spielt die Gesichtserkennung eine zentrale Rolle. Wenn ein Dozent vor einer Tür steht, ist klar, dass die Kamera ihn und nicht die Tür aufnehmen soll. Doch was, wenn mehrere Personen im Bild sind? Oder wenn eine Tafel oder ein Whiteboard mit wichtigen Informationen zu sehen ist? Ein menschlicher Kameramann trifft intuitive Entscheidungen über den Bildausschnitt. Eine Automatik benötigt klare Vorgaben und eine ausgeklügelte Logik.

Gesichtserkennung: Mehr als nur ein Gesicht finden

Der Begriff „Gesichtserkennung“ kann leicht missverstanden werden. Im Englischen unterscheidet man präziser zwischen „Face Detection“ und „Face Recognition“. „Face Detection“ bedeutet lediglich, dass die Software erkennt, *dass* ein Gesicht im Bild ist. „Face Recognition“ geht weiter und versucht zu identifizieren, *welches* Gesicht es ist.

Für die meisten PTZ-Tracking-Systeme reicht es oft aus, Gesichter zu erkennen (Face Detection). Einige fortschrittlichere Systeme erlauben jedoch, Gesichter von Rednern in einer Datenbank zu speichern. Dadurch kann eine „Hauptperson“ definiert werden, der die Kamera mit höherer Priorität folgt, falls mehrere Gesichter gleichzeitig erkannt werden. Dies erfordert aus Datenschutzgründen natürlich die ausdrückliche Zustimmung der betroffenen Personen.

Eine führende Technologie in diesem Bereich ist SHORE® (Sophisticated High-Speed Object Recognition Engine) vom Fraunhofer-Institut für Integrierte Schaltungen IIS. SHORE® wurde ursprünglich für andere Anwendungen entwickelt, findet aber auch in Kamerasystemen Verwendung. Bemerkenswert ist, dass SHORE® aus Datenschutzgründen auf die Identifikation von Personen verzichtet. Stattdessen kann die Software Gesichter erkennen, Alter und Geschlecht schätzen, Emotionen und sogar Vitalparameter analysieren. Die Effizienz ist beeindruckend: Ein Bildausschnitt von nur 32x32 Pixeln reicht für die Erkennung, und die Software kann Hunderte von Bildern pro Sekunde verarbeiten – weit mehr als die Bildraten der meisten Kameras.

Nachverfolgung (Tracking): Dem Motiv folgen

Gesichtserkennung ist nur der erste Schritt. Das eigentliche Automatisches Tracking bedeutet, den Bildausschnitt kontinuierlich an die Bewegung des Motivs anzupassen. Die Herausforderung besteht darin, dass die Kamera dem Motiv auch dann folgen muss, wenn es sich kurz abwendet oder von anderen Personen verdeckt wird. Das System muss nicht nur ein Gesicht, sondern idealerweise den gesamten Körper verfolgen können.

Wichtig für ein professionelles Ergebnis ist die Qualität der Nachführung. Bildzittern oder ruckelige Bewegungen müssen vermieden werden. Dies wird oft durch eingebaute Latenzen und sanfte Übergänge (langsames Anfahren und Abbremsen der Kamerabewegung) erreicht. Die Reaktivität der Kamera auf Bewegungsänderungen sollte oft einstellbar sein, da ein schnell beweglicher Sportler andere Einstellungen benötigt als ein ruhig vortragender Redner. Das System muss auch in der Lage sein, zufällig durchs Bild laufende Personen zu ignorieren und sich auf das primäre Motiv zu konzentrieren. Selbst das zuverlässige Tracking von Personen mit Gesichtsmasken ist eine Anforderung an moderne Systeme.

Auto-Framing: Der passende Bildausschnitt

Gutes Tracking bedeutet nicht nur, das Motiv im Bild zu halten, sondern auch einen ästhetisch ansprechenden und der Situation angemessenen Bildausschnitt zu wählen. Die KI muss entscheiden, ob sie eine Nahaufnahme des Gesichts wählt, den Oberkörper zeigt, den ganzen Körper aufnimmt oder sogar weitere Elemente wie eine zweite Person, eine Tafel oder eine Totale des Raumes ins Bild einbezieht. Dieses automatische Framing versucht, die Entscheidungen eines menschlichen Kameramanns zu simulieren, um eine optimale Komposition zu gewährleisten.

Zonen: Definierte Bereiche mit besonderer Logik

Zonen sind vordefinierte Bereiche im Raum, die vom Benutzer festgelegt werden können. Wenn das Motiv oder die Kamera in eine solche Zone gelangt, können bestimmte Aktionen oder Bildausschnitte ausgelöst werden. Ein typisches Beispiel ist die Definition einer Tafel oder eines Whiteboards als Zone. Wenn der Redner sich der Tafel nähert oder die Kamera auf diesen Bereich gerichtet wird, kann das System automatisch sicherstellen, dass die gesamte Tafel im Bild ist und nicht nur ein Ausschnitt.

Ein weiterer wichtiger Anwendungsbereich von Zonen ist das bewusste Ausschließen von Bereichen. In Hörsälen oder bei Veranstaltungen möchte man oft nur den Redner und eventuell die Präsentationsfläche zeigen, aber die Studierenden oder das Publikum aus datenschutzrechtlichen Gründen nicht ins Bild nehmen. Solche Bereiche können als „Ausschlusszonen“ definiert werden.

Presets: Gespeicherte Einstellungen für schnellen Zugriff

Presets sind vordefinierte Kameraeinstellungen, die der Benutzer speichern kann. Ähnlich wie Zonen ermöglichen Presets eine schnelle und einfache Steuerung des Bildausschnitts. Ein Redner kann über eine Mediensteuerung oder eine App verschiedene Presets aufrufen, um beispielsweise schnell eine Nahaufnahme, eine Totale oder eine Einstellung auf die Tafel zu wählen. Presets eignen sich auch hervorragend als Startposition oder als Standardeinstellung, wenn das Hauptmotiv den Raum verlässt. Eine Totale des Raumes als „Idle-Preset“ ermöglicht es der Kamera beispielsweise, schnell einen neuen Redner zu erkennen, sobald dieser den Raum betritt, da alles, was nicht im Bild ist, nicht verfolgt werden kann.

Mehrere Kameras: Automatisierte Bildregie

Einige fortschrittliche Automatisches Tracking-Systeme können nicht nur eine, sondern mehrere Kameras gleichzeitig steuern und sogar eine automatisierte Bildregie übernehmen. Systeme wie das Polycom Ultrasonic Camera Tracking (in der Poly Studio X70) oder die Avonic Cam Director AI Processing Unit verwenden mehrere Kameras, um verschiedene Perspektiven abzudecken. Eine Kamera verfolgt möglicherweise den aktuellen Sprecher, während eine andere eine Totale des Raumes zeigt. Das System analysiert, wer spricht oder sich bewegt, und schaltet automatisch auf die am besten geeignete Kamera um. Bei mehreren Sprechern kann ein Bildausschnitt gewählt werden, der alle relevanten Personen erfasst.

In-Camera vs. Server-Based Tracking

Die Verarbeitung der Tracking-Logik kann an unterschiedlichen Orten stattfinden. Bei vielen Kameras ist die Auto-Tracking-Funktion direkt in die Hardware integriert („In-Camera“). Dies kann entweder fest auf einem Chip implementiert sein oder über installierbare Apps nachgerüstet werden, wie beispielsweise die Canon Auto Tracking App für bestimmte Modelle. Auch bei In-Camera-Systemen gibt es meist eine Möglichkeit zur Konfiguration über ein Web-Interface.

Alternativ kann das Tracking „Server-Based“ erfolgen. Dabei wird das Kamerabild über das Netzwerk an einen externen Server übertragen. Auf diesem Server läuft die leistungsfähige Tracking-Software, die das Bild analysiert, das Motiv ortet und die notwendigen Steuerbefehle berechnet. Diese Befehle werden dann über das Netzwerk (z. B. per NDI-Protokoll) an die Kamera zurückgesendet, die die entsprechenden Schwenk-, Neige- und Zoom-Bewegungen ausführt. Server-basierte Systeme haben oft den Vorteil, dass sie leistungsfähiger sind und potenziell mehr Kameras gleichzeitig steuern können, wie das Beispiel der Panasonic AW-SF200 Software zeigt, die bis zu vier Kameras pro Server verwaltet und sogar Gesichter zur Priorisierung registrieren kann.

Was ist Tracking Pan Tilt?
PTZ(Pan-Tilt-Zoom)-Kameras sind feststehende Kameras mit der Möglichkeit zu schwenken (pan), vertikal zu neigen (tilt) sowie den Bildausschnitt zu verändern (zoom). Entweder werden sie von einem Kameramann ferngesteuert oder automatisch per „Autopilot“ gesteuert.

Spezifische Tracking-Technologien

Neben der reinen Softwarelogik gibt es verschiedene technologische Ansätze zur Ortung des Motivs im Raum:

Optisches Tracking

Dies ist die am weitesten verbreitete Methode und basiert auf der Analyse des Kamerabildes, wie bei der bereits besprochenen Gesichtserkennung. Der Nachteil ist offensichtlich: Das Motiv muss sich im aktuellen Blickfeld der Kamera befinden, damit es erkannt und verfolgt werden kann. Wenn das Motiv außerhalb des Bildes steht, kann die Kamera es optisch nicht finden.

Zwei- und Dreiäugige Systeme

Um das Problem des begrenzten Blickfelds beim optischen Tracking zu umgehen, statten einige Hersteller ihre PTZ-Kameras mit zusätzlichen, fest installierten Weitwinkelobjektiven aus. Ein Beispiel ist die Lumens VC-TR40/N, die neben dem beweglichen Aufnahmeobjektiv ein festes Superweitwinkelobjektiv besitzt. Dieses zweite „Auge“ erfasst einen viel größeren Bereich des Raumes. Die Daten aus diesem Weitwinkelbild werden genutzt, um die Position von Personen zu bestimmen und das Hauptobjektiv gezielt darauf auszurichten. Zukünftige Systeme wie die Lumens VC-TR70 sollen sogar drei Objektive für eine noch präzisere und weitreichendere Ortung (bis zu 30m) nutzen.

Mikrofon-basiertes Tracking (Audio-Tracking)

Eine weitere effektive Methode zur Ortung eines Redners basiert auf der Analyse von Audiosignalen. Mit mehreren Mikrofonen ausgestattete Systeme können die Herkunft einer Schallquelle im Raum bestimmen, ähnlich wie der Mensch mit zwei Ohren die Richtung eines Geräusches ortet. Die Kombination von Audio- und optischem Tracking ist besonders leistungsfähig: Das Audio-Tracking kann die Kamera grob in die Richtung des Sprechers lenken, woraufhin das optische Tracking (Gesichtserkennung) die Feinjustierung und Verfolgung übernimmt.

Moderne Systeme nutzen Mikrofon-Arrays, die oft in AV-Bars oder Deckenmikrofonen verbaut sind. Durch die Auswertung von Laufzeitunterschieden der Tonsignale an den einzelnen Mikrofonen kann die genaue Position der Schallquelle berechnet werden. Techniken wie Beamforming ermöglichen es, den Fokus auf den Sprecher zu legen und Hintergrundgeräusche zu unterdrücken. Beispiele für solche Systeme sind das Shure Microflex® Advance™ MXA920 oder die Technologien von Sennheiser, Biamp (Parlé) und Nureva (Microphone-Mist-Technologie mit virtuellen Mikrofonen). Diese Systeme können Positionsdaten an die Kamerasteuerung übergeben und ermöglichen so ein „Nachhören“ der Kameras auf den Sprecher. Einige Systeme können sogar automatisch zwischen mehreren Kameras umschalten, basierend darauf, wer gerade spricht.

Ultraschall-Tracking

Einige innovative Systeme nutzen zusätzlich zu optischen und auditiven Methoden auch Ultraschallsignale zur Ortung. Das Poly EagleEye Director System sendet für Menschen unhörbare Ultraschalltöne aus. Mikrofone analysieren die Reflexionen dieser Töne von Objekten im Raum, um deren ungefähre Position zu bestimmen. Dies ergänzt die Gesichtserkennung und Stimmenerkennung.

Infrarot-Tracking

Eine einfachere, aber weniger verbreitete Methode ist die Verwendung von Infrarot-Trackern, die vom Redner getragen werden (z. B. um den Hals). Ein System wie das Vaddio RoboTRAK verfolgt den Sender. Die Zuverlässigkeit kann jedoch stark von den Lichtverhältnissen und der Geometrie des Raumes abhängen.

Laser-Tracking (LIDAR)

Ein besonders fortschrittlicher Ansatz nutzt LIDAR-Sensoren (Light Detection And Ranging). Diese Technologie, bekannt aus Robotik und autonomen Fahrzeugen, misst Abstände mithilfe rotierender Laserstrahlen. Durch die Analyse der Zeit, die ein Laserimpuls benötigt, um von einem Objekt reflektiert und vom Sensor wieder empfangen zu werden, kann die Entfernung und Position des Objekts im Raum präzise bestimmt werden.

Systeme wie der TrackingMaster von VST GmbH nutzen LIDAR-Sensoren (oft zwei), um Personen in der Tiefe des Raumes zu orten. KI-Algorithmen unterscheiden dabei zuverlässig zwischen Menschen und statischen Gegenständen. Die ermittelten Positionsdaten werden dann an PTZ-Kameras verschiedener Hersteller übermittelt, um deren Bewegungen zu steuern. Die Vorteile des LIDAR-Trackings sind signifikant: Menschen werden überall im Raum erkannt, unabhängig davon, ob sie sich im aktuellen Blickfeld der Kamera befinden. Die Methode ist unempfindlich gegenüber Lichtverhältnissen und kann Personen erkennen, auch wenn sie der Kamera den Rücken zukehren. Zudem ist das Verfahren aus Datenschutzsicht unbedenklich, da keine Gesichter oder biometrischen Merkmale erfasst werden, sondern lediglich die physische Präsenz und Position von Körpern im Raum. Positionsdaten können auch genutzt werden, um andere Geräte wie Mikrofone oder Visualizer automatisch zu steuern.

Zusammenfassung

Automatisches Tracking bei PTZ-Kameras ist ein komplexes Zusammenspiel verschiedener Technologien, das es ermöglicht, professionelle Videoaufnahmen ohne ständigen menschlichen Eingriff zu realisieren. Die Grundlage bildet die Motiverkennung, oft basierend auf Gesichtserkennung mittels KI. Die eigentliche Nachverfolgung passt den Bildausschnitt an die Bewegungen des Motivs an, wobei Auto-Framing für eine gefällige Komposition sorgt. Definierbare Zonen und Presets bieten zusätzliche Steuerungsmöglichkeiten.

Zur präzisen Ortung des Motivs kommen verschiedene Technologien zum Einsatz: Optisches Tracking (das auf das Kamerabild angewiesen ist, ergänzt durch Zwei- oder Dreiäugige Systeme), Audio-Tracking (das den Sprecher über Mikrofone lokalisiert), sowie spezialisierte Methoden wie Ultraschall, Infrarot oder das fortschrittliche LIDAR-basierte Tracking. Die Verarbeitung der Daten und die Steuerung der Kameras erfolgen entweder direkt in der Kamera oder auf externen Servern/Geräten. Dieses Zusammenspiel ermöglicht leistungsfähige automatisierte Produktionsworkflows, von einfachen Vortragsaufzeichnungen bis hin zur automatisierten Bildregie mit mehreren Kameras.

Häufig gestellte Fragen zum Automatischen PTZ-Tracking

Was ist der Hauptvorteil von automatischem PTZ-Tracking?
Der größte Vorteil ist die Möglichkeit, professionelle Videoaufnahmen von sich bewegenden Personen (wie Rednern oder Dozenten) zu erstellen, ohne dass ein menschlicher Kameramann die Kamera steuern muss. Dies spart Personalaufwand und ermöglicht konsistente Ergebnisse.

Welche Methoden nutzen PTZ-Kameras, um Personen zu verfolgen?
Die gängigsten Methoden sind optisches Tracking (basierend auf Gesichtserkennung und Körpererkennung), Audio-Tracking (das die Position des Sprechers über Mikrofone ermittelt) und fortschrittlichere Methoden wie LIDAR (Laser-Scanning).

Ist automatisches Tracking datenschutzkonform?
Viele moderne Systeme, insbesondere solche, die auf reiner Gesichtserkennung (Detection statt Recognition) oder Technologien wie LIDAR basieren, sind so konzipiert, dass sie keine personenbezogenen Daten speichern oder Personen identifizieren. Bei Systemen, die Gesichter in Datenbanken speichern, ist die Zustimmung der betroffenen Personen erforderlich.

Können automatisch trackende Kameras mehrere Personen gleichzeitig verfolgen?
Einige fortschrittliche Systeme können zwischen mehreren Sprechern wechseln oder einen Bildausschnitt wählen, der mehrere Personen erfasst. Systeme mit mehreren Kameras und automatisierter Bildregie sind darauf spezialisiert, dynamisch auf verschiedene Akteure zu reagieren.

Wo wird automatisches PTZ-Tracking eingesetzt?
Hauptanwendungsbereiche sind Konferenzräume, Hörsäle, Schulungsräume, Gotteshäuser, Event-Locations und Studios, wo Vorträge, Präsentationen oder Meetings automatisch aufgezeichnet oder live gestreamt werden sollen.

Vergleich verschiedener Tracking-Methoden

MethodeTechnologieErkennung benötigt Sichtfeld?Erkennung benötigt Ton?Unabhängig von Licht?Datenschutzaspekt (typisch)Bemerkungen
Optisches TrackingKamerabild (KI, Gesicht/Körper)JaNeinTeilweise (schwierig bei Dunkelheit/Kontrast)Erkennt Gesichter/KörperAm weitesten verbreitet, kann durch zusätzliche Objektive verbessert werden.
Audio-TrackingMikrofon-Arrays (Schallortung)Nein (aber Kamera muss sich ausrichten)Ja (Person muss sprechen)JaErkennt Schallquelle, nicht PersonIdeal zur ersten Ausrichtung der Kamera, oft in Kombination mit Optik.
LIDAR-TrackingLaser-ScanningNein (scannt den Raum)NeinJaErkennt Körperposition, nicht PersonSehr robust, unabhängig von Licht und Körperausrichtung, datenschutzfreundlich.
Infrarot-TrackingIR-Sender/EmpfängerNein (folgt Sender)NeinTeilweise (kann durch Licht beeinflusst werden)Folgt Sender, nicht Person selbstEinfacher Ansatz, potenziell weniger robust.
Ultraschall-TrackingUltraschall-Signale/ReflexionenNein (scannt den Raum)NeinJaErkennt Objektposition, nicht PersonSpezifische Methode, oft in Kombination eingesetzt.

Hat dich der Artikel Automatisches Tracking bei PTZ-Kameras interessiert? Schau auch in die Kategorie Video rein – dort findest du mehr ähnliche Inhalte!

Avatar photo

Andenmatten Soltermann

Hallo! Ich bin Andenmatten Soltermann, ein Schweizer Fotograf, der leidenschaftlich die Essenz der Welt durch seine Linse einfängt. Geboren und aufgewachsen in den majestätischen Schweizer Alpen, haben die deutsche Sprache und atemberaubende Landschaften meine kreative Vision geprägt. Meine Liebe zur Fotografie begann mit einer alten analogen Kamera, und seitdem widme ich mein Leben der Kunst, visuelle Geschichten zu erzählen, die berühren und verbinden.In meinem Blog teile ich praktische Tipps, Techniken und Erfahrungen, um dir zu helfen, deine fotografischen Fähigkeiten zu verbessern – egal, ob du ein neugieriger Anfänger oder ein erfahrener Profi bist. Von der Beherrschung des natürlichen Lichts bis hin zu Ratschlägen für wirkungsvolle Bildkompositionen ist es mein Ziel, dich zu inspirieren, die Welt mit neuen Augen zu sehen. Mein Ansatz verbindet Technik mit Leidenschaft, immer auf der Suche nach dem Funken, der ein Foto unvergesslich macht.Wenn ich nicht hinter der Kamera stehe, findest du mich auf Bergpfaden, auf Reisen nach neuen Perspektiven oder beim Genießen der Schweizer Traditionen, die mir so am Herzen liegen. Begleite mich auf dieser visuellen Reise und entdecke, wie Fotografie die Art und Weise, wie du die Welt siehst, verändern kann.

Go up