Das Auge des Roboters: Wie Maschinen sehen | Fotografen Andenmatten Soltermann

20/03/2021

★★★★★Rating: 4.57 (2438 votes)

In Science-Fiction-Filmen begegnen uns Roboter oft als menschenähnliche Wesen, die ihre Umgebung auf vertraute Weise wahrnehmen und mit ihr interagieren. Sie scheinen zu „sehen“, zu „hören“ und sogar zu „fühlen“. Die Realität der modernen Robotik ist jedoch (noch) eine andere. Während Menschen ihre Umwelt intuitiv über ihre fünf Sinne erfassen, fehlen Robotern diese natürlichen Fähigkeiten. Dennoch schreitet die Entwicklung rasant voran, um Maschinen die Interaktion mit ihrer Umwelt zu ermöglichen und sie auf Veränderungen reagieren zu lassen. Die zentrale Frage, die sich dabei stellt, ist: Wie können Roboter ihre Umgebung wahrnehmen? Kurz gesagt: Wie sehen Roboter?

Was bedeutet „Sehen“ im Kontext der Robotik?

Bevor wir uns fragen, wie Roboter sehen, müssen wir klären, was „Sehen“ überhaupt bedeutet, insbesondere im Vergleich zum menschlichen Sehsinn. Beim Menschen sammeln die Augen Licht, das von Objekten reflektiert wird. Dieses Licht trifft auf die Netzhaut, wird in elektrische Signale umgewandelt und über den Sehnerv zum Gehirn geleitet. Der entscheidende Schritt findet im Gehirn statt: Die elektrischen Signale werden verarbeitet, interpretiert und mit Erinnerungen verknüpft. Erst diese Interpretation ermöglicht es uns, die Welt zu verstehen und uns darin zurechtzufinden. Dieser Interpretationsprozess ist so komplex, dass Schätzungen zufolge bis zur Hälfte unseres Gehirns damit beschäftigt sein könnte.

Wie kann ein Roboter sehen? — Das kann Ultraschall sein, aber auch Radar, Sonar, oder Infrarotsensoren kommen zur Anwendung. Bei all diesen Sensoren werden Wellen – Licht oder Schall – ausgesendet und anschließend gemessen, was von der Umgebung zurückgeworfen wird. So erhält man zwar ein Bild der Umgebung, kann aber nicht erkennen, was was ist.

Interessanterweise gibt es in der Natur viele Beispiele für Augen, die mit weitaus weniger Rechenleistung auskommen, wie etwa bei Insekten. Das zeigt, dass eine Form des „Sehens“ auch ohne die immense Komplexität eines menschlichen Gehirns möglich ist. Für einen Roboter bedeutet „Sehen“ im Grunde die Fähigkeit, Daten über seine Umgebung zu sammeln und diese Daten so zu verarbeiten, dass er relevante Informationen extrahieren und darauf basierend Aktionen planen oder ausführen kann.

Warum ist maschinelles Sehen für Roboter so wichtig?

Angesichts der Komplexität stellt sich die Frage, warum wir Robotern das Sehen beibringen wollen. Roboter sind bereits heute in der Lage, beeindruckende Aufgaben zu erfüllen, sei es in der kollaborativen Arbeit mit Menschen in Fabriken oder bei der schnellen Paketzustellung in Warenlagern. Viele Aufgaben bleiben ihnen jedoch verwehrt, gerade weil ihnen die Fähigkeit zur flexiblen Wahrnehmung fehlt.

Im industriellen Umfeld ermöglicht die Sichtführung von Robotern in 2D und 3D eine deutlich flexiblere Automatisierung von Prozessen wie Produktion, Montage und Materialhandhabung. Dies ist angesichts der wachsenden Bedeutung von Mass Customization und Batch Size One von entscheidender Bedeutung. Traditionelle Industrieroboter, die oft auf über 60 Jahre alter Technologie basieren, funktionieren durch absolute Präzision in einer streng kontrollierten Umgebung. Geringste Abweichungen, etwa in der Position eines Werkstücks, können den gesamten Prozess stören, da die Maschinen ihre Umgebung nicht „verstehen“.

Roboter, die ihre Umgebung erkennen und interpretieren können, könnten auch Aufgaben übernehmen, die bisher ausschließlich Menschen vorbehalten sind. Das wäre in vielen Bereichen hilfreich: in Industrien mit Arbeitskräftemangel, bei unattraktiven oder gefährlichen Tätigkeiten, bei Arbeitsschritten, die über lange Zeit hohe Konzentration erfordern, im Haushalt oder sogar im Operationssaal. Um das volle Potenzial von Robotern auszuschöpfen und sie weiter in unser Leben und unsere Arbeit zu integrieren, ist die Entwicklung eines „Sehsinns“ – im weitesten Sinne – unerlässlich. Ohne ihn können sie ihre Umgebung nicht im Kontext verstehen und flexibel auf unerwartete Situationen reagieren.

Die Hürden auf dem Weg zum sehenden Roboter

Die Entwicklung des maschinellen Sehens ist mit erheblichen Herausforderungen verbunden. Eine der bekanntesten Schwierigkeiten im industriellen Kontext ist das sogenannte „Griff in die Kiste“ (Bin Picking): Ein Roboter muss ein einzelnes Teil aus einer Kiste entnehmen, in der viele Teile ungeordnet liegen. Für einen Menschen ist das trivial, da er gelernt hat, Objekte in verschiedenen Lagen und überlagerungen zu erkennen. Ein Roboter-Bildverarbeitungssystem hat Schwierigkeiten, unsortierte Objekte zuverlässig zu identifizieren, es sei denn, sie wurden zuvor explizit trainiert oder programmiert. Die Entwickler müssen also genau wissen, welche Objekte in welcher Form auftreten können, um den entsprechenden Algorithmus zu erstellen.

Schon in den frühen 1960er Jahren dachte man, die Informationsgewinnung aus Kamerabildern sei einfach. Doch diese Annahme erwies sich als falsch. Die Komplexität führte zur Entstehung ganzer Forschungsfelder wie dem Maschinellen Sehen (Computer Vision) und dem Maschinellen Lernen (Machine Learning).

Anstelle eines Gehirns verarbeitet ein Roboter die Daten von Sensoren mithilfe eines Computers. Bild- und Tiefendaten – also Informationen über Farben, Formen und Abstände – sind dabei besonders wichtig. Der Roboter soll die Objekte in seiner Umgebung nicht nur „sehen“, sondern auch erkennen und verstehen. Er muss einen Zusammenhang zwischen den reinen Farbinformationen (Pixeln) und der Semantik herstellen – also wissen, was das Gesehene bedeutet. Ein Bild besteht aus Millionen von Pixeln, die jeweils eine Farbinformation speichern. Die Herausforderung besteht darin, diese riesige Menge an Zahlen in aussagekräftige Informationen umzuwandeln, die beschreiben, was auf dem Bild zu sehen ist.

Eine weitere Schwierigkeit liegt in der Umwandlung der großen, aufgezeichneten Datenmengen in einfache, abstrakte Signale, die der Roboter verarbeiten kann. Dies ist mathematisch sehr anspruchsvoll. Äußere Einflüsse wie Wetter, Lichtverhältnisse und Tageszeit erschweren die Aufgabe zusätzlich. Menschen können solche irrelevanten Informationen meist ignorieren und sich auf das Wesentliche konzentrieren. Roboter müssen dies erst lernen, was ein langwieriger und mühsamer Prozess ist.

Relevante Informationen für das Erkennen und Verstehen der Umgebung umfassen die eigene Position des Roboters, die 3D-Position und Orientierung umgebender Objekte, deren Bewegung, die Objektart, mögliche Interaktionsformen (z. B. Greifbarkeit), begehbare/befahrbare Bereiche, Hindernisse und die Struktur der unmittelbaren Umgebung. All dies muss der Roboter aus seinen Sensordaten ableiten.

Wie "sehen" Roboter heute? Verschiedene Sensor-Technologien

Um die Umwelt wahrzunehmen, nutzen Roboter eine Vielzahl von Sensoren, oft in Kombination. Hier sind einige der gängigsten Technologien:

Ultraschall-Sensoren

Ultraschallsensoren, ähnlich einem Echolot, sind eine einfache und häufige Methode zur Hinderniserkennung. Ein Lautsprecher sendet hochfrequente Schallwellen aus. Diese breiten sich aus und werden von Hindernissen reflektiert. Ein Mikrofon empfängt die zurückkehrenden Wellen, und aus der gemessenen Zeit bis zur Rückkehr lässt sich die Entfernung zum Objekt berechnen.

Der Nachteil dieser Technik ist, dass sie lediglich die Anwesenheit eines Objekts und dessen Entfernung erfasst. Sie kann nicht zwischen verschiedenen Objekten unterscheiden oder deren Form erkennen. Daher ist die Reaktionsfähigkeit des Roboters, der nur Ultraschall nutzt, sehr begrenzt.

LiDAR: Light Detection and Ranging

LiDAR funktioniert nach einem ähnlichen Prinzip wie Ultraschall, verwendet aber Lichtwellen (meist Infrarot) anstelle von Schall. Ein Sensor sendet Lichtpulse aus und misst die Zeit, die das Licht benötigt, um von Objekten reflektiert und zum Sensor zurückzukehren. Es gibt verschiedene Varianten:

Sensoren mit einem einzelnen Lichtstrahl messen Distanzen zu großen Objekten (Wände, Boden).
Sensoren mit mehreren Lichtstrahlen helfen bei der Kollisionsvermeidung und einfachen Objekterkennung.
Sich drehende Sensoren erzeugen einen rotierenden Lichtstrahl und werden ebenfalls zur Objekterkennung und Kollisionsvermeidung eingesetzt.

Durch das Erfassen von Millionen von Distanzmessungen in alle Richtungen entsteht eine Punktwolke, die eine 3D-Darstellung des Raumes liefert. Diese Daten sind rein geometrisch.

Auch LiDAR hat Nachteile: Reflektierende Oberflächen lenken das Licht weg vom Sensor. Nebel oder Regen können die Messung stören. Die Erfassung ist relativ langsam, und die Geräte waren lange sehr teuer. Zudem liefert die Punktwolke keine Informationen über Farbe oder Textur, im Gegensatz zum menschlichen Sehen. Allerdings sind die Preise für LiDAR-Systeme in den letzten Jahren deutlich gesunken.

Wie heißt der Roboter in I Robot? — Der Robot nennt sich selbst Sonny und behauptet, er könne fühlen und träumen. Mit einem Mord hätte der Robot gegen die ihm einprogrammierten Gesetze verstoßen, so dass niemand außer Spooner daran glauben mag. Gemeinsam mit der Roboter-Psychologin Dr. Susan Calvin folgt er den Spuren, die Dr.

Kameras und Bildverarbeitung

Die Nutzung von digitalen Kameras zur Umwelterfassung ist für die Entwicklung eines echten „Sehsinns“ unerlässlich, da sie Farbe und Detail erfassen. Eine Videokamera nimmt kontinuierlich Bilder auf, die an den Computer des Roboters gesendet werden. Algorithmen analysieren diese Bilder, suchen nach auffälligen Elementen wie Linien, Ecken oder bestimmten Texturen und verfolgen diese von Bild zu Bild.

Eine spezielle Software zur Bildverarbeitung wird entwickelt, um Muster zu erkennen und dem Roboter zu helfen, die Objekte und Strukturen in seiner Umgebung zu verstehen. Diese Software kann beispielsweise eine Karte der Umgebung erstellen, während sich der Roboter bewegt, oder erkannte Eigenschaften mit einer Datenbank vergleichen, um bestimmte Objekte zu identifizieren. Diese Art der Programmierung erfordert jedoch, dass die Entwickler wissen, nach welchen Mustern gesucht werden soll.

Allein ist die Bildverarbeitung basierend auf programmierten Mustern oft nicht zuverlässig genug, um Kollisionen sicher zu vermeiden. Daher wird sie häufig mit anderen Sensormodellen kombiniert. Dank der ständig wachsenden und günstiger werdenden Rechenleistung wird diese Technologie immer praktikabler. Der Bedarf an Trainingsdaten ist jedoch enorm, oft größer als das, was Menschen benötigen. Forschungseinrichtungen entwickeln daher Methoden, bei denen anstelle realer Bilder simulierte Szenen verwendet werden. Dies ermöglicht es, die zu erlernenden Informationen (z. B. die Art des Objekts) direkt bei der Erzeugung der Szene mitzuliefern.

Ein neuer Ansatz: Maschinelles Lernen

Eine der vielversprechendsten Richtungen in der Entwicklung des maschinellen Sehens ist das Maschinelle Lernen. Anstatt das System für jede erdenkliche Situation zu programmieren, soll es in die Lage versetzt werden, selbstständig aus Daten zu lernen. Inspiriert davon, wie man vermutet, dass Tiere sehen und lernen, entwickeln Forscher Systemstrukturen, die nicht einfach nur Algorithmen sind, sondern eine Basis, auf der der Roboter Wissen selbstständig erarbeitet – also lernt.

Durch Maschinelles Lernen können Roboter ihr erlerntes Wissen sogar teilen. Das bedeutet, nicht jeder Roboter muss bei Null anfangen. Über Netzwerke oder eine Cloud können Roboter auf das gesammelte Wissen anderer Maschinen zugreifen. Wenn ein Roboter eine komplexe Aufgabe löst und daraus lernt, könnten prinzipiell alle anderen Roboter im selben Netzwerk von diesem Wissen profitieren. Eine Vorstellung, die sowohl faszinierend als auch potenziell beängstigend ist.

Die Weiterentwicklung der Hardware

Parallel zur Software-Entwicklung schreitet auch die Hardware voran. Forscher der Stanford University haben beispielsweise eine neue Kamera entwickelt, die vom Aufbau der Augen von Insekten inspiriert ist. Sie verfügt über Hunderttausende extrem kleiner Mikrolinsen (bis zu 200.000), die detaillierte Informationen über jeden einzelnen Lichtreiz sammeln. Diese Technologie, oft als „Lichtfeldfotografie“ oder „rechnerische Fotografie“ bezeichnet, kann ein deutlich weiteres Sichtfeld als das menschliche Auge erfassen und mehr Informationen auf einmal sammeln. Solche Fortschritte bei den Sensoren liefern den Systemen des Maschinellen Sehens noch reichhaltigere Daten zur Verarbeitung.

Sensorfusion: Die Kombination der Stärken

Aktuell und in absehbarer Zukunft nutzen Roboter, insbesondere in komplexen Anwendungen wie autonomen Fahrzeugen, selten nur eine einzelne Sensor-Technologie. Stattdessen wird auf Sensorfusion gesetzt. Dabei werden die Daten verschiedener Sensoren (z. B. Kameras, LiDAR, Radar, Ultraschall) kombiniert, um ein umfassenderes und zuverlässigeres Bild der Umgebung zu erhalten. Die Stärken eines Sensors können die Schwächen eines anderen ausgleichen. Während eine Kamera detaillierte Farbinformationen liefert, kann LiDAR genaue Abstands- und 3D-Strukturdaten liefern, und Radar funktioniert gut bei schlechtem Wetter, auch wenn es weniger detailreich ist.

Durch die Sensorfusion kann der Roboter seine Umgebung robuster wahrnehmen, Objekte sicherer erkennen und besser auf unvorhergesehene Situationen reagieren. Wenn beispielsweise ein Ball auf die Straße rollt, könnte ein autonomes Auto, das nur LiDAR nutzt, einfach ein sich bewegendes Hindernis erkennen. Ein System mit Sensorfusion, das auch Kameras und Maschinelles Lernen nutzt, könnte den Ball als solchen identifizieren und aus Erfahrung oder Training „lernen“, dass ein Kind folgen könnte. Dies ermöglicht eine vorausschauendere und sicherere Reaktion.

Vergleich der Sensor-Technologien

Technologie	Prinzip	Gelieferte Daten	Stärken	Schwächen	Typische Anwendung
Ultraschall	Sendet Schallwellen, misst Laufzeit	Abstandsinformation	Einfach, kostengünstig, gut zur reinen Abstandsmessung/Hinderniserkennung	Keine Objekterkennung, geringe Reichweite, anfällig für weiche Oberflächen	Einfache Kollisionsvermeidung, Abstandssensoren
LiDAR	Sendet Lichtpulse, misst Laufzeit	3D-Punktwolke (Geometrie)	Genaue 3D-Abstände und Struktur, unabhängig von Umgebungslicht	Keine Farb-/Texturinfo, anfällig für Nebel/Regen, Probleme mit reflektierenden Oberflächen, Rechenaufwand für Punktwolke	Autonomes Fahren, 3D-Mapping, Navigation
Kamera + Bildverarbeitung	Nimmt optische Bilder auf, Algorithmen analysieren Pixel	2D-Bild (Farbe, Textur), abgeleitete Merkmale (Linien, Ecken, Objekte)	Liefert detailreiche optische Informationen, Erkennung von Farben und Texturen, hohe Auflösung möglich	Sehr empfindlich auf Lichtverhältnisse, schwierig bei schlechtem Licht/Wetter, hohe Rechenleistung für Interpretation, benötigt Training/Programmierung	Objekterkennung, Qualitätskontrolle, Navigation (SLAM), Gesichtserkennung

Häufig gestellte Fragen zum maschinellen Sehen

Hier beantworten wir einige gängige Fragen zum Thema, wie Roboter "sehen":

Können Roboter so gut sehen wie Menschen?
Das hängt davon ab, was man unter „gut sehen“ versteht. In manchen Aspekten übertreffen Roboter-Sensoren den Menschen bereits (z.B. Sehen im Infrarotbereich, extrem schnelle Abstandsmessung über weite Distanzen). Im Bereich der Interpretation, des Kontextverständnisses, der Filterung irrelevanter Informationen und der Antizipation von Ereignissen ist das menschliche Gehirn dem Roboter aber noch weit überlegen. Es ist eher ein anderes „Sehen“ als ein direkt vergleichbares.
Was ist der größte Unterschied zwischen menschlichem und maschinellem Sehen?
Der größte Unterschied liegt in der Interpretation. Menschen interpretieren Gesehenes basierend auf einem Leben voller Erfahrungen und Kontextwissen intuitiv und flexibel. Roboter müssen diese Interpretation mühsam erlernen oder sind auf explizite Programmierung angewiesen. Sie sehen Pixel und Daten, nicht die Bedeutung dahinter, es sei denn, sie lernen, diese herzustellen.
Ist Maschinelles Lernen die Zukunft des Roboter-Sehsinns?
Maschinelles Lernen ist definitiv ein entscheidender Wegbereiter für flexibleres und anpassungsfähigeres maschinelles Sehen. Es ermöglicht Robotern, aus Daten zu lernen und sich an neue Situationen anzupassen, was mit reiner Programmierung kaum möglich wäre. Es wird aber wahrscheinlich Hand in Hand mit besserer Sensor-Hardware und traditionelleren Bildverarbeitungs-Algorithmen eingesetzt.
Warum werden oft mehrere Sensoren kombiniert (Sensorfusion)?
Kein einzelner Sensor liefert ein perfektes Bild der Realität. Kameras sind lichtabhängig, LiDAR hat Probleme mit reflektierenden Oberflächen, Ultraschall ist ungenau bei der Objekterkennung. Durch die Kombination der Daten verschiedener Sensoren können die Schwächen des einen durch die Stärken des anderen ausgeglichen werden. Das Ergebnis ist eine robustere und zuverlässigere Wahrnehmung der Umgebung, was besonders bei sicherheitskritischen Anwendungen wie autonomen Fahrzeugen unerlässlich ist.

Fazit und Ausblick

Robotern das Sehen beizubringen, ist eine der größten Herausforderungen in der modernen Robotik. Gleichzeitig birgt die erfolgreiche Umsetzung dieser Fähigkeit ein enormes Potenzial, neue Anwendungsbereiche für Roboter zu erschließen und bestehende Prozesse erheblich effizienter und flexibler zu gestalten.

Die zentrale Aufgabe besteht darin, dem Roboter nicht nur die reine Sensorinformation zu liefern, sondern ihm verständlich zu machen, was diese Informationen bedeuten – welche Objekte sich in seiner Umgebung befinden, in welchem Zustand sie sind und ob und wie er darauf reagieren sollte. Fortschritte im Maschinellen Lernen, verbesserte Bildverarbeitungs-Algorithmen und die Entwicklung leistungsfähigerer Sensor-Hardware, wie z. B. die inspirierte von Insektenaugen, treiben diese Entwicklung voran.

Auch wenn die Technologien immer besser werden, wird zurzeit und in absehbarer Zukunft auf die Sensorfusion gesetzt, insbesondere bei komplexen Anwendungen wie autonomen Fahrzeugen. Die Kombination der Daten verschiedener Sensortypen hilft, die jeweiligen Schwächen auszugleichen und ein zuverlässigeres Gesamtbild der Umgebung zu erhalten.

Die Reise zum wirklich „sehenden“ Roboter ist noch nicht abgeschlossen, aber die Fortschritte sind beeindruckend. Die Fähigkeit der Maschinen, ihre Umwelt wahrzunehmen und zu interpretieren, wird die Art und Weise, wie sie mit uns interagieren und welche Aufgaben sie übernehmen können, fundamental verändern.

Hat dich der Artikel Das Auge des Roboters: Wie Maschinen sehen interessiert? Schau auch in die Kategorie Ogólny rein – dort findest du mehr ähnliche Inhalte!

Andenmatten Soltermann

Hallo! Ich bin Andenmatten Soltermann, ein Schweizer Fotograf, der leidenschaftlich die Essenz der Welt durch seine Linse einfängt. Geboren und aufgewachsen in den majestätischen Schweizer Alpen, haben die deutsche Sprache und atemberaubende Landschaften meine kreative Vision geprägt. Meine Liebe zur Fotografie begann mit einer alten analogen Kamera, und seitdem widme ich mein Leben der Kunst, visuelle Geschichten zu erzählen, die berühren und verbinden.In meinem Blog teile ich praktische Tipps, Techniken und Erfahrungen, um dir zu helfen, deine fotografischen Fähigkeiten zu verbessern – egal, ob du ein neugieriger Anfänger oder ein erfahrener Profi bist. Von der Beherrschung des natürlichen Lichts bis hin zu Ratschlägen für wirkungsvolle Bildkompositionen ist es mein Ziel, dich zu inspirieren, die Welt mit neuen Augen zu sehen. Mein Ansatz verbindet Technik mit Leidenschaft, immer auf der Suche nach dem Funken, der ein Foto unvergesslich macht.Wenn ich nicht hinter der Kamera stehe, findest du mich auf Bergpfaden, auf Reisen nach neuen Perspektiven oder beim Genießen der Schweizer Traditionen, die mir so am Herzen liegen. Begleite mich auf dieser visuellen Reise und entdecke, wie Fotografie die Art und Weise, wie du die Welt siehst, verändern kann.