Wann die Kombination von KI und LiDAR wichtig ist | Blog | DeeVisio
BLOGARTIKEL | TECHTALK

Wann die Kombination von KI-Bilderkennung mit LiDAR-Technologie sinnvoll ist

von Marcel Brückner | Softwareingenieur & KI-Experte

12.08.21


Durch Ansätze wie Deep Learning, eine Form der künstlichen Intelligenz (KI), sind heutzutage intelligente Systeme möglich, die vor wenigen Jahren noch unvorstellbar gewesen wären. Vor allem im Bereich der Bilderkennung ist dieser Ansatz des maschinellen Lernens (ML) erheblich fortschreitend für Entwicklungen von Anwendungen, die das automatisierte Erkennen und Analysieren von Kamerabildern ermöglichen und vormals nur durch den Menschen ausführbar waren. Die Kombination von Künstlicher Intelligenz mit Kamerasensoren ermöglicht daher eine Vielzahl an neuartigen Anwendungsmöglichkeiten, die ein erhebliches Potential für die Industrie mit sich bringt.

In diesem Artikel wird erläutert, welchen Mehrwert die KI-Bilderkennung unter der Fusion eines Kamerasensors mit einem 3D-Sensor wie z. B. einem LiDAR-Scanner stiftet und in welchen Anwendungsbereichen zusätzliche 3D-Informationen unbedingt notwendig sind.

Wie ein Kamerasensor die Welt sieht
Die automatische Erkennung von Zuständen, Objekten oder auch Fehlerinspektionen mittels eines Kamerasensors sind ein paar wenige Beispiele für Anwendungsmöglichkeiten, die mit KI/Deep Learning basierter Bilderkennung möglich sind. Dabei haben die zuvor genannten Verfahren gemeinsam, dass die eigentliche Erkennung allein auf Grundlage des Kamerabilds ausgeführt wird, das vom Kamerasensor ausgegeben wird.

Ein Kamerasensor fängt die echte 3D-Welt durch Belichtung eines elektronischen Bildsensors ein, welcher ein Array/Gitter aus einzelnen (Farb-)Pixeln ist und damit eine 2D-Ebene darstellt. Hierdurch wird das Abbild der echten 3D-Welt durch eine (verkleinerte) 2D-Bildebene der Umgebung dargestellt (siehe Abbildung).

Illustration der Kamerabildebene in Bezug zur echten 3D Welt

Der Nachteil, der sich durch dieses Verfahren ergibt, ist, dass wichtige Information der echten, räumlichen 3D-Welt verloren gehen. Hierzu zählt, dass keine Information vorhanden ist, wie weit einzelne Bildpunkte vom Kamerasensor entfernt sind. Es ist also nicht ohne Weiteres möglich zu sagen, dass das erkannte Objekt A näher als Objekt B ist, oder ein erkanntes Objekt C beispielsweise 4 m entfernt ist. Die tatsächliche Position eines Objektes in der Umgebung ist somit unbekannt. Außerdem bedeutet das auch, dass anhand des einzelnen Kamerasensors allein keine Information über die tatsächliche Größe eines Objektes vorliegt. Es ist also unmöglich zu sagen, ob ein Objekt 2 m breit oder 1 m hoch ist, ohne vorher bekannte Informationen über die Umgebung oder das Objekt selbst zu haben.

Das stellt erstmal kein Problem dar für Anwendungen, die nur eine reine Darstellung und kein Wissen über die Position und/oder Größen in der echten 3D-Welt benötigen. In vielen Anwendungsfällen sind diesen Informationen jedoch förderlich oder sogar unabdingbar. Hierzu gehören fast alle Anwendungen die in gewisser Form im 3D-Raum interagieren. Beispiele hierfür sind z. B. in der Robotik zu finden, wo ein Greifarmroboter wissen muss, wo genau sich ein Objekt im 3D-Raum befindet, um es greifen zu können. Ein mobiler Roboter muss wissen, wo Freiraum ist und wie weit ein Hindernis entfernt ist, um seine Route planen oder ggfs. stoppen zu können, damit kein Mensch zu Schaden kommt. Wichtig sind diese Informationen auch beim Tracking von z. B. Personen oder Fahrzeugen zur Ermittlung der genauen Bewegungsposition oder Bewegungsgeschwindigkeit. Mit Hilfe eines einzelnen Kamerasensor ist das, wenn überhaupt, nur unter sehr speziellen Voraussetzungen und in vorher bekannten Umgebungen möglich.
Die Lösung – LiDAR Sensorik
Der Mangel der fehlenden räumlichen Information des Kamerasensors kann durch einen 3D-Sensor, wie LiDAR, beseitigt werden. LiDAR-Sensoren haben in den letzten Jahren erhebliche technologische Fortschritte gemacht und sich von anfänglich einfachen 2D-Linien Laserscannern zu komplexen Sensoren weiterentwickelt, die heute in Echtzeit ein detailliertes 3D- Bild der Umgebung bestimmen können und dabei erheblich kostengünstiger geworden sind als zu Ihren Anfängen. Der Fortschritt ist hier vor allem der Entwicklung im Automobilbereich zu verdanken und er lässt sich heutzutage hervorragend in zahlreichen Branchen in der Industrie anwenden.

Durch die Fusion eines einfachen Kamerasensors mit einem LiDAR-Sensor, kann dem Kamerabild die bisher fehlende Komponente, das räumliche Verständnis, hinzugefügt werden. Hierzu wird nach wie vor der Kamerasensor mit seinem informationsreichen Bildmaterial zur Extraktion von semantischen Informationen, z.B. über KI, genutzt, wohingegen dann nachgeschaltet die 3D-Information durch den LiDAR ergänzt wird.
Ein praktisches Beispiel:
Es soll ein System entwickelt werden, das eine Sicherheitszone überwacht und automatisch eine Warnung ausgibt, sobald in dieser ein Eindringling z. B. eine Drohne erkannt wird. Hierzu kann man sich ein Szenario am Flughafen vorstellen, wo Sicherheitsgrenzen definiert wurden. Sobald eine Drohne innerhalb der Zone erkannt wird, soll eine Warnung erfolgen. Befindet diese sich außerhalb des definierten Bereichs, erfolgt keine Warnung.

Auf Basis eines Kamerasensors und einer Bilderkennung, die auf künstlicher Intelligenz beruht, kann eine zuverlässige Drohnenerkennung entwickelt werden. Dank der KI können Drohnen zuverlässig von anderen Flugobjekten unterschieden werden, sodass der Anteil an Fehlalarmen auf ein Minimum reduziert wird. Die aus dem Kamerabild gewonnene Information allein ist jedoch nicht ausreichend, um einschätzen zu können, ob sich das Objekt innerhalb oder außerhalb der Zone befindet bzw. wie groß das Objekt ist. Durch die Fusion mit einem LiDAR Sensor kann diese fehlende Information ergänzt werden. So wird die Drohne erkannt und gleichzeitig vermessen sowie die XYZ-Position im Raum bestimmt (siehe Abbildung). Die Position und eventuell auch die Größe des Objektes kann dann mit den Regeln innerhalb der vorab definierten Zonen abgeglichen werden.

Alternativ kann man sich auch ein robustes System im Sicherheitsbereich vorstellen, z.B. für die Erkennung von Eindringlingen (Intruder Detection). Traditionell werden solche Systeme ausschließlich mit Erkennungen im Kamerabild gelöst über Veränderungen im Farbbild/ der Farbintensität. Dies macht jedoch Probleme, da auch durch Schatten, Lichtpegel oder kleine Tiere Fehlalarme entstehen können. Mit einem Lidar-Sensor kann hier eine wesentlich robustere Intruderdetektion entwickelt werden, indem z.B. räumliche Veränderungen des Volumens erkannt werden. Hierdurch verursachen Lichtpegel oder Schatten keine Fehlalarme, da diese keine Veränderung des Volumens darstellen. Zudem kann auch hier wieder durch Vermessung der Objekte, z.B. kleine Tiere von echten Eindringlingen (Menschen/Fahrzeuge) in der Größe unterschieden werden. Darüberhinaus ist eine Lidar-basierte Erkennung unabhängig von Umgebungslicht und performt daher bei Nacht ebenso gut wie bei Tag, was bei Kamera-basierter erkennung nicht der Fall ist. Die Kamera kann dann zusätzlich als weitere Verifizierungsebene oder Darstellungskomponente für den Anwender genutzt werden, indem z.B. erkannte Eindringlinge des Lidars in das Kamerabild projeziert werden und damit grafisch im Kamerabild dargestellt werden.

Beispielanwendung Drohnenerkennung in Sicherheitszone

Fazit
In diesem Artikel wurde ein kurzer Einblick gegeben, warum es oftmals notwendig ist, LiDAR- mit Kamerasensoren zu fusionieren. Dabei steht vor allem die zusätzliche Gewinnung von räumlichen Informationen, die für viele industrielle Anwendungen wichtig ist, im Vordergrund. An diesem Punkt ist jedoch auch anzumerken, dass viele weitere relevante Anwendungsfelder in diesem kurzem Blog-Artikel nicht thematisiert werden konnten. So kann es beispielsweise auch für Anwendungen, die auf den ersten Blick kein räumliches Verständnis benötigen, hilfreich sein, diese mit 3D-Informationen zu ergänzen, um die Robustheit bestehender Systeme zu erhöhen. Das ist besonders von Vorteil, wenn bekannte Geometrien oder räumliche Zusammenhänge in weiteren nachgeschalteten Plausibilitätsprüfungen Verwendung finden um höhere Redundanz zu gewährleisten.

Benötigen Sie Unterstützung bei Ihrem Projekt? Wir beraten Sie gerne und entwickeln mit Ihnen zusammen eine geeignete Lösung.