Künstliche Intelligenz ist in der Bildverarbeitung schon weit verbreitet, und auch Embedded-KI und TinyML halten dort zunehmend Einzug. Doch wie lässt sich beides in Vision-Systeme implementieren, und welche Hardware ist dafür erforderlich?
Heiko Seitz, Technischer Autor bei IDS Imaging Development Systems, informiert.
Markt&Technik: Zunächst einmal: Was ist Embedded-KI?
Heiko Seitz: Durch die »Einbettung« einer KI in ein spezialisiertes System wird ihre Aufgabe stark auf eigenständigen Betrieb optimiert, ohne direkte Einsicht in das Innenleben. Schnittstellen für den Datenaustausch oder zur Kommunikation sind dabei auf das Nötigste für die Interaktion mit den größeren Geräten oder Maschinen reduziert.
Damit bekommt der Begriff »Blackbox« ein ganz neues Gewicht. Sagt man der KI schon immer nach, sie arbeite wie eine Blackbox, weil Vorgehensweise und Ergebnisse nur schwer verständlich sind, kapselt ihre Einbettung auch noch das gesamte Handling und die eigentliche Aufgabe in einem größeren System. Dadurch ist die KI-Logik kaum noch isoliert sichtbar und weitaus direkter mit anderen Komponenten wie Sensoren und Aktuatoren im Austausch.
Damit eröffnet die Kombination von Embedded-KI und dem Konzept der Blackbox eine spannende und unter Umständen potenziell kritische Dimension. Denn arbeitet eine KI als eingebettetes System, verstärkt sich das Blackbox-Problem in gewisser Weise doppelt. Für Hersteller solcher Systeme birgt es aber auch eine Chance, das KI-Technologieproblem etwas aus dem Fokus zu nehmen und die KI auf die Erledigung ihrer Aufgaben zu reduzieren.
Was ist TinyML, und inwieweit spielt es auch in der Bildverarbeitung eine Rolle?
TinyML (Tiny Machine Learning) bezeichnet einen wachsenden Bereich des Edge Computing, der die Leistungsfähigkeit von künstlicher Intelligenz und von ML-Modellen in Geräte mit begrenzten Ressourcen bringt, um sie dort einzusetzen, wo sie benötigt wird – direkt an der Quelle der Daten.
Dazu passt die Zielsetzung der Partnerunternehmen IDS und DENKweit, KI-basierte intelligente Bildverarbeitung einfach nutzbar und dazu klein, schnell und kostengünstig in der Ausführung zu machen. Denn es gilt zu beachten, dass viele Cutting-Edge-Technologien wie Transformer-Netzwerke oder Large Language Models, wie sie in ChatGPT verwendet werden, in der Ausführung eher langsam sind und sehr viele Systemressourcen benötigen. Umso wichtiger ist, dass ihr Einsatz im richtigen Maß erfolgt, um die Anforderungen aus Kunden-Use-Cases optimal zu unterstützen. Und gerade in der Automatisierung sollte sich eine Bildverarbeitung nicht im Sekunden-, sondern eher im niedrigen Millisekunden-Bereich bewegen. Ein trainiertes neuronales Netz muss deshalb schnell und leichtgewichtig bleiben, um es in »normaler« Hardware ausführen zu können. Sind hohe Erkennungsgenauigkeit und Geschwindigkeit im Produktionseinsatz nur mit extrem hoher Systemleistung möglich, wären Anwendungen damit kaum wirtschaftlich umsetzbar.
Was kann TinyML in der Bildverarbeitung leisten?
Die Entwicklungen der Hersteller rund um TinyML ermöglichen, dass KI-gestützte Bildverarbeitung auf Basis von ML-Modellen in besonders energieeffizienten Geräten ausführbar ist, die zwar oft nur wenig Speicher und geringe Rechenleistung bieten, aber durch immer mehr spezialisierte Chips auf eine KI-Beschleunigungseinheit zurückgreifen können.
KI-basierte Bildverarbeitung wird dadurch in immer mehr Geräten eingebettet und kann somit viel schneller und auch einfacher integrierbar in die Feldebene wandern. Die Miniaturisierung und Einbettung in größere Systeme werden dabei helfen, den Nutzen der Systeme in den Vordergrund zu stellen und die Vorurteile oder Ängste gegenüber KI abflachen zu lassen.
So wie es die Hersteller schon seit langer Zeit zu erklären versuchen, wird KI mehr und mehr die bewährten Systeme in Kombination unterstützen und verbessern. Für Anwender ist damit mehr denn je gewährleistet, dass ihre Aufgaben mit hoher Sicherheit und Qualität gelöst werden.
Wie lässt sich TinyML auf konkrete Vision-Anwendungen vorbereiten und in Embedded-Bildverarbeitungs-Hardware implementieren?
Die eigentliche Spezialisierung KI-basierter Bildverarbeitung beginnt mit dem Training der ML-Algorithmen. Durch die bildbasierte Arbeitsweise kann dies plattformunabhängig erfolgen. Dazu werden sehr performante Server-Systeme eingesetzt, die sich mit zusätzlichen GPU-Kernen und Speicher beliebig skalieren und so an jede Anforderung dynamisch anpassen lassen. Auf diese Weise ist die Leistung der Bildverarbeitung und damit die Qualität der Ergebnisse für jede Kundenanwendung optimierbar. Denn Ausführungsgeschwindigkeit, Qualität sowie Speicher- und Energieverbrauch müssen im nächsten Schritt eng an die Vorgaben und Einschränkungen im späteren produktiven Einsatz angepasst sein. Und dabei spielt die Zielplattform eine entscheidende Rolle. Speziell wenn es um Tiny-Embedded-Hardware geht, sind Kompromisse programmiert.
Denn die sehr speziellen, ressourcenschonend arbeitenden KI-Beschleuniger, die sich für Embedded Hardware eignen, können ihre Arbeit oft nur deshalb so effizient erledigen, weil sie auf spezifische neuronale Netze zugeschnitten sind, was Größe, Komplexität und Architektur angeht. Deshalb ist bei der TinyML-Entwicklung von Anfang an bei Software-Tools, KI-Trainingsplattform, Convolutional-Neural-Network-Formaten und Software-Development-Kits auf Kompatibilität mit der Zielplattform einschließlich KI-Beschleuniger zu achten. Dazu ist es wichtig, die passenden Partner oder Hersteller an Bord zu haben.
IDS arbeitet gerade mit DENKweit in einem interdisziplinären Projekt zusammen, bei dem die Deep-OCR-Algorithmen (Optical Character Recognition) von DENKnet optimal auf der intelligenten Kameraplattform »IDS NXT malibu« arbeiten sollen. Das Ziel ist eine Ein-Geräte-Lösung, die von Anwendern schnell und problemlos in bestehende Anwendungen integriert werden kann. Eine funktionierende Demo war auf der Messe Vision im Oktober 2024 zu sehen.
Was ist DENKnet?
DENKnet steht für hochkomplexe professionelle Bildauswertung auf Basis von State-of-the-Art-Vision-Technologien mit neuronalen Netzen, die in ein paar Minuten und nach wenigen Klicks einsatzbereit sind, und zwar ohne Expertenwissen, Vorbereitungen oder Anpassungen der Produktionsumgebung. Der Einsatz vortrainierter neuronaler Netze der DENKnet-Lösung kann Arbeitsprozesse sehr effizient automatisieren, besonders in Bereichen wie Oberflächenprüfung, OCR oder Qualitätsprüfung. Die Software ermöglicht zuverlässige und stabile Bildanalysen, ohne dass Programmierkenntnisse erforderlich sind. Ziel von DENKnet ist ein optimal arbeitendes, genaues und zugleich schlankes und schnelles KI-Modell für die lokale Ausführung in einer geschlossenen Anwendungsumgebung, wodurch das Bildverarbeitungssystem rasch, effizient und wirtschaftlich arbeitet.
Wie funktioniert DENKnet?
Durch den No-Code-Ansatz der cloudbasierten Trainings- und Entwicklungsplattform »DENK Vision AI Hub« bietet DENKnet benutzerfreundlichen Zugriff auf leistungsstarke KI-Vision-Technologien. Bei den ersten Schritten unterstützt DENKnet Benutzer bei der Auswahl eines passenden Anwendungsfalls, hilft, die Eingangsdaten festzulegen und automatisiert die Erstellung sowie die Validierung der Auswertung mittels Auto-Prediction. Dabei fließen kontinuierlich Erkenntnisse der neuesten Netzwerkarchitekturen wie Transformer oder Large Language Models in die Entwicklung ein. Das ist nur möglich, weil alle Funktionen und Dienste des DENK Vision AI Hub vollständig auf Cloud-Technologie beruhen. Dadurch findet das Feintuning der eigenen Bilddaten auf einer stets aktuellen und kontrollierten Softwarebasis statt und nicht mit irgendeiner Softwareversion in irgendeinem lokalen Hardwaresystem.
Die dort verwendeten Netzmodelle werden durch die kontinuierliche Weiterentwicklung im technischen Backend immer resistenter gegen bereits gelöste Schwierigkeiten. Dadurch lassen sich immer mehr Kundenanwendungen sogar ohne größere Anpassungen oder ein Nachtraining verwenden. So genügen schon 15 eigene Trainingsbilder, um erste Ergebnisse testen zu können und damit eine leistungsfähige Bildanalyse zu realisieren, ohne eine Zeile Quellcode erstellen zu müssen, was viel Zeit und Ressourcen spart.
Wie lässt sich DENKnet auf konkrete Vision-Anwendungen vorbereiten?
Bildverarbeitung mit DENKnet beruht auf vortrainierten neuronalen Netzen, die immer up to date mit Cutting-Edge-Technologie erweitert und ständig mit dem Wissen aus Herausforderungen und Problemfällen aus Vision-Anwendungen angereichert werden. Das sorgt schon zu Beginn des Trainings durch Anwender für stabile und gute Ergebnisse. Die eigentliche Spezialisierung der Netzarchitekturen auf eine konkrete Kundenaufgabe beginnt durch ein »Weiter-Trainieren« mit wenigen Anwendungsbildern. Zu jedem realen Anwendungsbild werden im Hintergrund passende augmentierte und synthetische Daten erzeugt und damit kombiniert. Dadurch lassen sich nicht nur viele zusätzliche Sonderfälle und Variationen lernen, dies sorgt auch für eine weitaus robustere Erkennung der relevanten Merkmale. Denn gerade in der industriellen Automatisierung darf nichts dem Zufall überlassen bleiben. Zudem lässt sich so die Gewichtung von neuem und vorhandenem Wissen kontrolliert und zielgerichtet erweitern, ohne bisherige stabile Vorhersagen negativ zu beeinflussen. Ein Beispiel: Ein OCR-System hat aus irgendeinem Grund Probleme mit Zahlen, und der Anwender annotiert im Trainingsprozess nur Zahlen, nie Buchstaben. In diesem Fall verhindert die intelligente »Wissenssicherung«, dass dieses Netz irgendwann nur noch Zahlen erfolgreich lesen kann, weil es »denkt«, es müsse keine Buchstaben mehr lesen.
Welche Möglichkeiten eröffnet die Kombination von DENKnet in Verbindung mit IDS-Hardware?
Der Kamerahersteller IDS und das KI-Technologieunternehmen DENKweit sind Vertriebspartner. Mit der Kombination aus DENKnet-Bildverarbeitung und Industriekameras von IDS lassen sich Bildverarbeitungslösungen GPU-beschleunigt in hoher Qualität realisieren. Dabei profitieren Anwender von Hardware und Software, die aufeinander abgestimmt sind und dazu aus einer Hand kommen. So ist auch im Support-Fall die vollumfängliche Unterstützung sichergestellt, und es entstehen keine Wissenslücken.
Zudem profitieren Kunden von gemeinsamen weiteren Entwicklungen. IDS und DENKweit kombinieren ihre Erfahrungen aus KI-basierter Bildverarbeitung und Kamera-Hardware und realisierten 2024 beispielsweise den ersten Prototyp einer intelligenten Kamera, die die KI-gestützten OCR-Algorithmen direkt in der Kamera-Firmware App-basiert nutzt. Damit zeigen die Partner, wie sich KI-Vision als Embedded-KI noch einfacher einsetzen lässt.
Welche Arten von ICs und SoCs eignen sich am besten für die Abarbeitung von KI-Algorithmen und neuronalen Netzen: CPU, GPU, NPU, FPGA oder Kombinationen daraus?
Auf diese Frage gibt es leider keine kurze und eindeutige Antwort. Alle genannten Systeme sind in der Lage, KI-Algorithmen auszuführen. Welche Art von KI-Beschleuniger am besten arbeitet, ist eine Frage der Anwendung und der Anforderungen. Es gibt nicht das EINE beste System.
So zählt die GPU-Beschleunigung mit ihrer massiven parallelen Verarbeitung noch immer zu den leistungsstärksten Lösungen, besonders bei rechenintensiven Aufgaben wie Deep Learning. Sowohl die Ausführung als auch das sehr rechenintensive Training der Deep-Learning-Algorithmen geht dabei jedoch oft mit einem hohen Ressourcen- und Energieverbrauch einher. Dies ist ein Grund dafür, dass der Lernprozess oft in die Cloud auf leistungsstarke Server ausgelagert wird, wo sich die Leistung leicht hochskalieren lässt.
Das andere Extrem ist die Ausführung in kleinen, energiesparenden Embedded-Systemen, die vortrainierte Inferenzen beispielsweise on-the-edge ausführen sollen. Dazu bieten sich eher FPGA- und NPU-Lösungen an, die – eigens für bestimmte Aufgaben und Netze entwickelt– auch beachtliche Inferenzzeiten erreichen. Durch die Einschränkungen oder Spezialisierungen können sie zudem sehr ressourcenschonend ihre Aufgabe in der Edge-Elektronik erledigen.
Wie können Anwender herausfinden, ob für eine bestimmte Anwendung eine Lösung auf KI-Basis oder eine »konventionelle« Lösung ohne KI besser passt?
Im besten Fall müssen sich Kunden oder Anwender die Frage nicht stellen. Denn die Hersteller nutzen schon das Wissen beider Welten, um sowohl neue als auch altbekannte Aufgaben mithilfe der einen oder anderen oder auch durch eine Kombination mehrerer Technologien effizienter zu gestalten. So werden auch Aufgaben, die schon lange mit Bildverarbeitung automatisiert werden, immer wieder durch neue Techniken verbessert. Die generelle Aufgabe bleibt dieselbe, jedoch lassen sich außer der Leistung oder der höheren Stabilität der Ergebnisse auch das Handling, die Inbetriebnahme, die Anpassungsfähigkeit und generell die Benutzerfreundlichkeit stark erhöhen. Und letztendlich hilft natürlich immer noch ein zuverlässiger Partner aus der Machine-Vision-Branche, um die passenden Tools und Werkzeuge für eine Anwendung auszuwählen. Denn wie immer, und daran ändert sich auch nichts, bestimmt die Anwendung, wie die spätere Lösung aussieht.