Mit seinem leistungsstarken Single-Chip-Produkt sieht sich Hailo in vielen Anwendungen aus Gebieten von Automatisierung bis hin zu Automotive gut positioniert.
Das israelische Unternehmen Hailo zielt mit seinem Hailo-8-Prozessor auf Deep-Learning-Anwendungen im Edge. Jan-Friso Blacquière, General Manager Europe von Hailo, ist überzeugt, dass es im Vergleich zu Hailo-8 keinen leistungsstärkeren oder energieeffizienteren Prozessor für diese Aufgaben gibt.
Um seine Aussage zu belegen, erklärt Blacquière weiter: »Hailo-8 kommt auf eine Rechenleistung von bis zu 26 TOPS und nimmt bei ResNet-50 mit 1223 Frames/s rund 3 W auf; typischerweise liegt die Leistungsaufnahme bei 2,5 W.«
Das Unternehmen adressiere mit seinen Prozessoren folgende Zielmärkte: Automotive mit seinen ADAS- und AD-Funktionen, Smart Cities beispielsweise in Form von Video-Analysen, Smart Home mit Anwendungen im Bereich Security oder assistiertes Leben, Smart Retail in Form von Läden ohne Kassen oder Lagermanagement sowie Industrie 4.0 mit Automatisierungsanwendungen. Blacquière: »Unsere Technologie ist flexibel und skalierbar und damit für viel Märkte relevant.«
Aus der Sicht von Blacquière zeichnen sich die Hailo-8-Prozessoren nicht nur durch eine hohe Rechenleistung und eine hohe Energieeffizienz aus, sondern können noch mit anderen Vorteilen punkten. Dazu zählt er die Software Tools einschließlich dem ausgereiften Dataflow Compiler und den effizienten Echtzeit-Bibliotheken, aber auch die Tatsache, dass es sich um eine Single-Chip-Lösung handelt, sprich: externes DRAM ist überflüssig. Die Prozessoren gibt es für den industriellen (–40 bis +85 °C) und Automotive-Temperaturbereich (-40 bis +105 °C). Blacquière weiter: »Unsere Prozessoren sind hochgradig skalierbar. Sie können mehrere Datenströme und Modelle verarbeiten und in einer Multi-Chip-Konfiguration zusammenarbeiten.«
Die Prozessoren von Hailo stehen nicht nur als Chips, sondern auch in Form von zwei Beschleunigungsmodulen – im M.2-Format und im mini-PCIe-Format – zur Verfügung. Das M.2-Modul verfügt über eine vollständige PCIe-Gen-3.0-4-Lane-Schnittstelle und kann in ein vorhandenes Edge-Gerät mit M.2-Sockel eingesteckt werden. Das Mini-PCIe-Beschleunigungsmodul mit bis zu 13 TOPS wiederum kann in ein vorhandenes Edge-Gerät mit mPCIe-Full-Mini-Sockel eingesteckt werden. »Vergleicht man unsere Beschleunigungskarten mit General-Purpose-GPUs, dann ist die Energieeffizienz der Hailo-Module typischerweise um den Faktor 10 besser, aber das hängt natürlich von den Netzen ab.« Blacquière weist auch darauf hin, dass die Hailo-Beschleuniger-Module deutlich kosteneffizienter sind als Aufbauten mit General-Purpose-GPUs.
Rechenleistung und Energieeffizienz sind eindeutig
Auch wenn Hailo selbst mit 26 TOPS wirbt, weist Blacquière darauf hin, dass die von den Herstellern angegebenen TOPS-Zahlen (= 2 × MACS × Frequenz) für die Rechenleistung oft nicht allein entscheidend sind. Denn in den meisten Fällen könnten gar nicht alle TOPS genutzt werden; wie gut die Ausnutzung ausfällt, hängt einerseits von der Hardware-Architektur für die KI-Beschleunigung ab und andererseits vom eigentlichen neuronalen Netz, das mit dieser Hardware verarbeitet werden soll. Und hier sei Hailo oft im Vorteil gegenüber anderen Komponenten. Es gibt laut Blacquière diverse Beispiele, bei denen Hailo zwar weniger TOPS als konkurrierende Bausteine ins Rennen schickt, aber dennoch höhere fps (Frames per Second) bei dedizierten Netzen erreicht. So könne der Hailo-8 bei ResNet-50 laut eigenen Untersuchungen am meisten von den TOPS nutzen, die ihm zur Verfügung stehen.
Blacquière: »TOPS-Zahlen eignen sich also nur bedingt, um die KI-Leistung im Edge beurteilen zu können.« Auch die Energieeffizienz mit TOPS/W anzugeben, hält Blacquière für nur bedingt aussagekräftig, denn auch hier nutzen die Hersteller unterschiedliche Ansätze; einmal werden einfach die TOPS durch TDP (maximal abgegebene Wärmeleistung) geteilt, manchmal werden Leistungsangaben auf Basis synthetischer Arbeitslasten angegeben. Blacquière: »Es ist besser, die Energieeffizienz anhand von Benchmarks anzugeben, wo für dedizierte Netze sowohl die maximalen fps als auch beispielsweise Angaben in Form von fps/W angezeigt werden.«
Architektur lässt sich flexibel an das NN anpassen
Von der Hardware-Seite her setzt Hailo auf eine verteilte Speicher-, Steuer- und Rechenstruktur, bei der jede konfigurierbare Recheneinheit seinen eigenen Speicher hat; neuronale Netze verwenden typischerweise viele Layer und ändern sich ständig. Mithilfe des mit der Hardware zusammen entwickelten Compilers ist Hailo in der Lage, zunächst das Modell des neuronalen Netzes mit seinen verschiedenen Layern aufzuschlüsseln und dann die verschiedenen Layer auf die physischen Ressourcen des Hailo-Prozessors flexibel zu verteilen und so immer einen optimierten Datenfluss mit bestmöglicher Ausnutzung der Ressourcen zu erreichen.