Nutzt Untether AI Optimierungstechniken wie Pruning?
Derzeit werden die Modelle immer größer, jeder versucht, den anderen zu überbieten, indem er noch mehr Parameter hat. Die Frage ist aber, wie viele dieser Parameter wirklich für das alltägliche Inferencing notwendig sind. Bei manchen Modellen, wie sehr großen Sprachmodellen, ist Pruning ein sinnvoller Ansatz, aber bei ResNet50 oder ähnlichen Modellen definitiv nicht.
Gibt es bereits Kunden, die die Chips einsetzen?
Wie bereits gesagt ist unsere Hardware agnostisch gegenüber dem neuronalen Netz, solange es sich um Matrix-/Vektorrechnungen handelt. Damit wird klar, welche Anwendungsbereiche wir adressieren. Dazu gehören Vision-Anwendungen wie beispielsweise autonomes Fahren, Smart-City-Anwendungen, Smart Retail, FinTech, also der Finanzsektor, plus Regierungsaufträge. Im Vision-Bereich kann ich einen Namen nennen, weil das bereits offiziell verkündet wurde: Wir arbeiten mit GM an deren nächsten Generation ihrer Wahrnehmungs-Engine. Daneben gibt es weitere Beispiele in Europa und den Vereinigten Staaten. Im Bankensektor wird KI sowohl für das Trading als auch im Kundenbereich eingesetzt. Und im Finanzsektor geht es bekanntermaßen um KI für das Risikomanagement.
Untether AI fokussiert sich auf das Inferenzieren, oder?
Ja, das ist richtig, wobei die Architektur hervorragend skalierbar ist. Der erste Chip verfügt über 260.000 Verarbeitungselemente, der nächste kommt schon auf fast 400000 PE.
Sind auch kleinere Chips geplant?
Ja, denn es gibt ja auch überhaupt gar keinen Grund, warum wir keinen Chip mit 4000 PEs machen können.
Untether bietet auch Beschleuniger-Karten mit mehreren Chips – schwer vorstellbar, dass so eine Karte ins Auto wandert.
Wir fokussieren uns im Automobilbereich auf Level 3+; für Level 4 oder 5 gibt es bislang noch keine Lösungen. Unsere Karte nimmt 300 W Leistung auf, im Eco Mode geht das auf 30 W runter, für ein Smartphone zu viel, für andere Edge-Anwendungen aber durchaus machbar. Der Chip ist kein 1-W-Chip, das ist der Plan mit unserem nächsten Chip.
Untether bietet nicht nur Karten, sondern auch Known-Good-Die-Versionen. Welche Kunden adressiert das Unternehmen?
Zum Beispiel Hyperscaler, denn mit diesen Chips können sie die vielen Corner Cases abdecken, die sie mit ihren Chips nicht abdecken können. Auch der Automobilmarkt ist ein Beispiel. Tesla macht alles selbst, und viele andere OEMs wollen das derzeit auch machen, aber ich denke, das ist langfristig nicht machbar. Und der eine oder andere wird sich dann eher als Integrator verstehen und dann Chips nutzen, die er zwar nicht selbst entwickelt hat, die er aber nach seinen Vorstellungen bzw. Ansprüchen integriert. Und dann bietet die Chiplet-Technik einen guten Ansatz.
Chiplets stehen aber noch am Anfang.
Ja, aber mit UCIe steht jetzt eine Standardschnittstelle zur Verfügung und die meisten erwarten, dass dieser Standard der Technologie einen enormen Schub verleihen wird. Aber es stimmt, es ist immer noch viel Arbeit zu erledigen, aber diese Technik bietet einen eindeutigen Mehrwert.
Sie wollen nächstes Jahr eine neue Generation rausbringen. Ist das ein reiner Shrink oder wurde noch mehr verändert?
Wenn Ingenieure ein Tape-out machen, haben sie immer noch zig Ideen im Kopf, die sie gerne umgesetzt hätten, und das ist bei uns nicht anders. Bei der neuen Generation haben wir zum Beispiel die Datenbewegungen innerhalb des Chips verbessert. Wir haben auch die NLP-Fähigkeiten verbessert. Die neue Generation hat nur noch RISC-V-Prozessoren, die mit mehr als 20 Custom Instructions erweitert wurden. Außerdem gibt es jetzt zwei RISC-V-Kerne pro Memory-Bank, was sich positiv auf die Arbeitsgeschwindigkeit auswirkt. Darüber hinaus haben wir auch LPDDR5 integriert und wir haben mit FP8 und BP16 neue Datenformate eingeführt, ähnlich wie Nvidia bei Hopper.
Was bringt FP8? Bislang hieß es, dass der Wechsel von 16 bit Floating Point auf 8 bit Integer kaum einen Unterschied bei der Genauigkeit bedeutet.
Mit FP8 sind wir energieeffizienter, und dadurch muss ein trainiertes Modell nicht mehr quantisiert werden, sondern auf unseren Bausteinen kann das Ursprungsmodell laufen und das Inferencing durchführen.
Noch ein weiterer Punkt sollte berücksichtigt werden: Es stimmt zwar, dass die Genauigkeitsverluste beim Wechsel auf 8 bit gering sind. Im Vision-Bereich sinkt die Genauigkeit um zirka 0,1 Prozent. Aber Unternehmen, die auf die Verarbeitung von Sprachmodellen, insbesondere großen Sprachmodellen, setzen, würden alles tun, um eine Verbesserung von lediglich 0,1 Prozent in der Genauigkeit zu erreichen.
Welche Software-Unterstützung bietet Untether AI?
Natürlich unterstützen wir auch die Standard-KI-Frameworks wie PyTorch, TensorFlow etc. Darüber hinaus unterstützen wir aber beide Entwicklerschienen: Für die, die sich wenig auskennen, bieten wir quasi einen Knopfdruck-Flow; für die Spezialisten gibt es aber auch die Möglichkeit, dass sie ihre eigenen Kernels erzeugen können. Für beide Seiten haben wir die entsprechende Software.
Ist der Erfolg also unausweichlich?
Einen riesigen Markt für Inferencing-ICs gibt es auf alle Fälle, die Resonanz auf Kundenseite ist jedes Mal überaus positiv. Was das Ganze ausbremsen könnte, wäre natürlich eine schlimme Rezession. Und wir müssen unsere »Execution« im Griff haben. Das heißt zum Beispiel, dass wir die richtigen Tools haben müssen, die unsere Kunden brauchen. Das heißt aber auch, dass der Chip, den wir nächstes Jahr auf den Markt bringen, genau so läuft, wie wir uns das ausgedacht haben. Und wir dürfen keine Punktlösungen anbieten, ein Fehler, den viele Startups machen. Aber ein OEM will sein Investment schützen, also braucht er eine Skalierbarkeit der Produkte und einen flexiblen Ansatz, der auf einer Hardware die verschiedenen Regionen unterstützt.
Konkurrenz muss Untether AI nicht befürchten?
Für uns ist eher die Bequemlichkeit der Entwickler das Problem. Wenn ein Entwickler sein Training auf einer Architektur durchgeführt hat, neigt er dazu, auch beim Inferencing bei diesem Anbieter zu bleiben, auch wenn mit anderen Ansätzen deutlich bessere Ergebnisse erreichen können – übrigens ein Grund, warum wir unseren »Press Button Flow« entwickelt haben.