Die typische Leistungsaufnahme der Kinara Ara-2-Prozessoren ist mit 6 W spezifiziert. Jetzt hat Kinara gezeigt, dass ein einziger dieser Prozessoren in der Lage ist, selbst anspruchsvolle LLMs zu verarbeiten.
Konkret ist auf einem Video auf Kinaras Webseite zu sehen, wie das Qwen1.5-7B-Modell einwandfrei ausgeführt wird. Aus der Sicht von Wajahat Qadeer, Chefarchitekt von Kinara, ist dies dank der besonderen Hard- und Software von Kinara möglich. Denn einerseits muss die Hardware flexibel sein, denn egal ob es sich um Matrixmultiplikationen, Softmax-Funktionen oder Layer-Normalisierung handelt, alles muss von der Hardware unterstützt werden, »für Kinara Ara-2 kein Problem«, so Qadeer weiter. Die Hardware muss natürlich auch die entsprechende Bandbreite bieten und genügend Speicher aufweisen, um diese großen Modelle zu unterstützen, auch das ist bei Kinara Ara-2 umgesetzt worden. Andererseits unterstützt die Software von Kinara verschiedene Quantisierungsoptionen, ebenfalls ein wichtiger Punkt, um diese großen Modelle verarbeiten zu können. Dank dieser Kombination ist es Kinara möglich, 12 Token pro Sekunde bei LLMs mit 7 Mrd. Parametern zu erreichen. Qadeer weiter: »LLMs auf einem KI-Prozessor mit geringem Stromverbrauch zu betreiben, ist an sich schon eine Leistung, aber 12 Output-Token pro Sekunde auf einem LLM mit 7B-Parametern zu erreichen, ist wirklich richtig gut. Und wir sind auf dem besten Weg, mithilfe fortschrittlicher Software-Techniken 15 Output-Token pro Sekunde zu erreichen, ohne das Modell selbst zu verändern.«
Qwen, das als Open Source unter der Apache 2.0-Lizenz verfügbar ist und von Alibaba Cloud (Tongyi Qianwen) unterstützt wird, ähnelt LLaMA2 und repräsentiert eine Reihe von Modellen in verschiedenen Größen (z. B. 0,5B, 4B, 7B, 14B, 32B, 72B) und mit verschiedenen Funktionen wie Chat, Sprachverständnis, logisches Denken, Mathematik und Codierung. Qwen kann gesprochene Befehle verstehen und umsetzen, und das mehrsprachig und ohne auf bestimmte Textsequenzen beschränkt zu sein. Wobei Qadeer abschließend betont, dass Qwen zu Demonstrationszwecken benutzt wurde, sprich auch andere LLMs könnte mit Kinara Ara-2 verarbeitet werden.