Representativity – Accuracy – Difficulty

»KI funktioniert nur mit qualitativ hochwertigen Daten.«

7. Februar 2022, 15:00 Uhr | Iris Stroh
Dr. Daniel Kondermann
Dr. Daniel Kondermann, Quality Match: »Die Automotive-Industrie hat gelernt, dass die Qualität der Trainingsdaten entscheidender als ihre Quantität ist. Bisherige Systeme haben aufgrund des Mottos „viel hilft viel“ nur selten die Performanz erreicht, die z. B. für autonomes Fahren wirklich ausreicht.«
© Quality Match

Dr. Daniel Kondermann, Mitbegründer und Geschäftsführer von Quality Match, verfolgt mit seinem Unternehmen das Ziel, die Qualität von bestehenden Datensätzen zu erhöhen. Denn lernt die KI mit fehlerhaften Daten, kommt der Algorithmus später zu falschen Schlussfolgerungen.

Markt&Technik: Quality Match will die Qualität der Trainingsdaten erhöhen, um schlussendlich eine bessere Entscheidungsgrundlage der KI-Algorithmen zu schaffen. Sie wenden drei Gruppen von Metriken an, um die Qualität der Daten zu messen bzw. zu verbessern. R für Representativity, A für Accuracy und D für Difficulty. Können Sie anhand eines Beispiels aus dem Bereich automatisiertes Fahren alle drei Metriken erklären?

Dr. Daniel Kondermann: Nehmen wir die Fahrraderkennung. Will man zum Beispiel mit einer nach vorne ausgerichteten Videokamera Fahrräder automatisch mit einem Machine-Learning-Modell finden, dann werden zunächst viele Videoclips mit dieser spezifischen Kamera aufgenommen. Nun muss man sich überlegen, wie viele Fahrräder auf welche Art in den Bildern markiert werden sollen. Dies geschieht üblicherweise durch Menschen, die sich jedes Bild anschauen und dann meist Rahmen, sogenannte Bounding Boxes, um jedes Fahrrad zeichnen. Mithilfe eines sogenannten Label Guides wird festgelegt, nach welchen Regeln diese Annotationen vorgenommen werden sollen. Normalerweise arbeitet man zunächst mit ca. 50.000 Bildern, auf denen man dann vielleicht im Schnitt drei Fahrräder findet. Schon hat man einen Datensatz mit 150.000 Fahrrädern. Leider reicht diese Menge nur aus, um absehen zu können, ob das trainierte Modell gut funktioniert – typischerweise werden im Anschluss daran nochmal Hunderttausende von Bildern annotiert, um die Qualität der Vorhersagen auf das gewünschte finale Niveau zu heben.

Jetzt zu den Metriken – die Accuracy eines Datensatzes ist in diesem Zusammenhang leicht zu verstehen: Man schaut sich an, ob z. B. Bounding Boxes um Fahrräder vergessen wurden, sogenannte False Negatives, oder ob manche Boxen gar keine Räder enthalten, sondern etwas anderes, wie z. B. einen Rollstuhl, sprich: False Positives. Anschließend schaut man sich an, welche von den Bounding Boxes vielleicht ungenau gezeichnet wurden: es kann zum Beispiel sein, dass die Box an einer Seite zu groß oder zu klein ist. Daraus leitet man verschiedene Metriken ab, wie False Negative/Positive Rate, Geometric Accuracy etc. Wenn der Datensatz zu viele oder zu schwerwiegende Fehler aufweist, dann ist er unbrauchbar: Der Computer lernt etwas Falsches – Garbage in, Garbage out!

Das will natürlich keiner, aber das Problem ist, dass die Qualitätssicherung eines Datensatzes sehr teuer sein kann. Stellen Sie sich vor, dass man z. B., um absolut sicher zu sein, einer Gruppe von hochbezahlten Experten jede der 150.000 Bounding Boxes zeigt, damit diese im Gremium entscheiden können, ob sie genau genug für die Anwendung sind – das wäre viel zu teuer.

Deshalb muss man abwägen zwischen der Datenmenge und der Datenqualität. Es kann durchaus passieren, dass für einen solchen Datensatz mehrere Millionen Euro ausgegeben werden, sodass diese Abwägung sehr drastische Konsequenzen haben kann.

Jetzt fehlen noch Representativity und Difficulty. Wie sieht es damit aus?

Ist der Datensatz zu klein, ist er wahrscheinlich auch nicht repräsentativ genug. Representativity bedeutet im Wesentlichen, dass alle für eine Anwendung relevanten Eigenschaften im Datensatz auch repräsentiert sein müssen. Dazu muss man zunächst genau wissen, wie und wo das zu trainierende Modell angewendet wird und welche Gefahren bestehen, wenn das Modell versagt. Der nächste Schritt besteht darin, sich zu überlegen, was das Spektrum an möglichen Bildern von Fahrrädern eigentlich ausmacht: man kann sie von verschiedenen Seiten sehen, bei verschiedenen Lichtverhältnissen wie Tag und Nacht, an unterschiedlichen Orten, mit unterschiedlichen Verdeckungen z. B. durch andere Verkehrsteilnehmer wie Autos usw.

Das Problem dabei ist, dass man oft nicht vorhersagen kann, welche Representativity-Eigenschaften welchen Einfluss auf das Modell haben; z. B. kann es sein, dass man zu Beginn übersieht, dass man zu selten Fahrräder von der Seite sieht, weil sie seltener die Straße kreuzen und häufiger in der eigenen Spur mitfahren, wo man das Rad nur von hinten sieht. Das kann dazu führen, dass das Modell an Kreuzungen abbiegende Fahrräder nicht mehr gut erkennt – eine gefährliche Schwachstelle!
Deshalb geht man bei der Erzeugung eines solchen Datensatzes immer iterativ vor: Man nimmt Daten auf, wählt aus, was annotiert werden soll, trainiert das Modell und schaut sich die Ergebnisse genau an. Dann stellt man mithilfe verschiedener Tools eine Hypothese auf, woran es liegen könnte, dass das Modell z. B. keine Räder auf Kreuzungen erkennt. Anschließend verändert man meistens die Balance des Datensatzes, indem man z. B. mehr Räder mit Seitenansicht hinzufügt, um dem Modell die Chance zu geben, zu verstehen, dass es sich auch in diesem Fall um Fahrräder handelt.

In der letzten Gruppe an Metriken geht es um die Difficulty. Die Grundidee hierbei ist, dass eine KI, um eine Entscheidung treffen zu können - z. B. »ist in diesem Bildausschnitt ein Fahrrad?« –, eine Abgrenzung machen muss, zu Ausschnitten, auf denen keine Fahrräder sind. Dies nennt man Decision Boundary. Wenn wir jede Menge Daten aufgenommen und annotiert haben, stellen wir vielleicht fest, dass es Fahrräder gibt, die einen tiefliegenden Sitz und drei Räder haben. Oder dass es Einräder gibt, die von Kleinkünstlern gefahren werden. Wie wäre es mit einem Rollstuhl, der zwar genau zwei fahrradähnliche Reifen hat, die aber zusammen mit kleineren Zusatzrädern wie Stuhlbeine angeordnet sind? Diese Feinheiten muss man auch dem Computer beibringen, und deshalb muss man sehr genau verstehen, wo die Decision Boundary eigentlich sein soll. Hierfür arbeitet man meist mit Ontologien, sprich: grundlegenden Eigenschaften, und Taxonomien, also Klassifizierung von Objekten. Ähnlich wie in der Biologie, wo Flora und Fauna in einer Hierarchie bezüglich bestimmter Eigenschaften in Gruppen zusammengefasst werden.

Das Gleiche gilt auch für die physikalischen Grenzen der Videokamera. Hier könnte es sein, dass sich ein Fahrrad so schnell bewegt, dass es sehr unscharf wird. Es könnte auch sein, dass es so weit weg ist, dass es nur noch ein paar Pixel groß ist. Vielleicht sehen wir eine Gruppe von 100 Fahrrädern, die sich alle gegenseitig im Bild überlappen. Für all diese Fälle muss unsere KI eine gute Antwort haben – aber selbst Menschen haben manchmal keine Antwort dafür. Diese Unsicherheit muss verstanden und akzeptiert werden; nur dann kann die Decision Boundary sauber gezogen werden und der Computer lernt das Richtige.

Und hier kommt Quality Match ins Spiel?

Ja, Quality Match ist eine der ersten Firmen, die diese Metriken quantitativ erfassen kann und es somit ermöglicht, fundierte Entscheidungen über Datensätze basierend auf datengetriebenen Erkenntnissen zu treffen.

Verkehrsschildererkennung scheint zunächst eine Aufgabe zu sein, die dank der doch sehr begrenzten Anzahl der verschiedenen Verkehrsschilder mit KI relativ einfach zu lösen ist. Dennoch funktionieren die Systeme, die bislang auf der Straße sind, alles andere als gut. Was ist hier das Problem?

In der Tat klingt es sehr einfach, Verkehrsschilder zu erkennen! Eigentlich ist das doch immer nur ein Stück Blech mit einer bestimmten Form und Farbe, die auch noch standardisiert sind! Tatsächlich ist hier aber das Problem, dass es einerseits extrem viele, verschiedene Verkehrsschilder gibt, die sich von Land zu Land unterscheiden. Viele Schilder enthalten Text in der jeweiligen Landessprache, wodurch optische Texterkennung, sprich: OCR, auf einmal eine Rolle spielt. Dazu kommt, dass es sehr viele Schilder gibt, die keine Verkehrsschilder sind, aber trotzdem sehr ähnlich aussehen. Hier ist es also eine besondere Herausforderung, die Taxonomie vollständig zu definieren und die ohnehin sehr hohe Difficulty gut auszubalancieren.

Anbieter zum Thema

zu Matchmaker+

  1. »KI funktioniert nur mit qualitativ hochwertigen Daten.«
  2. Kooperationen im Automotive-Bereich

Verwandte Artikel

elektroniknet