Datensätze für ML-Algorithmen

Die Menge allein reicht nicht, die Qualität ist entscheidend

3. Dezember 2021, 6:54 Uhr | Iris Stroh
Annotiertes Bildmaterial
© Quality Match/WEKA Fachmedien

In vielen Fällen werden Daten »auf Teufel komm raus«, erhoben. Dr. Daniel Kondermann, Mitbegründer und Geschäftsführer von Quality Match, erklärt gegenüber Markt & Technik, dass das der falsche Ansatz ist. Die Datenqualität ist wichtiger als die schiere Masse.

Markt & Technik: Was hat sich das noch relativ junge Unternehmen Quality Match zum Ziel gesetzt?

Dr. Daniel Kondermann: Wir kümmern uns darum, dass die Qualität der Datensätze den Anforderungen der Applikation genügt, damit beispielsweise ein autonomes Fahrzeug sicherheitsrelevante Funktionen wie Bremsen oder Ausweichen zuverlässig ausführen kann.

Wie definieren Sie einen qualitativ guten Datensatz?

Ich benutze das Akronym »rad«. »r« steht für »representative«, das heißt, der Datensatz muss im Prinzip alles abdecken, was in der Realität vorkommt. Dieser Punkt ist nicht immer ganz einfach, weil oft Aspekte, die nicht intuitiv sind, nicht berücksichtig werden. Ein Beispiel aus der Gesichtserkennung. Die meisten denken intuitiv an die Hautfarbe, aber auch die Haarfarbe und die Frisur sind genauso wichtige Attribute für die Gesichtserkennung. Ein weiteres Beispiel aus dem Bereich autonomes Fahren: Es ist zum Beispiel wichtig, dass beim Datensatz auch die Kleidung der Fußgänger berücksichtig wird. Wenn in Kalifornien Bilder von Fußgängern gemacht werden, haben die Leute darauf wahrscheinlich relativ häufig leichtere Kleidung an, wenn ich das in Norwegen mache, wird wahrscheinlich warme Kleidung dominieren. Das ist mit »r« gemeint, der Datensatz muss theoretisch alles abdecken was in der Realität vorkommt. Das »a steht für »accuracy«, sprich Genauigkeit. Bei dieser Metrik geht es darum, dass der Datensatz keine Fehler aufweisen sollte. Ein Fehler wäre beispielsweise, dass bei der Annotation vergessen wurde, um einen Fußgänger einen Rahmen zu malen, oder dass erklärt wurde, dass eine Ampel rot ist, obwohl sie grün war, dass ein Tier als Hund markiert wurde, obwohl es eine Katze war. Das »d« steht für »difficult«. Vereinfacht formuliert geht es beispielsweise darum, zu klären, wo fängt ein Fußgänger an und wo hört ein Fußgänger auf. Ist ein Fußgänger jemand, der über die Straße geht, der auf dem Bürgersteig entlangläuft, der auf einem Skateboard fährt, der auf der Straße sitzt, der auf dem Dach eines Autos steht, usw. Bei dem Attribut »difficult« geht es also darum, dass in einem Datensatz auch alle Corner-Cases inbegriffen sein müssen.

Beim autonomen Fahren wird viel mithilfe von simulierten Daten gemacht, schon alleine deshalb, weil beispielsweise nicht genügend Daten zu schweren Unfällen vorhanden sind. Sind die simulierten Daten per se immer richtig und gut, oder treten hier dieselben Probleme auf?

In der Simulation gibt es unterschiedliche Zielrichtungen. Zum einen geht es beispielsweise darum, Verkehrsverhalten, sprich die Trajektorien, zu simulieren. In diesem Fall geht es ausschließlich um Information, es werden keine Bilder erzeugt. Die Simulationsdaten sind für uns also unwichtig, denn diese Daten werden nicht dazu benutzt, um Maschinenlernalgorithmen für autonomes Fahren zu trainieren. Daneben gibt es die Simulation von Car-Crash-Situationen. Hier wird beispielsweise mithilfe eines 3D-Modells eines Fahrzeuges simuliert, wie sich ein Auto verformt, wenn es frontal gegen einen Baum fährt. Diese Art der Simulation wird vielfach für die Entwicklung von Sicherheitstechniken verwendet und weniger für das autonome Fahren.

Dann gibt es noch eine dritte und vollkommen neue Art der Simulation, die steckt noch in den Kinderschuhen. Dabei geht es darum, dass man eine Computer-Grafik erzeugt, ähnlich wie in Computer-Spielen. Gerenderte Bilder zeigen beispielsweise, dass ein Auto die Straße entlangfährt. Das Problem dabei ist aber, dass man zwar theoretisch alle geometrischen Daten wie Abstände oder Größe kennt, aber da man es sich um gerenderte Bilder handelt, sind die Darstellungen nie so real wie die Wirklichkeit. Das heißt, dass beispielsweise physikalische Effekte wie besondere Lichttransferfunktionen, atmosphärische Effekte, Wettereffekte etc. noch nicht so zuverlässig simuliert werden können, dass sie für das autonome Fahren bzw. für das Trainieren der Algorithmen verwendet werden könne. Das sieht zwar bei Computer-Spielen super aus, aber das ist physikalisch nicht korrekt, sondern quasi nur hübsch gemacht. Aber der Ansatz ist durchaus interessant und hier werden in vielen Richtungen Lösungsansätze entwickelt. Ich kenne beispielsweise Unternehmen, die reale Bilder mit künstlichen Objekten, die von einem Auto nicht überfahren werden können, ergänzen. Aber das ist absolute High-Tech und noch bei weitem nicht so weit entwickelt, dass es für das autonome Fahren flächendeckend genutzt werden kann.

Geht es um autonomes Fahren werden bislang Datensätze genutzt, die Fahrzeuge mit Kameras und anderen Sensoren wie Lidar erstellt haben und mithilfe dieses Datenmaterials wird festgelegt, was sich wo auf dem Bild befindet. Und dieser Vorgang erfolgt bislang in den meisten Fällen manuell.

Dann sind die Fehler, die sie eben beschrieben haben, eigentlich vorbestimmt. Könnten hier Maschinenlernverfahren genutzt werden, diese Annotierung automatisch und damit fehlerfrei durchzuführen?

Dieser Ansatz ist das genaue Gegenteil von fehlerfrei. Wenn ich einer Maschine ein bisher ungelöstes Problem beibringen möchte, beispielsweise das Erkennen von Kindern, die auf allen Vieren die Straße überqueren, also ein Beispiel, das bisher so noch nicht aufgekommen ist, und der Computer die Annotation automatisch durchführt, dann wird dieses Kind nicht erkannt, sprich nicht annotiert. Diese Art der Annotation funktioniert nicht, das ist genau der Grund, warum wir Quality Match gegründet haben, weil wir eine Qualitätssicherung für unabdingbar halten. Wenn alle nur noch eine maschinelle Annotation durchführen, wird die Qualität dieser Annotationen ganz schnell sinken.

Also gibt es keine Alternative zum Hand-Labeln?

Grundsätzlich gibt es drei Möglichkeiten: 1. Die Messtechnik, sprich man hat Geräte mit einer sehr hohen Präzision, die all diese Parameter genau erfassen können. Das ist beim autonomen Fahren aber nicht möglich, solche Messgeräte gibt es schlichtweg aufgrund der Komplexität nicht. 2. Computer-Grafik mit dem bereits beschriebenen Problem, dass die Grafik nicht realistisch genug ist, wobei dieser Ansatz trotzdem bereits genutzt wird. 3. die gemessenen Daten mit Hand zu labeln. Mehr Optionen gibt es nicht. Alle Quellen sind fehlerbehaftet, also muss man sich überlegen, welche Fehler können auftreten und welche Folgen haben sie?

Es wurde schon viel darüber diskutiert, dass Unternehmen wie Waymo oder mittlerweile auch Tesla aufgrund der vielen Mio. gefahrenen Kilometern und den damit verbundenen Daten im Vorteil gegenüber europäischen/deutschen OEMs sind. Wenn man sich ihre Aussagen anschaut, geht es aber weniger um die Quantität, sondern vielmehr um die Qualität?

Früher dachte man, dass die Entwicklung von Maschinenlernalgorithmen ein Problem ist. Mittlerweile sind diese Algorithmen so gut, dass jetzt die Daten in den Mittelpunkt der Betrachtung rücken. Dachte man früher »viel hilft viel«, weiß man heute, dass das der falsche Ansatz ist. Denn wenn Algorithmen mit Daten gefüttert werden, von denen ich nicht genau weiß, was für Fehler sie enthalten dann weiß ich auch nicht genau, was der Algorithmus eigentlich lernt. Man muss genau wissen, was der Algorithmus lernt, das heißt die Quantität alleine reicht nicht aus. Es sind vielleicht eine Mio. Bilder notwendig, damit der Algorithmus Fußgänger erkennen kann, aber diese 1 Mio. Bilder müssen die richtigen Informationen enthalten. Wenn ich einen Algorithmus nur mit Bildern von Fußgängern in Kalifornien mit leichter Kleidung füttere, und schicke dann das Auto nach Norwegen, dann hat das Auto ein Problem, das wird nicht funktionieren.


  1. Die Menge allein reicht nicht, die Qualität ist entscheidend
  2. Gute Daten können bestehende Probleme lösen

Das könnte Sie auch interessieren

Verwandte Artikel

elektroniknet