Offiziell bekannt ist, dass Quality Match mit Bosch zusammenarbeitet. Können Sie erklären, worum es bei dieser Arbeit geht, was der Status quo ist und was das Ziel ist?
Wir arbeiten mit vielen Firmen im Automotive-Bereich zusammen, wo es eigentlich immer um Fahrerassistenzsysteme oder autonomes Fahren geht. In dem Projekt mit Bosch ging es insbesondere um die Erkennung der befahrbaren Fläche. Hier ist es zum Beispiel eine Herausforderung, dass man nicht einfach nur eine Box um diese Flächen malen kann. Stattdessen muss eine ganze Kontur her. Wenn jetzt die Bilder in der Nacht oder bei Schnee aufgenommen wurden, dann kann es schnell mal passieren, dass sich dort ein Fehler einschleicht. Wir haben diese Fehler gefunden und damit Bosch die Möglichkeit gegeben, den Datensatz für diese Anwendung zu verbessern.
Und mit anderen Unternehmen, wie sieht hier die Zusammenarbeit aus?
Aktuell arbeiten wir auch viel daran, existierende Datensätze bezüglich der RAD-Methodologie zu untersuchen. Dazu liefern uns Kunden ihre Datensätze und wir stellen ihnen ein Tool zu Verfügung, in dem sie zum Beispiel die Representativity selbst untersuchen können. Damit können sie auch die Ergebnisse ihres Modells auf Fehler untersuchen und vergleichen und kategorisieren, um zu verstehen, wie die Datenqualität die Modellqualität beeinflusst. Mittels sogenannter Annotations-Pipelines finden wir in den Daten auch die False Negatives und False Positives und bewerten den Grad, wie stark jedes Objekt verdeckt ist.
Wo liegen Ihrer Erfahrung nach die größten Schwachpunkte in den Datensätzen für automatisiertes Fahren – ist es R, A oder D?
Das hängt sehr stark von der jeweiligen Anwendung ab – aber ich denke, in allen Bereichen hapert es immer mal wieder. Datensätze sind sehr teuer. Da die Industrie einem hohen Preisdruck unterliegt, wird meines Erachtens aktuell die Accuracy der Annotationen immer ungenauer. Auch deshalb, weil immer mehr Annotationsfirmen eigene KI verwenden, um automatisch zu annotieren – da beißt sich die Katze schnell in den Schwanz, weil man eine KI nicht mit einer anderen KI trainieren kann – die lernt dann die gleichen Fehler einfach nochmal.
Ich persönlich glaube aber auch, dass derzeit in vielen Firmen viel zu wenig auf die Representativity und die Difficulty geachtet wird. Das liegt wiederum daran, dass es einfach keine guten Tools gibt und dass das Mantra von »viele Daten sind wichtiger als gute Daten« erst jetzt mit neuen Erkenntnissen aus realen Anwendungen wie Teslas Autopilot immer mehr infrage gestellt wird.
Da sehen wir uns mit unseren Produkten als Wegbereiter, denn es gibt momentan keine wirklich gut verfügbaren Werkzeuge, diese Metriken zu untersuchen. Bei uns kann man außerdem ganz einfach eine quantitative Frage an den Datensatz stellen, wie zum Beispiel: »Wie oft ist der Kopf in der Menge meiner markierten Fußgänger von einem anderen Objekt verdeckt?« Diese Frage wird dann unmittelbar von unseren Annotatoren fast ohne Verzögerung beantwortet – ohne dass man dafür erstmal einen Labeling Provider finden oder dem Team dort das Problem erklären muss.
Können Sie den Vorgang der Überprüfung der Datensätze etwas genauer beschreiben?
Im ersten Schritt würden wir im obigen Beispiel alle False Negatives und False Positives suchen, um fehlende Fahrradboxen hinzuzufügen und falsche zu entfernen. Dadurch kann der Datensatz insgesamt schon schnell mal zwischen 5 und 20 Prozent besser werden. Dazu muss man lediglich den Datensatz bei uns mit den existierenden Annotationen hochladen, und nach ein paar Klicks starten die Annotation Pipelines für False Negatives und False Positives. Wir stellen hier Tausenden von Leuten Fragen in einer smarten Reihenfolge, ganz ähnlich zu der Quizshow »Was bin ich?«, wodurch wir in kürzester Zeit z. B. sagen können, dass eine Bounding Box gar kein Fußgänger ist, weil er auf der Ladefläche eines SUV mitfährt.
Ist der Datensatz auf diese Weise bezüglich Accuracy korrigiert, beschäftige ich mich meist mit der Difficulty: Was sind denn für Fälle von Fahrrädern im Datensatz enthalten, die zwar irgendwie technisch schon Fahrräder sind, aber für meine Anwendung eigentlich gar nicht relevant sind? Hier können z. B. Abbildungen von Rädern auf Plakatwerbung ein Problem sein. Ganz oft korrigiere ich nochmal den Label Guide und verfeinere meine Suche nach False Positives und Negatives Schritt für Schritt, um am Ende Regeln zu haben, die auch vom Computer leicht gelernt werden können.
Dann kommt die Representativity. Ich habe schon angedeutet, dass es hier um einen iterativen Prozess geht, der auch durch visuelles Sichten der Bilder und Annotationen erstmal Intuitionen beim verantwortlichen Ingenieur erzeugt. Diese formuliert man dann in Form von Hypothesen, die dann quantitativ geprüft werden können. Ein Beispiel: Ich schaue mir ein paar hundert Bilder an und vermute dann intuitiv, dass die Fahrräder nicht gut erkannt werden, wenn nur ein Reifen sichtbar ist. Ich verifiziere diese Hypothese, indem ich direkt aus unseren Quality Match Tools heraus einen Annotationsauftrag vergebe, mit der Frage: »Ist bei diesem Fahrrad nur ein Reifen sichtbar?« Sofort werden Tausende von Annotatoren auf den Datensatz angesetzt, die mir dann ihre Meinung zu jedem einzelnen Fahrrad mitteilen. Ein paar Stunden später weiß ich: Fahrräder, bei denen nur ein Reifen sichtbar ist, werden in 70 Prozent der Fälle übersehen. Nun balanciere ich den Datensatz um: Ich füge mehr Räder mit nur einem Reifen ein, denn diese Info habe ich ja jetzt, und trainiere mein Modell neu. Dann beginnt die Schleife von vorn.
Mercedes hat seine Zulassung für den Autobahn-Pilot erhalten, im Vergleich zum automatisierten Fahren in einer Großstadt wie Berlin oder Rom eine triviale Aufgabe. Waymo hat erst vor Kurzem in San Francisco erfahren müssen, dass automatisiertes Fahren in einer Großstadt ein komplexes Problem ist. Treten hier ebenfalls Datenprobleme auf oder wo sehen Sie die größten Schwierigkeiten für das automatisierte Fahren für Privatpersonen?
Ich persönlich glaube, dass die größte technische Schwierigkeit im autonomen Fahren in der Vielfalt an Situationen liegt, die in unserer Welt auftreten können. Es macht einen gigantischen Unterschied, ob ich die Rocky Mountains bei einem Blizzard überquere oder am Saint Patrick’s Day durch die Innenstadt von San Francisco durch die Menschenmassen navigiere.
Ich behaupte immer, ohne es beweisen zu können, dass die Algorithmen des Machine Learning eigentlich schon hinreichend gut funktionieren, um autonomes Fahren in jeder Situation zu ermöglichen. Hingegen stecken die Methoden, Datensätze zu erzeugen – insbesondere ihre Qualität zu sichern – meines Erachtens noch in den Kinderschuhen. Hier sind sich die Experten aber uneinig.
Das Annotieren von Daten erfolgt manuell. Ist ein Annotationsverfahren vorstellbar, mit dem auch die sogenannten Clickworker quasi so stark geführt werden, dass deutlich weniger Fehler auftreten?
Tatsächlich haben wir uns auf dieses Thema spezialisiert. Wir zerlegen unsere Aufgaben in absolut winzige Unteraufgaben, sogenannte Nano-Tasks, die oft nur noch aus einfachen Ja-Nein-Fragen bestehen. Ein Beispiel: »Ist an diesem Fahrzeug mindestens ein Reifen sichtbar?« Das hat den zusätzlichen Mehrwert, dass wir zu jeder Frage mehrere Leute befragen können, um Unsicherheiten feststellen zu können. Wenn z. B. fünf Annotatoren »ja« sagen und weitere fünf »nein«, dann ist das eine sehr wertvolle Information, die es uns ermöglicht, besondere Edge Cases oder Fehler in der Taxonomie zu finden.
Wann könnte solch ein Annotations-Tool verfügbar sein?
Diese Tools sind bereits bei uns im Einsatz! Wir entwickeln die zugrundeliegende Technologie ständig weiter, um Kunden je nach Anfrage direkt einen Mehrwert zu liefern. Aktuell arbeiten wir primär mit Daten aus der Automobilbranche, wo wir systematisch alle möglichen Klassen wie z. B. Fußgänger, Autos, Schilder mit Qualitätsverbesserungen wie False-Negative-Detektion und False-Positive-Detektion versehen. Für die Representativity liefern wir auch zahlreiche weitere Informationen wie z. B. zur Occlusion (Verdeckung) der Objekte. Grundsätzlich können wir diese Methoden aber auch auf andere Daten, z. B. in der Medizintechnik, anwenden, wie wir zuletzt zusammen mit Zeiss zeigen konnten.
Erst kürzlich gab der VDE bekannt, dass er mit Partnern Qualitätsstandards für KI-Test- und Trainingsdaten entwickelt. Dabei wird Qualität zwar etwas anders definiert, dennoch: Sollte Quality Match hier nicht unbedingt mitmischen?
Auf jeden Fall! Tatsächlich war ich persönlich vor einiger Zeit an einer DIN SPEC für die Medizintechnik beteiligt, wo wir diese Prinzipien etabliert haben. Wenn es zum Beispiel um die beim VDE formulierte Anforderung geht, dass eine KI diskriminierungsfrei sein soll, dann sind unsere Tools zur Erfassung der Representativity direkt dafür einsetzbar.