Datensätze für ML-Algorithmen

Die Menge allein reicht nicht, die Qualität ist entscheidend

3. Dezember 2021, 6:54 Uhr | Iris Stroh

Fortsetzung des Artikels von Teil 1

Gute Daten können bestehende Probleme lösen

Dr. Daniel Kondermann, Quality Match
Dr. Daniel Kondermann, Quality Match: »Jeder sollte sich die Frage stellen, was ein guter Datensatz ist. Es geht nicht darum, genug Daten zu haben, sondern es geht darum, die richtigen Daten zu haben.«
© Quality Match

Zurück zu Ihrem Akronym »rad«, gelten diese Metriken immer und überall und sind sie gleichwertig?

Sie gelten überall, die Gewichtung ist von Anwendungsfall zu Anwendungsfall unterschiedlich. Am schwierigsten gestaltet sich die »r-Metrik«, auch deshalb, weil in vielen Fällen soziologische Aspekte berücksichtigt werden müssen. Außerdem ist es oft nicht einfach, genau zu definieren, was einen Datensatz repräsentativ macht, hier sind oft phänomenologische Ansätze erforderlich. Wieder ein Beispiel aus der Gesichtserkennung. Man kann die Hypothese aufstellen, dass ein Algorithmus mit frontalen Gesichtsaufnahmen besser zurechtkommt als mit Bildern, auf denen die Gesichter um 90 Grad gedreht sind. Mithilfe einer Überprüfung dieser Hypothese kann herausgefunden werden, inwieweit die Orientierung wirklich Unterschiede bei der Erkennung ausmacht. Kurz: die Repräsentativität eines Datensatzes lässt sich typischerweise am schwersten nachweisen, weil die Charakteristika, die die Repräsentativität eines Datensatzes festlegt, von Anwendung zu Anwendung sehr unterschiedlich ist. Wenn es um den Automobilbereich geht, sieht die Situation etwas anders aus, denn in diesem Umfeld gibt es relativ gute, bekannte Parameter hinsichtlich der Repräsentativität. In der Medizintechnik wiederum weiß man noch gar nicht so genau, was die wichtigen Parameter sind.

Bei den anderen beiden Metriken verhält es sich ähnlich. Man muss sich beispielsweise fragen, welchen Einfluss die Genauigkeit der Datensätze hat, sprich welche Auswirkungen hat es zum Beispiel, wenn ein Fahrzeug im Bild mit einem Rahmen versehen wird, der um fünf Pixel verschoben ist, stellt das für den Algorithmus ein Problem dar oder nicht. Das muss man ausprobieren. Wenn sich die Ergebnisse mit unterschiedlichen Daten verändern, dann hat dieser Parameter Einfluss. Nur indem man überprüft, wie sich die Ergebnisse der Algorithmen mit unterschiedlichen Datensätzen verändern, lässt sich die Qualität der Datensätze verbessern. Man muss überprüfen, wie viele Fußgänger, die fälschlicherweise nicht als Fußgänger annotiert wurden, ok sind und der Algorithmus immer noch funktioniert, all diese Fragen und ihre Antworten haben einen direkten Einfluss auf die Qualität der Daten.

Jeder OEM arbeitet am autonomen Fahren. Aber diverse Berichte über schreckliche Unfälle zeigen, dass selbst ein Autopilot auf der Autobahn alles andere als trivial ist…

Ich denke, dass die meisten Systeme, die heute auf der Straße zu finden sind, noch unter dem Aspekt entwickelt wurden, »viele Daten helfen viel«. Die von Ihnen erwähnten Beispiele zeigen, dass dieser Ansatz nicht so gut funktioniert. Ich gehe aber davon aus, dass die nächste Systemgeneration die Idee aufgegriffen hat, dass gute Daten notwendig sind, und damit lassen sich viele Probleme, die derzeit noch bestehen, lösen.

Arbeiten Sie bereits mit der Industrie zusammen?

Ja, ich kann zum Beispiel Bosch offiziell benennen. Bei dieser Zusammenarbeit geht es um autonomes Fahren, explizit um die Erkennung von befahrbaren Oberflächen. Es muss klar sein, wo ein Auto hin ausweichen kann, wenn eine Entscheidung getroffen werden muss. Darüber hinaus arbeiten wir auch mit anderen OEMs/Tier-Ones zusammen, aber hier darf ich keine Namen nennen.

Das heißt, die Problematik der Datenqualität ist in der Industrie angekommen?

Ja, das glaube ich auf alle Fälle, nur keiner hat bislang eine richtig gute Lösung dafür gefunden. Alle haben viele Daten und die Algorithmen funktionieren trotzdem nicht, also scheint die Qualität das Problem zu sein. Genau dieser Punkt hat dazu geführt, Quality Match zu gründen. Das Problem mit der Qualität der Datensätze wurde mir schon bei Apple, wo ich früher gearbeitet habe, bewusst. Deshalb habe ich Apple verlassen und Quality Match gegründet.

Wenn ein Kunde seine Datensätze in echte Informationsquellen ummünzen möchte, wie kann Quality Match helfen?

Im Prinzip muss er nur seinen Datensatz zu uns hochladen und dann mit unserer Hilfe zusätzliche interessante Attribute zu diesem Datensatz bestellen, wie z.B. besagte Metriken. Wir wiederum überprüfen die Qualität des Datensatzes, in dem wir beispielsweise ein und dieselbe Frage an verschiedene Leute stellen und dann zeigt sich, wann und wo die Antworten unterschiedlich ausfallen. Wenn Antworten auf dieselbe Frage unterschiedlich ausfallen, kann das beispielsweise ein Zeichen oder Maßstab dafür sein, dass die Antwort nicht sicher ist. Unsichere Antworten können wiederum dann auftreten, wenn die Daten schlecht sind, sagen wir, weil ein Bild zu dunkel ist. Sie können aber auch darauf hindeuten, dass die Frage sinnlos ist, also ein Zeichen dafür, dass ein Taxonomieproblem vorherrscht. Wir nehmen die Datensätze in Hinblick auf alle drei Metriken auseinander und ermitteln mithilfe von Mehrfachfragen, welche Qualitätsprobleme bestehen. Am Ende unserer Untersuchung erhält unser Kunde einen Bericht mit „actionable insights“, in dem die Qualität der Daten in Hinblick auf diese »rad«-Metriken aufgeschlüsselt dargestellt wird. Sei es, dass der Datensatz nicht repräsentativ genug ist oder nicht genau genug ist. Auf Basis dieser Analyse kann der Kunde entscheiden, welche Daten beispielsweise noch fehlen, oder welche Daten entfernt werden müssen, um eine Schieflage der Datenbasis zu korrigieren.

Lassen sich ihre Ansätze sowohl für das autonome Fahren als auch für die Tumorerkennung in der Medizin nutzen?

Die rad-Metriken gelten in allen Anwendungsbereichen, sprich auch in der Medizintechnik.

Sie nehmen die Daten auseinander. Überprüfen Sie mithilfe von Algorithmen, inwieweit die verschiedene Metriken eingehalten werden?

Nein, derzeit zerlegen wir die Datensätze in sehr kleine Teile und befragen dann einige Personen, ob das Objekt beispielsweise Reifen hat, oder wie stark es verdeckt ist. Bei dieser Befragung muss man allerdings berücksichtigen, aus welchen Bereichen die Daten kommen. In der Medizin sind es wahrscheinlich eher Experten, die die Annotation durchführen, beim autonomen Fahren kommen typischerweise eher Laien zum Einsatz.

Wir stehen momentan noch am Anfang, aber wir haben bereits begonnen unser Wissen in Produkte überführen, die dann von verschiedenen Marktsegmenten genutzt werden können. In den letzten Monaten ging es darum, die Zeit, zwischen Datenhochladen und Analyseergebnis zur Datenqualität, zu reduzieren und zwar auf weniger als eine Woche.

Ich habe bereits selbst in der Medizintechnik geforscht, ein überaus interessantes Thema. Ich bin überzeugt, dass sich unser Ansatz in vielen Anwendungsbereichen, einschließlich Medizintechnik, nutzen lässt. Momentan konzentrieren wir uns auf die Anwendung »autonomes Fahren«, aber es ist ganz klar unser Ziel, auch weitere Märkte zu adressieren.

Das Interview führte Iris Stroh


  1. Die Menge allein reicht nicht, die Qualität ist entscheidend
  2. Gute Daten können bestehende Probleme lösen

Das könnte Sie auch interessieren

Verwandte Artikel

elektroniknet