Schutz und Schutzrechte Maschinelles Lernen und geistiges Eigentum

Schutz des IPs für maschinelles Lernen

Ein Konkurrent oder jemand anders mit weniger edlen Absichten hat verschiedene Möglichkeiten, von der Arbeit oder den Investitionen des Erstellers eines ML-Systems zu profitieren. Angesichts der Einzigartigkeit von ML stellt sich die Frage: Wie kann das IP-Recht angewendet werden, um die verschiedenen Aspekte dieser neuartigen Technik zu schützen?

Schutz der Trainingsdaten

Das Erstellen guter Trainingsdaten für eine bestimmte ML-Anwendung kann zeitaufwändig und teuer sein. In einer typischen Umgebung haben potenzielle Plagiatoren keinen direkten Zugriff auf die Trainingsdaten.

Trainingsdaten wären über das Datenbankrecht geschützt, wenn der Inhaber der Trainingsdaten seinen Hauptgeschäftssitz in der Europäischen Union hat. Ein solches Recht wäre jedoch nur gegen einen Plagiator in derselben Gerichtsbarkeit durchsetzbar.

Ob ML-Trainingsdaten urheberrechtlich geschützt werden können, ist eine schwierigere Frage. Trainingsdaten sind kein Kunstwerk. Unter normalen Umständen stellen sie nur sicher, dass die Daten zum Einsatzszenario passen. Das Erstellen eines passenden Datensatzes zu einem Thema ist keine schöpferische Tätigkeit im Sinne des Urheberrechts. Ein möglicher Urheberrechtsanspruch besteht aber auf die Datenklassifizierungsdeskriptoren.

Wenn Kategorien durch einen kreativen Prozess ausgewählt werden – »schön/hässlich«, »stark/schwach«, »groß/klein« – könnten die Trainingsdaten durch diese kreative Einteilung als urheberrechtlich geschützt eingestuft werden. Eine Klassifizierung nach Sachverhalten – »Katze/Hund«, »Ampel/Straßenlaterne/Parkschild« – vermittelt keine Kreativität und unterliegt damit vermutlich nicht dem Schutz durch das Urheberrecht.

In einigen Anwendungen werden Trainingsdaten durch Simulation oder andere künstliche Vorgänge erzeugt. Man könnte argumentieren, dass diese Trainingsdaten urheberrechtlich geschützt sein könnten, da die Wahl, wie simuliert oder generiert werden soll, als kreatives Mittel angesehen werden könnte. Bisher wurde ein solcher Fall jedoch noch nicht vor Gericht verhandelt.

Unternehmen betrachten ihre Trainingsdaten häufig als sorgfältig gehütete Geheimnisse. Da ein Zugriff auf die Trainingsdaten nicht benötigt wird, um das ML-Model verwenden zu können, scheint dies unkompliziert zu sein. Das beste Vorgehen besteht darin, sowohl die Trainingsdaten vor unerlaubtem Kopieren zu schützen als auch Dritten, die die Trainingsdaten benötigen, strenge vertragliche Beschränkungen aufzuerlegen.

Schutz der Trainingsparameter

Trainingsdaten und Modell machen nur einen Teil des Wertes eines guten ML-Systems aus. Die Parameter, die den Trainingsalgorithmus steuern, können ebenfalls von Nutzen sein: Die Auswahl der richtigen Trainingsparameter erfordert viel Zeit und Mühe von gut ausgebildeten Ingenieuren.

Für den Satz von Trainingsparametern, die in die Erstellung des ML-Systems einfließen, ist der Urheberrechtsschutz ein vernünftiger Ansatz. Wenn ein Datenexperte, der diese Parameter bestimmt, kreative Anstrengungen unternimmt, um die richtigen Trainingsparameter auszuwählen, wäre der daraus resultierende Parametersatz vermutlich urheberrechtlich geschützt.

Würden die Trainingsparameter jedoch durch eine umfassende Suche – z.B. die Bewertung einer Reihe von in der Literatur vorgeschlagenen Optionen – oder durch einen algorithmischen Prozess gefunden, so wäre das nicht durch das Urheberrecht abgedeckt. Dasselbe würde für das Modell gelten, das unter Verwendung dieser Trainingsparameter und vorgegebener Trainingsdaten erstellt wird.

Ein Datenbankrecht ist für den Parametersatz am unwahrscheinlichsten, da ein Kriterium für Datenbankrechte darin besteht, dass es sich um eine Sammlung einzelner Elemente handeln muss, die systematisch oder methodisch angeordnet sind. Es ist unwahrscheinlich, dass ein Parametersatz diesem Kriterium entspricht.

Schutz der Architektur

Die Architektur des Systems ist die Grundlage für das ML-System. Ihr Konzept ist ein Schlüsselaspekt für das ordnungsgemäße Funktionieren des Systems. Nach dem Training kann die Architektur in die Praxis umgesetzt werden.

Ein solches System hat zwei Aspekte: den Graphen, über den die Architektur definiert wird, und die Software, die sie implementiert. Der Graph ist unter den gleichen Bedingungen geschützt, die für den Schutz der Modellparameter gelten. Patente wären theoretisch für Erfindungen von Schaltungen (Hardware) verfügbar, aber dies ist unwahrscheinlich, da es sich bei den meisten Innovationen in diesem Bereich um reine Software handelt. Die Software, die Training und/oder Inferenz implementiert, ist normalerweise urheberrechtlich geschützt, da es sich hauptsächlich um Software handelt, die mit kreativen Mitteln entwickelt wurde.

Schutz des ML-Systems

Theoretisch könnte ein Computersystem, das mit einem klug ausgewählten Parametersatz programmiert und auf bestimmte Trainingsdaten trainiert wurde, patentierbar sein. Die derzeitige Rechtsprechung in Europa und den Vereinigten Staaten würde jedoch voraussetzen, dass das System für die Ausführung realer Aufgaben wie das Lenken eines Autos oder das Erkennen von Bildern aus der realen Welt ausgelegt ist. Bisher wäre es spekulativ, zu dem Schluss zu kommen, dass ein Patent auf ein ML-System erteilt werden könnte, welches auf abstraktere Weise arbeitet, z.B. Erkennung und/oder Klassifizierung ohne spezifischen Anwendungsfall in der realen Welt, wie z.B.:

  • das Lenken eines Autos oder
  • das Erkennen von Bildern aus der realen Welt.
  • Die Software des ML-Systems könnte wie jede andere Software durch das Urheberrecht geschützt sein.

Ein Datenbankrecht für das ML-System ist theoretisch vertretbar: in gewisser Weise wird der Datensatz durch das Modell und die das Modell ausführende Software durchsuchbar gemacht. Dies wurde jedoch noch nie vor Gericht entschieden oder in der Rechtsliteratur dargelegt. Die Software des ML-Systems würde wie jede andere Software definitiv durch das Urheberrecht geschützt sein.

Beweislast

Das Aufspüren eines Plagiators und der Beweis von Verstößen vor Gericht sind zwei sehr unterschiedliche Dinge. Die Beweislast in Gerichtsverfahren zu gewerblichen Schutzrechten kann hoch sein. Grundsätzlich müssen die Gerichte davon überzeugt sein, dass mit großer Wahrscheinlichkeit gegen Rechte verstoßen wurde. Der mutmaßliche Plagiator ist nicht zur Mitwirkung bei der Erbringung dieses Nachweises verpflichtet. Werden Beweise benötigt, die sich unter dessen Kontrolle befinden, kann es daher sein, dass es für den Inhaber der IP-Rechte schwierig wird.

Manche Rechtsordnungen gestatten die Beschlagnahme von Beweismitteln oder verlangen von den Parteien, bei der Ermittlung von Beweisen mitzuwirken, aber möglicherweise können diese die für den Rechteinhaber erforderlichen Beweismittel nicht erbringen. Wenn nach dem Urheberrecht zwei Elemente sehr ähnlich sind, kann ein Gericht die Beweislast umkehren: Der Plagiator muss dann nachweisen, dass sein Werk unabhängig erstellt wurde.

Dies ist eine sehr faktenbezogene Analyse, auf die sich ein Rechteinhaber nicht verlassen sollte. Nach den Gesetzen zu Geschäftsgeheimnissen hat ein Rechteinhaber manchmal die Möglichkeit, das Gericht zu ersuchen, Beweise geheim zu halten oder eine unabhängige Partei wie einen Notar einzuschalten, um Beweise mit den geheimen Informationen zu vergleichen, ohne dass die vertraulichen Informationen Bestandteil der öffentlichen Aufzeichnungen des Gerichts werden.

Schutz des Modells vor Vervielfältigung

Steht ein ML-System ohne vertragliche oder Nutzungseinschränkungen für die Öffentlichkeit zur Verfügung, so eröffnen sich einzigartige Möglichkeiten zum Kopieren seiner Funktion. Im Wesentlichen verfügt der Plagiator über einen Datensatz mit nicht klassifizierten Elementen und übermittelt jedes Element einzeln an das ML-System. Jede Antwort wird als Klassifizierung des vom Plagiator eingegebenen Datensatzes sorgfältig aufgezeichnet.

Der so gewonnene klassifizierte Datensatz kann dann verwendet werden, um ein Modell ähnlicher Qualität zu trainieren (Bild 2). Es hat sich gezeigt, dass dies auch dann effektiv funktioniert, wenn der Datensatz Daten außerhalb der eigentlichen Anwendung des Modells enthält und die Architektur- und Modellparameter von Ziel und Klon nicht übereinstimmen.

Nach dem Urheber- oder Datenbankrecht ist unklar, ob ein solches Vorgehen legal ist oder nicht. Der Datensatz aus dem ursprünglichen ML-System wird nicht kopiert. Nur die Ausgabe wird verwendet, und das auch nur, um einen anderen Datensatz zu klassifizieren.

Wenn die Datensatzklassifizierung für sich genommen kreativ ist, kann der Plagiator das Urheberrecht verletzen, indem er die ursprünglichen Bezeichnungen wiederverwendet. Dies kann sogar dann zutreffen, wenn nur die Bezeichnungen kopiert und zur Klassifizierung eines vollständig unabhängigen Datensatzes wiederverwendet werden. Vor Gericht wurde dies aber noch nie geprüft.

Wasserzeichen beim Maschinellen Lernen

Ein Aspekt des IP-Rechts besteht darin, dass ein Rechteinhaber nachweisen muss, dass seine Rechte verletzt wurden.

Der Nachweis, dass ML-Modelle oder Trainingsdaten kopiert wurden, kann außergewöhnlich schwierig sein, insbesondere wenn die Daten Elemente der realen Welt betreffen. Der Plagiator kann dann leicht argumentieren, dass er lediglich dieselben oder sehr ähnliche Daten aus seiner ureigenen Quelle bzw. vor Ort gesammelt hat. Ohne eine Möglichkeit, dieses Argument zu entkräften, würde der Rechteinhaber ohne Schadenersatzansprüche dastehen.

Unter Wasserzeichen versteht man, dass Informationen in den Inhalt eingebettet werden, die bei normaler Beobachtung nicht sichtbar sind. Der Begriff »digitales Wasserzeichen« wurde 1992 geprägt und wird seit Ende der neunziger Jahre von Rechteinhabern verwendet, um illegale Kopien von Filmen und Liedern zu erkennen und möglicherweise aufzuspüren. Die eingebetteten Informationen eines digitalen Wasserzeichens können die Quelle des Lecks oder das Netzwerk, das die Inhalte ursprünglich weitergeleitet hat, aufdecken.

Wasserzeichen haben auch beim maschinellen Lernen Einzug gehalten, aber der Prozess unterscheidet sich auf subtile Weise. Die ursprünglichen Trainingsdaten und/oder das Modell werden leicht manipuliert, um bestimmte einzigartige Eigenschaften des Modells zu erzeugen: die Wasserzeichen. Beispielsweise kann ein Bild manipuliert werden, indem an einer bestimmten Stelle ein Logo eingefügt wird.

Solche Wasserzeichen können erkannt werden, indem ein geheimes, eigens erstelltes Bild bereitgestellt wird, das die gleiche eindeutige Eingabe für ein ML-System enthält. Ein unabhängig trainiertes System würde dann dieses Bild wie üblich klassifizieren, aber sowohl das ursprünglich trainierte System als auch ein System, für das ein mit Wasserzeichen ausgestattetes ML-System kopiert wurde, würden eine eindeutige Ausgabe liefern, die durch die Manipulation ausgelöst wird. Dies beweist, dass das System vom Original kopiert wurde.

Ein zusätzlicher Vorteil eines solchen Ansatzes besteht darin, dass das Wasserzeichen ein kreatives Element darstellen kann, wodurch dem ML-System eine urheberrechtlich geschützte Information hinzugefügt wird. Dies stärkt den Urheberrechtsanspruch gegenüber einem Plagiator.

Der Plagiator könnte dagegen argumentieren, dass er dasselbe Wasserzeichen unabhängig verwendet oder das Wasserzeichen sogar selbst erstellt hat. Das würde den Vorwurf des Plagiats umkehren. Um einem solchen Argument den Wind aus den Segeln zu nehmen, müssen Urheberrechtsinhaber die Daten und Zeiten, zu denen die Wasserzeichen ausgewählt und eingefügt wurden, klar dokumentieren. Ohne einen schlagkräftigen Beweis kann ein Urheber keinen Anspruch auf Verletzung erheben.