Künstliche Intelligenz (KI) ist in aller Munde. Um aber die Vorteile von KI nutzen zu können, ist es wichtig zu verstehen, welche Datenanforderungen zu Beginn bestehen. Denn die Datenqualität ist entscheidend für den erfolgreichen KI-Einsatz.
Hochmoderne KI-Algorithmen können komplexe Muster aus einer Datenprobe lernen. Im Fertigungsumfeld kann ein Beispiel für solch ein Muster die Art und Weise sein, in der sich ein in diesen Daten enthaltener Parametersatz, der sich auf einen Prozess in einer Fabrik bezieht, gemeinsam ändert.
Der Algorithmus lernt die Muster, indem ihm viele Beispiele der fraglichen Parameterwerte gezeigt werden - typischerweise zwischen einigen Tausend und mehreren Millionen. Wenn nun in der Probe ein Trend dahingehend besteht, dass beispielsweise jede Erhöhung der Prozesstemperatur um ein Grad Celsius mit einer Verkürzung der Prozesszeit um zehn Sekunden einhergeht, lernt die KI diesen offensichtlichen Zusammenhang zwischen Temperatur- und Zeitparameter. Auf diese Weise lernt die KI effektiv ein Modell des Prozesses. Dies geschieht automatisch, vorausgesetzt, es ist ordnungsgemäß entworfen und es werden genügend Beispiele für die richtigen Daten eingegeben.
Was sind die richtigen Daten für KI?
Was sind die »richtigen« Daten für eine KI-fähige Prozessoptimierung? Die allgemeine Antwort lautet: Der Datensatz, der ausreicht, um zu beschreiben, wie sich Änderungen an den Parametern eines Prozesses auf die Qualität auswirken.
Der Großteil der Prozessdaten kann im Allgemeinen als Tabelle oder als Sammlung von Tabellen mit Spalten (Parametern) und Zeilen (Produktionsbeispiele, die beispielsweise eine Produktionscharge pro Zeile darstellen) dargestellt werden. Um als Repräsentation eines Prozesses oder genauer der Historie eines Prozesses von Bedeutung zu sein, müssen diesen Tabellen einige erläuternde Informationen beigefügt werden. Sehen Sie sich zunächst die Arten der erforderlichen erläuternden Informationen an, bevor Sie die Datenanforderungen in Bezug auf diese tabellarischen Spalten und Zeilen erläutern.
Die wichtigsten Informationen, die das Data Science-Team benötigt, sind:
Einige dieser Beschreibungen können der verfügbaren technischen Dokumentation entnommen werden. In den meisten Fällen können jedoch die erforderlichen Erkenntnisse gewonnen werden, indem die Datentabellen mit Spezialisten aus der Fabrik oder der Prozessausrüstung durchgegangen werden.
Die Datenspalten müssen zunächst eine Darstellung des Qualitätsergebnisses enthalten. Es ist wichtig zu beachten, dass die Daten möglicherweise keine vollständige Darstellung der Qualitätsmessung in der Fabrik enthalten. Diese Lücken in den Daten sind häufig (z. B. Stichproben): In einigen Fällen können die verfügbaren Daten ausreichen, um dramatische Ergebnisse zu erzielen, wie in der folgenden Parameteroptimierung gezeigt.
Der zweite Satz erforderlicher Datenspalten betrifft Prozessparameter. Diese lassen sich in zwei Typen unterteilen: steuerbare und nicht steuerbare Parameter.
Diese Parameterspalten sollten zusammen die Faktoren darstellen, die den größten Einfluss auf die Qualität haben.
Aufgrund der Fähigkeit von AI-Modellen, komplexe Interaktionen in einer großen Anzahl von Variablen zu lernen, wird einem Hersteller empfohlen, alle verfügbaren Datenpunkte rund um den Prozess für die Aufnahme in das AI-Modell verfügbar zu machen. Die Kosten für die Aufnahme zusätzlicher Variablen sind gering. Ein guter KI-Spezialist wird die erforderlichen statistischen Techniken anwenden, um zu bestimmen, ob die Variable in das endgültige Modell aufgenommen werden soll. Variablen, die zunächst als marginal betrachtet werden könnten, können zu einem KI-Modell beitragen, das Effekte und Interaktionen in dem Prozess nutzt, von denen die Spezialisten zuvor nichts gewusst hatten, was möglicherweise zu einem verbesserten Optimierungsergebnis führt.
Zeilenweise Datenanforderung
Wenden wir uns nun den zeilenweisen Datenanforderungen zu. Die allgemeine Regel lautet hier, dass die Daten repräsentativ für den Prozess und insbesondere für die Interaktionen sein müssen, die sich in Zukunft wahrscheinlich auf die Qualität auswirken werden. Ein grundlegender Aspekt hierbei ist die Frage: Wie viele Zeilen, d. h. Produktionsbeispiele, ergeben einen ausreichenden Trainingssatz? Die Antwort hängt von der Komplexität des Prozesses ab. Die Stichprobe muss diese Komplexität hinreichend abbilden. Im Herstellungskontext reicht die Untergrenze typischerweise von einigen hundert bis zu mehreren tausend historischen Beispielen. Das Trainieren eines Modells mit mehr Daten als unbedingt erforderlich erhöht jedoch in der Regel das Vertrauen und den Detaillierungsgrad des Modells, was wiederum das Optimierungsergebnis wahrscheinlich weiter verbessern wird.
Eine ausreichende Anzahl historischer Beispiele allein garantiert noch keine repräsentative Stichprobe. Die historischen Beispiele sollten auch zeitlich repräsentativ sein. Der Datensatz sollte ausreichend aktuell sein, um die wahrscheinlichen Betriebsbedingungen - wie Maschinenverschleiß - zum Zeitpunkt der Optimierung darzustellen. In vielen Fällen sollten die Daten auch einen oder mehrere ausreichende Dauerbetriebszeiträume darstellen, da die KI auf diese Weise lernen kann, welche Betriebsbereiche aufrechterhalten werden können und wie sich die Auswirkungen eines Teils des Prozesses im Laufe der Zeit auf andere ausbreiten.
Konsistenz und kontinuierliche Datenverfügbarkeit
Damit kommen wir zur letzten Kennzahlenanforderung, nämlich Konsistenz und ständige Verfügbarkeit. Um das AI-Modell mit den Betriebsbedingungen in der Produktionslinie auf dem neuesten Stand zu halten, müssen neue Daten für die regelmäßige Umschulung des Modells verfügbar sein. Dies erfordert wiederum eine gewisse Integration in die Datenquelle. Im schlimmsten Fall kann dies einen kontinuierlichen Digitalisierungsprozess bedeuten, wenn das Aufzeichnungssystem offline ist, oder einen manuellen Export von Tabellendaten durch Fabriktechniker. Diese Ansätze sind relativ arbeitsintensiv und können Inkonsistenzen unterliegen. Ein idealer Aufbau würde aus einem Live-Datenstrom vom Datenbus des Herstellers in einen dauerhaften Speicher bestehen, der für die Versorgung der AI-Trainings-Pipeline vorgesehen ist. Für einige Hersteller ist eine Mischung von Ansätzen angemessen, um mehrere Anlagen zu versorgen.
Die kontinuierliche Verfügbarkeit der Daten geht Hand in Hand mit der Forderung nach Datenkonsistenz. Dies lässt sich am besten an einem negativen Beispiel veranschaulichen, in dem eine Fabrik die Darstellung von Variablen in Datenexporten zeitweise ändert, z. B. ob ein Indikator mit drei Zuständen als Zahl {1, 2, 3} oder als Zeichenfolge {'rot', 'orange', 'grün'} dargestellt wird. Falls unentdeckt können solche Änderungen das Optimierungsmodell unbemerkt beschädigen und möglicherweise die Prozessqualität beeinträchtigen.
Die Digitalisierung und Automatisierung der Prozessdateninfrastruktur und der Datenexporte trägt wesentlich zur Behebung dieser Probleme bei. Unabhängig von der Dateninfrastruktur der Fabrik sollte eine gute KI-Datenaufnahme-Pipeline jedoch eine robuste Datenvalidierungsschicht aufweisen, um sicherzustellen, dass Inkonsistenzen gekennzeichnet und behoben werden.