Machine Learning Konkurrenz für den menschlichen Intellekt

Der Prozess des maschinellen Lernens erfolgt in fünf Schritten.

Das maschinelle Lernen ist eine Unterdisziplin der künstlichen Intelligenz. Dabei lernen die Algorithmen in unterschiedlichen Methoden. Schlüsselbereiche für den Einsatz sind künstliche neuronale Netze, Computer Vision, Robotik und natürliche Sprachverarbeitung.

Der Schlüssel für die Entstehung der KI ist die Fähigkeit, Computern das Lernen beizubringen. Dieses Lernen reicht von rudimentärer Mustererkennung bis hin zu komplexer Entscheidungsfindung und ist der sich am schnellsten entwickelnde Bereich der KI. Viele Klassen von Algorithmen des maschinellen Lernens sind entwickelt worden. Diese Algorithmen benötigen als Eingabe eine große Menge von Merkmalen, die aus Eingabedaten generiert werden.

Einige der am frühesten verwendeten Algorithmen, wie zum Beispiel Entscheidungsbäume, verwendeten starre „Wenn-dann“-Regeln zur Lösung von Vorhersage- und Kategorisierungsproblemen. In jüngerer Zeit hat sich die Forschung auf statistische Modelle konzentriert, die eine wahrscheinlichkeitsbasierte Entscheidungsfindung einbezieht, in der reelle Gewichtungsfaktoren an jedes Eingabemerkmal angehängt werden. Solche Modelle können die relative Sicherheit vieler möglicher Antworten statt nur einer einzigen ausdrücken, was zu zuverlässigeren Ergebnissen führt.

Die verschiednen Arten des Machine Learnings

Künstliche neuronale Netze und die damit verbundenen algorithmischen Methoden lehren Computer, Vorhersagemodelle zu erstellen.

Dieser Bereich der Informatik wird kollektiv als maschinelles Lernen bezeichnet und hat viele Unterbereiche, die auf den Methoden basieren, die für das Training von Algorithmen verwendet werden. Die explosionsartige Zunahme der Datenmenge, die für Trainingssysteme zur Verfügung steht, hat zu großem Schwung und Innovation bei den Techniken zum Training von Algorithmen geführt. Jede Technik ist für spezifische Probleme wie Kategorisierung, Vorhersage und andere geeignet (Bild 1).

Das supervised Learning

Beim überwachten Lernen (Supervised Learning) wird ein Algorithmus trainiert, indem zunächst bekannte Eingabe- und Ausgabedatensätze verwendet werden. Die Daten werden vorklassifiziert und sortiert. Dann werden sie vom Algorithmus verwendet, um die Regeln zu lernen, die Eingangsgrößen mit Ausgangsgrößen ins Verhältnis setzen. Sobald der Algorithmus mit bekannten Eingaben die bekannten Ausgaben mit minimalem Fehler vorhersagt, wird er trainiert und kann zur Vorhersage von Ergebnissen mit unbekannten Eingaben verwendet werden. Dieses Lernen findet Anwendung bei Regressions- und Klassifizierungsproblemen. Wenn bei der Regression reichlich Trainingsdaten zur Verfügung stehen, kann die Beziehung zwischen verschiedenen Eingangswerten und deren Auswirkung auf das Ergebnis zur Vorhersage zukünftiger Ergebnisse wie zum Beispiel zukünftige Verkäufe oder Trends verwendet werden. Bei Klassifizierungsproblemen kann das betreute Lernen den Zustand beurteilen, beispielsweise ob eine Krankheit existiert oder nicht.

Das Unsupervised Learning

Unüberwachtes Lernen (Unsupervised Learning) wird verwendet, wenn die zugrundeliegenden Daten keine vorab identifizierten Muster oder Beziehungen aufweisen. Im Wesentlichen werden die Daten nicht bezeichnet, sodass der Algorithmus das Muster und die Beziehung zwischen den Eingangswerten selbstständig identifizieren kann. Die Entdeckung verborgener Muster in den Daten und die Extraktion von Merkmalen innerhalb der Daten sind der eigentliche Zweck des unüberwachten Lernens.


Das Semi-Supervised Learning

Semi-Supervised Learning verwendet einen hybriden Ansatz, um vor allem dann genaue Ergebnisse zu erzielen, wenn unüberwachte und überwachte Ansätze bei der genauen Modellierung eines gegebenen Datensatzes zu kurz kommen.

Das Reinforcement Learning

Reinforcement Learning ist eine Art von Training, bei dem der Algorithmus auf ein bestimmtes Ziel ausgerichtet ist, zum Beispiel beim Schach zu gewinnen oder eine bestimm- te Aufgabe auszuführen. Der Algorithmus strebt nach der Maximierung der Chancen, das spezifische Ziel zu erreichen, und verwendet Feedback, um den effizientesten Weg zum Ziel zu finden.

Neuronale Netze

Neuronale Netze sind eine Methodik, bei welcher der Algorithmus den Entscheidungsfindungsprozess eines biologischen Nervensystems, beispielsweise des menschlichen Gehirns, modelliert. Es können entweder einschichtige oder mehrschichtige Entscheidungsprozesse implementiert werden, um die Wirksamkeit eines Modells zu maximieren. Neuronale Netzwerke sind derzeit ein Bereich von weitverbreitetem Forschungsinteresse, und einige beliebte Implementierungen sind tiefe neuronale Netzwerke – die viele eingelagerte Schichten zwischen Eingangswerten und Ergebnis haben –, Feedforward-Neuronennetze sowie Backpropagation (Fehlerrückführung). Jede Variante findet Verwendung in spezifischen Anwendungen wie natürliche Sprachverarbeitung (Natural Language Processing, NLP) und Bilderkennung.

Alle Lernansätze zielen darauf ab, die Genauigkeit zu verbessern, mit der Systeme unter anderem menschliches Verhalten im wirklichen Leben modellieren können. Bei jedem Ansatz können bestimmte Arten von Algorithmen angewandt werden, um den Daten und den angestrebten Ergebnissen gerecht zu werden.

Vorteile von ML gegenüber Regelsystemen

Systeme, die auf maschinell lernenden Algorithmen basieren, haben viele Vorteile gegenüber von Hand definierten Regeln. Die beim maschinellen Lernen verwendeten Lernverfahren konzentrieren sich automatisch auf die häufigsten Fälle, während beim manuellen Schreiben von Regeln oft gar nicht klar ist, wohin der Aufwand gelenkt werden soll. Automatische Lernverfahren können sich statistische Algorithmen zur Schlussfolgerung zunutze machen, um Modelle zu erstellen, die robust gegenüber unbekannter Eingabe sind, zum Beispiel mit Wörtern oder Strukturen, die noch nie gesehen wurden, und gegenüber fehlerhafter Eingabe, zum Beispiel mit falsch geschriebenen oder versehentlich ausgelassenen Wörtern. Im Allgemeinen ist der Umgang mit solchen Eingaben mithilfe handgeschriebener Regeln – oder allgemeiner gesagt, die Erstellung von Systemen mit handgeschriebenen Regeln, die weiche Entscheidungen treffen – extrem schwierig, fehleranfällig und zeitaufwendig.

Systeme, die auf dem automatischen Erlernen der Regeln basieren, können am Ende sehr genau sein, einfach weil sie viele Eingabedaten zur Verfügung haben. Systeme, die auf handgeschriebenen Regeln basieren, können nur dann ebenso exakt sein, wenn die Regeln komplexer werden, was eine wesentlich schwierigere Aufgabe ist. Insbesondere gibt es eine Grenze für die Komplexität von Systemen, die auf handgeschriebenen Regeln basieren. Jenseits dieser Grenze werden die Systeme unbeherrschbar. Um mehr Daten zu bekommen, die in maschinell lernende Systeme eingegeben werden können, muss lediglich die Anzahl der Arbeitsstunden entsprechend erhöht werden. In der Regel erfolgt dabei keine wesentliche Erhöhung der Komplexität des Annotationsprozesses.