KI-Experte warnt vor falschen Schlüssen

Werden KI-Modelle wie ChatGPT dümmer?

14. September 2023, 11:10 Uhr | Karin Zühlke
© Timon/stock.adobe.com

US-Forscher haben die Leistung von ChatGPT in einer Studie untersucht. Das Ergebnis lässt Raum für Interpretation - und sollte nicht falsch verstanden werden, warnt KI-Experte Prof. Dr. Marco Barenkamp, Gründer und Aufsichtsratsvorsitzender der LMIS AG.

Diesen Artikel anhören

In letzter Zeit haben Entwicklungen im Bereich der Künstlichen Intelligenz (KI) insbesondere durch Sprachmodelle wie ChatGPT und dessen neueste Version GPT-4 viel Aufmerksamkeit von Experten und der Öffentlichkeit erregt. Diese Programme haben aufgrund ihrer bemerkenswerten Fähigkeiten im Umgang mit Texten und Sprache beeindruckt. Skeptiker haben bereits den Untergang ganzer Berufsgruppen prophezeit, während Prüfer darüber nachdenken, wie sie KI-generierte Arbeiten von menschlichen Leistungen unterscheiden können. Innerhalb der wissenschaftlichen Gemeinschaft taucht jedoch eine andere zentrale Frage auf, insbesondere vor dem Hintergrund wahrgenommener Veränderungen in den Fähigkeiten dieser beliebten Tools: Werden diese Sprachmodelle trotz des exponentiellen Anstiegs ihrer Datenmenge und Modellgröße "dümmer"?

Der Hintergrund für diese Diskussionen in der akademischen Welt stammt aus einer kürzlich durchgeführten Studie von Forschern der Stanford University und der University of California, Berkeley. Ihre Studie konzentrierte sich darauf, wie sich die Leistung von ChatGPT im Laufe der Zeit entwickelt hat, da sie Schwankungen in der Leistung beobachteten. In ihrer Studie erläutern sie, dass ein Sprachmodell wie GPT-4 im Laufe der Zeit auf der Grundlage von Daten, Benutzerfeedback und Designänderungen aktualisiert werden kann. Derzeit bleibt jedoch unklar, wann und wie solche Updates bei GPT-3.5 und GPT-4 erfolgen und wie jedes dieser Updates das Verhalten der Sprachmodelle beeinflusst.

Mögliche Auswirkungen auf nachgelagerte Arbeitsabläufe Diese Unsicherheit, argumentieren die Autoren der Studie, macht es schwierig, GPT-3.5 und GPT-4 nahtlos in größere Arbeitsabläufe zu integrieren. Wenn die Reaktion des Sprachmodells auf eine Eingabeaufforderung, wie beispielsweise Genauigkeit oder Formatierung, plötzlich ändert, könnte dies nachgelagerte Arbeitsabläufe stören. Darüber hinaus wird es schwierig, wenn nicht unmöglich, Ergebnisse aus demselben Sprachmodell zu reproduzieren.

Um Klarheit in diese Angelegenheiten zu bringen, verglich die Forschergruppe das Verhalten der GPT-3.5- und GPT-4-Versionen von März 2023 und Juni 2023 in sieben verschiedenen Aufgabenbereichen:

1.    Lösung mathematischer Probleme
2.    Beantwortung heikler Fragen (zum Beispiel Annahme von Vorurteilen gegenüber Minderheiten als Tatsachen)
3.    Reaktion auf Meinungsumfragen
4.    Beantwortung wissensintensiver Fragen auf der Grundlage einer Vielzahl von Dokumenten ("multi-hop questions")
5.    Code-Generierung
6.    Beantwortung von Prüfungsfragen für die Zulassung als Arzt in den USA
7.    Aufgaben im Zusammenhang mit visuellem Denken

Das Ergebnis: Die Leistung und das Verhalten beider GPT-Versionen variierten erheblich von März bis Juni. In einigen Aufgabenbereichen verschlechterte sich die Leistung im Laufe der Zeit, während sie sich in anderen verbesserte.
Zum Beispiel hatte GPT-4 im März 2023 eine Trefferquote von 84% bei der Identifizierung von Prim- und zusammengesetzten Zahlen. Im Juni 2023 war die Trefferquote nur noch bei 51%. Die Forscher schlussfolgern aus ihren Ergebnissen, dass Sprachmodelle, die für professionelle Anwendungen eingesetzt werden, kontinuierlich überwacht werden müssen, insbesondere da die Mechanismen, die ihre Aktualisierungen steuern, völlig undurchsichtig sind.

In Zukunft planen die US-Forscher, ihre Forschungsergebnisse zum Verhalten von GPT-3.5, GPT-4 und anderen Sprachmodellen im Rahmen eines Langzeitprogramms regelmäßig zu aktualisieren. Ihre kürzlich durchgeführte Studie hat jedoch die Frage, ob diese Sprachmodelle tatsächlich "dümmer" werden, nicht definitiv beantwortet. Ein solches Verständnis der Studienergebnisse wird von KI-Experte Prof. Dr. Marco Barenkamp, Gründer und Aufsichtsratsvorsitzender der LMIS AG in Osnabrück, einem Unternehmen, das sich auf die Anwendung von Künstlicher Intelligenz spezialisiert hat, als unangemessen betrachtet.

Stattdessen betont Prof. Barenkamp die Notwendigkeit, das Verhalten eines Modells von seinen Fähigkeiten zu trennen. Er weist darauf hin, dass Fähigkeiten das Potenzial eines Modells und seinen funktionalen Umfang darstellen, während das Verhalten seine tatsächlichen Antworten und Reaktionen in bestimmten Kontexten widerspiegelt. Ein Modell mit hohen Fähigkeiten kann daher unerwünschtes oder fehlerhaftes Verhalten zeigen, basierend auf den Daten, auf denen es trainiert wurde, oder den Feedbackschleifen, die es erhalten hat.


  1. Werden KI-Modelle wie ChatGPT dümmer?
  2. "Das Paradox des Gedächtnisschwunds"

Lesen Sie mehr zum Thema


Das könnte Sie auch interessieren

Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu elektroniknet

Weitere Artikel zu Künstliche Intelligenz (KI)