»Agentic AI« ist der KI-Trend 2025. Prof. Stephen Gilbert forscht zu künstlicher Intelligenz und deren Medizin-Zulassung. Auf großen Sprachmodellen basierende Chatbots aus geschlossenen KI-Systemen hält er für unsichere medizinische Werkzeuge – und zeigt Ansätze und Methoden für mehr Sicherheit.
Als ChatGPT auf den Markt kam, konnte die KI medizinische Fragen, für die Entwickler bisher Jahre gebraucht hatten, aus dem Stegreif beeindruckend gut beantworten. Zwar nicht 100 Prozent genau, aber eben gut genug. Und genau in diesem Potenzial sehe ich die hauptsächliche Chance: Was wäre mit nach medizinischen Kriterien entwickelten KI-Modellen möglich?
Im Falle von OpenAI haben Benchmarking-Studien, weiteres Ausprobieren und jede neue Version von ChatGPT innerhalb weniger Wochen und Monate das medizinische KI-Potential bestätigt. Die Partnerschaft von OpenAI und Microsoft und deren medizinische Copiloten zeigen, dass die automatisierte Dokumentation eins der größten Potenziale von LLMs in der Medizin ist. »Medical Agents« kommen derzeit von allen Seiten auf den Markt – selbst die WHO hat mit »Sarah« bereits eine KI-Krankenschwester veröffentlicht, die als Chatbot einfache medizinische Fragen beantwortet.
Exakt. Es ist wichtig, sich von Anfang an klarzumachen, dass KI-Agenten zwar oft gute Antworten liefern – aber eben auch halluzinieren. Das Tool liegt mal richtig, mal falsch, ab und an ist es auch voreingenommen. Doch in der Medizin muss ein Werkzeug verlässlich sein, es muss unter unterschiedlichsten Bedingungen gute und richtige Antworten geben. Und das ist – in allen Bereichen – das allgemeine Problem von KI. Und auch schwierig zu lösen: Die Risiken sind den Modellen inhärent. Ein Bias kann möglicherweise noch durch gute Daten oder spezielles Training ausgemerzt werden, aber Halluzinationen wird die Technologie aufgrund ihres Aufbaus immer haben, dessen müssen wir uns bewusst sein.
Ein großes Problem von großen Sprachmodellen ist die scheinbar grenzenlose Fähigkeit, auf alle Fragen eine Antwort zu wissen. Frühere Modelle waren deutlich eingeschränkter und prüften genauer nach, ob sie die Nutzeranfrage richtig verstanden haben. Die heute gängigen Systeme antworten dagegen zunächst auf alles – sie gleichen einem überaus selbstbewussten Teenager, der Ihnen eine plausible Antwort gibt, die gut formuliert ist, sich auf Fakten bezieht und viel Intelligenz, aber auch viel Naivität und Selbstüberschätzung in sich birgt. Diese plausibel klingende Falschheit ist für die medizinische Entscheidungsunterstützung unbrauchbar.
Nicht sehr spezifisch trainierte KI-Modelle fassen im Grunde genommen Informationen aus dem Internet zusammen, die in kleine Teile zerlegt und neu zusammengesetzt werden. Da im Internet viele Falschinformationen kursieren, finden sich diese zwangsläufig auch in den Antworten der KI-Agenten wieder. Während früher eine klare Trennung zwischen seriösen medizinischen Informationen und Fehlinformationen möglich war, wächst heute die Grauzone von teilweise korrekten, aber nicht vollständig richtigen Informationen. Erst kürzlich haben niederländische und belgische Forscher gezeigt, wie einfach es ist, mit KI täuschend echt klingende medizinische Falschinformationen zu erstellen.
Nicht sehr spezifisch trainierte KI-Modelle fassen im Grunde genommen Informationen aus dem Internet zusammen, die in kleine Teile zerlegt und neu zusammengesetzt werden. Da im Internet viele Falschinformationen kursieren, finden sich diese zwangsläufig auch in den Antworten der KI-Agenten wieder. Während früher eine klare Trennung zwischen seriösen medizinischen Informationen und Fehlinformationen möglich war, wächst heute die Grauzone von teilweise korrekten, aber nicht vollständig richtigen Informationen. Erst kürzlich haben niederländische und belgische Forscher gezeigt, wie einfach es ist, mit KI täuschend echt klingende medizinische Falschinformationen zu erstellen.
Das Problem verschärft sich dadurch, dass ChatGPT diese künstlich erzeugten Szenarien nahtlos in echte medizinische Anfragen einweben kann. Anders als bei traditionellen medizinischen Lehrbüchern, wo Fehler zwar vorkamen, aber durch Fachleute kuratiert wurden, können KI-Systeme – wie der selbstbewusste Teenager – völlig fiktive medizinische Sachverhalte präsentieren, die für Medizinstudierende oder sogar Fachpersonal schwer als Falschinformation zu erkennen sind.
Besorgniserregend ist, dass bei Tests mit fiktiven medizinischen Szenarien – also z. B. erfundenen anatomischen Strukturen oder nichtexistierenden menschlichen Drüsen – selbst LLM-basierte Agenten für die klinische Entscheidungsunterstützung versagt haben, die in den USA bereits auf dem Markt sind. Genau wie ChatGPT haben sie die falschen Informationen nicht erkannt, sondern in ihre Empfehlung integriert. Wie die EU, wo derartige Systeme MDR-Klasse IIa oder höher benötigen, hat zwar hat auch die FDA Richtlinien entwickelt, aber einige Anbieter wie Glass Health bewegen sich geschickt in der regulatorischen Grauzone des »21st Century Cures Act« – obwohl ihre Modelle nicht zwischen echten und erfundenen medizinischen Informationen unterscheiden können. Eine solche Situation ist aus medizinischer Sicht völlig inakzeptabel.
Ja und nein. Eine aktuelle Analyse des medizinischen Sprachmodells MedPalm2 zeigt, dass das Google-Modell zwar weniger von typischen Verzerrungen durch Daten aus dem freien Internet oder Social Media betroffen ist; es weist aber andere problematische Muster auf: So spiegelt die für das KI-Training herangezogene medizinische Fachliteratur historisch gewachsene Ungleichgewichte wider. Besonders auffällig ist die Dominanz männlicher Perspektiven, welche zu einer verzerrten Darstellung geschlechterspezifischer medizinischer Aspekte führt.
Hier kommt die Regulatorik ins Spiel: Mit Blick auf den »AI Act« der Europäischen Union, der in etwa drei Jahren für medizinische KI-Systeme verbindlich sein wird, müssen Entwickler diese Verzerrungen aktiv angehen. Die medizinische Deep-Learning-Community muss neue Werkzeuge und Methoden entwickeln, die solche Verzerrungen erkennen und ausgleichen können. Nur KI-Systeme, die nachweislich frei von diskriminierenden Mustern sind, werden eine Zulassung für den europäischen Markt erhalten.
|
Agentic AI in der Medizin: Wie Co-Piloten Ärzte sicher entlasten |
Die genannten Risiken wie falsche Antworten, ein Bias oder Halluzinationen einfach hinzunehmen, ist in der Medizin nicht akzeptabel. Doch dazu kommt noch das Problem der Kontrolle: KI-Technologie ist von Haus aus nicht-deterministischer Natur. Das bedeutet, stellt man die gleiche Frage mehrmals, erhält man unterschiedliche Antworten. Doch ein Medizingerät muss mehrfach und verlässlich dieselbe Antwort ausspucken. Für Medtech-Unternehmen ergeben sich daraus klare Konsequenzen. Aktuelle Untersuchungen des Berliner Medical-AI-Start-Ups Ada Health zeigen, dass geschlossene KI-Tools (wie OpenAI oder MedPalm2, Anm. d. Red.) für professionelle Medizin-Applikationen meist ungeeignet sind, da die Entscheidungsprozesse nicht nachvollziehbar sind.
Mit ihren geschlossenen Modellen gelten sie für Unternehmen als Software unbekannter Herkunft, Firmen haben keinen Einfluss auf das sich ständig ändernde Grundmodell. Doch Unternehmen müssen die Eigenschaften ihrer KI-Tools nicht nur gründlich kennen und testen, sondern auch kontinuierlich überwachen und nachweisen: Für eine medizinische, KI-gestützte Entscheidung und eine Zulassung des jeweiligen Tools braucht eine Medtech-Firma unbedingte Kontrolle über ihr Kernmodell.
Vielversprechend sind aus dieser Perspektive Open-Source-Modelle, weil sie mehr Kontrolle und Transparenz ermöglichen. Dies ist besonders wichtig, um die Kernprobleme wie Voreingenommenheit und Fehleranfälligkeit in den Griff zu bekommen – und eben nachvollziehbare Antworten zu erhalten. Aus regulatorischer Sicht müssen wir die Eigenschaften und das Verhalten der KI genau kennen und überwachen können. Das nicht-deterministische Verhalten, die fehlende Kontrolle und die kontinuierliche Weiterentwicklung erschweren die Qualitätssicherung erheblich.
Große Sprachmodelle in der Medizin erfordern einen klar definierten Rahmen für ihren sicheren Einsatz: Entwickler müssen ihre Modelle gezielt auf den spezifischen, medizinischen Anwendungsfall optimieren und eingrenzen.
Die besondere Herausforderung liegt in der Nachverfolgbarkeit. Wenn es zu Beschwerden oder Problemen kommt, muss eine gründliche Ursachenanalyse möglich sein. Das bedeutet, es muss die genaue Version des Modells reproduzierbar sein, die zum Zeitpunkt des Vorfalls im Einsatz war. Bei geschlossenen Systemen wie ChatGPT ist das unmöglich – die Unternehmen stellen alte Versionen nicht zur Verfügung und haben auch keine vertragliche Verpflichtung dazu. Open-Source-Modelle dagegen archivieren frühere Versionen, bei Bedarf lassen sich diese also wieder aufrufen, um Probleme zu analysieren und künftige Fehler zu vermeiden. Dies ist nicht nur für eventuelle Entschädigungsfragen wichtig, sondern vor allem, um systematisch aus Fehlern zu lernen und die Sicherheit der Systeme kontinuierlich zu verbessern.
Für den medizinischen Einsatz bedeutet das: Je enger der Anwendungsbereich definiert ist und je besser die Nachverfolgbarkeit gewährleistet wird, desto sicherer und zuverlässiger können KI-Systeme in der Gesundheitsversorgung eingesetzt werden.
Über das Else Kröner Zentrum für Digitale Gesundheit (EKFZ) |
---|
Das Else Kröner Fresenius Zentrum (EKFZ) für Digitale Gesundheit an der Technischen Universität Dresden und dem Universitätsklinikum Carl Gustav Carus Dresden wurde im September 2019 gegründet. Es wird mit einer Fördersumme von 40 Millionen Euro für eine Laufzeit von zehn Jahren von der Else Kröner-Fresenius-Stiftung gefördert. Das Zentrum konzentriert seine Forschungsaktivitäten auf innovative, medizinische und digitale Technologien an der direkten Schnittstelle zu den Patientinnen und Patienten. Das Ziel ist, das Potenzial der Digitalisierung in der Medizin voll auszuschöpfen, um die Gesundheitsversorgung, die medizinische Forschung und die klinische Praxis deutlich und nachhaltig zu verbessern. |
Unsere Forschung konzentriert sich auf zwei Hauptthemen: die technischen Herausforderungen bei der Zulassung von KI-Modellen und die politischen Rahmenbedingungen. In einer kürzlich veröffentlichten Studie haben wir besonders problematische Smartphone-Apps untersucht. Dabei sind wir auf Programme wie »AI Doctor« (verfügbar im Google Play Store) gestoßen, die sich als virtuelle Ärzte ausgeben, aber gefährliche Fehleinschätzungen treffen – etwa bei Suizidgefährdung oder lebensbedrohlichen Erkrankungen.
Diese Apps sind nicht nur medizinisch bedenklich, sondern auch illegal auf dem Markt, da sie keine CE-Kennzeichnung haben. Allerdings wäre es falsch, mit einem »Herr-der-Ringe«-Ansatz à la »Gandalf, du kommst hier nicht rein« zu reagieren. Stattdessen müssen wir die Regulierungsprozesse an die neue Technologie anpassen.
Ein vielversprechender Ansatz ist die Einführung eines verbesserten Feedback-Systems. In Großbritannien gibt es das »Yellow-Card«-System, mit dem Ärzte und Patienten Probleme mit Medikamenten melden können. Wir arbeiten an einem ähnlichen System für KI-gestützte medizinische Anwendungen. Die Idee ist, dass Nutzende Probleme direkt aus der App heraus melden können – ähnlich wie bei App-Bewertungen, aber mit direkter Anbindung an die Aufsichtsbehörden.
Parallel dazu entwickeln wir neue Konzepte für die Vorab-Prüfung solcher Systeme, etwa durch »Sandboxes« und »Living Labs«, wo Entwickler, Regulierungsbehörden und Forschende gemeinsam an sicheren Lösungen arbeiten können. Diese Ansätze sind auch Teil der europäischen KI-Regulierung, für die ich als Experte die EU-Kommission berate.
Ich bin grundsätzlich optimistisch, was das Potenzial der großen Sprachmodelle – auch in der Medizin – angeht. Die Entwicklung von KI im Gesundheitssektor verläuft in den USA und Europa allerdings unterschiedlich schnell. In den USA kommen bereits zahlreiche Produkte und jetzt auch vermehrt KI-Agenten auf den Markt, besonders im Bereich der Dokumentation und Umgebungserfassung. Europa folgt diesem Trend, allerdings deutlich langsamer und bisher mit konservativeren Ansätzen und Technologien. Die Entwicklung wird sich aber auch hier in Richtung medizinischer Entscheidungsfindung bewegen.
Allerdings müssen alle Hersteller die identifizierten Probleme systematisch angehen. Der Erfolg wird Firmen gehören, die Sicherheit und Zuverlässigkeit in den Mittelpunkt stellen. Das mag bedeuten, dass wir bewährte Technologien mit neuen KI-Systemen kombinieren müssen – auch wenn das manchen KI-Enthusiasten als Rückschritt erscheinen mag. In der Medizin geht es jedoch nicht darum, die modernste oder aufregendste Technologie einzusetzen, sondern die sicherste für die Patientinnen und Patienten.
Ich bin überzeugt, dass dieser europäische Ansatz sich letztlich weltweit durchsetzen wird. Denn weder die Öffentlichkeit noch Regulierungsbehörden – sei es die EU-Kommission oder die FDA – werden fehlerhafte medizinische Informationen tolerieren. Ein »manchmal stimmt es« reicht eben nicht, wenn Patientinnen und Patienten extreme Gefahren drohen. Wir können es uns in der Medizin nicht leisten, die Grenze zwischen Wahrheit und Unwahrheit zu verwischen. (uh)