Eignen sich Chatbots für eine Erstuntersuchung im Notfall? Können Large-Language-Modelle Ärzte ersetzen? Ein Team der TU München hat erstmals systematisch untersucht, ob und wie zuverlässig Medizin-Chatbots im Krankenhaus arbeiten - die Testumgebung steht jetzt jedem Medtech-Entwickler offen.
Ein Team der Technischen Universität München (TUM) hat untersucht, ob Künstliche Intelligenz (KI) für den Klinikalltag geeignet ist. Die Forschenden kamen zu dem Schluss, dass es derzeit grob fahrlässig wäre, Medizin-Chatbots für Diagnosen heranzuziehen. Die Open-Source-Chatbots treffen vorschnelle Diagnosen, halten sich nicht an Richtlinien und könnten das Leben von Patientinnen und Patienten gefährden.
Trotz dieser Bedenken sehen die Forschenden Potenzial in der Technologie. Sie haben ein Verfahren entwickelt, um die Zuverlässigkeit zukünftiger Medizin-Chatbots zu testen.
Large-Language-Models sind Computerprogramme, die mit großen Mengen Text trainiert wurden. Speziell trainierte Varianten dieser Technologie wie die hinter ChatGPT bestehen mittlerweile nahezu fehlerfrei Abschlussexamen im Medizinstudium. Doch könnten solche KIs auch die Aufgaben von Ärztinnen und Ärzten in einer Notaufnahme übernehmen? Könnten sie anhand der Beschwerden die passenden Tests anordnen, die richtige Diagnose stellen und einen Behandlungsplan entwerfen?
Ein Team aus Ärzten und KI-Experten um Daniel Rückert, Professor für Artificial Intelligence in Healthcare and Medicine an der TUM, hat erstmals systematisch untersucht, wie erfolgreich verschiedene Varianten des Open-Source-Large-Language-Models Llama 2 bei der Diagnose sind.
Forschende testeten die Fähigkeiten komplexer Algorithmen mit anonymisierten Daten von Patientinnen und Patienten einer US-Klinik. Sie wählten 2.400 Fälle aus einem größeren Datensatz aus. Alle Betroffenen kamen mit Bauchschmerzen in die Notaufnahme. Die Fallbeschreibungen endeten jeweils mit einer von vier Diagnosen und einem Behandlungsplan. Alle relevanten Daten, von der Krankengeschichte über Blutwerte bis hin zu Bildgebungsdaten, standen zur Verfügung.
»Wir bereiteten die Daten so auf, dass die Algorithmen die realen Abläufe und Entscheidungsprozesse im Krankenhaus nachspielen konnten«, erklärt Friederike Jungmann, Assistenzärztin in der Radiologie des Klinikums rechts der Isar der TUM und gemeinsam mit dem Informatiker Paul Hager Erstautorin der Studie. »Das Programm erhielt nur die Informationen, die auch die realen Ärztinnen und Ärzte hatten. Es musste selbst entscheiden, ob es beispielsweise ein Blutbild in Auftrag gibt, und dann mit dieser Information die nächste Entscheidung treffen, bis es schließlich eine Diagnose und einen Behandlungsplan erstellte.«
Das Team stellte fest, dass keines der Large-Language-Models durchgängig alle notwendigen Untersuchungen anforderte. Tatsächlich wurden die Diagnosen der Programme weniger zutreffend, je mehr Informationen sie zu dem Fall hatten. Behandlungsrichtlinien befolgten sie oft nicht. Die KI ordnete beispielsweise Untersuchungen an, die für echte Patienten schwere gesundheitliche Folgen gehabt hätten.
Im zweiten Teil der Studie verglichen die Forschenden KI-Diagnosen einer Teilmenge des Datensatzes mit Diagnosen von vier Ärztinnen und Ärzten. Während die Ärztinnen und Ärzte bei 89 Prozent der Diagnosen richtig lagen, erreichte das beste Large-Language-Model nur 73 Prozent. Jedes Modell erkannte manche Erkrankungen besser als andere. In einem Extremfall diagnostizierte ein Modell Gallenblasenentzündungen nur in 13 Prozent der Fälle korrekt.
Ein weiteres Problem der Programme ist der Mangel an Robustheit: Welche Diagnose ein Large-Language-Model stellte, hing unter anderem von der Reihenfolge der erhaltenen Informationen ab. Auch linguistische Feinheiten beeinflussten das Ergebnis – beispielsweise ob das Programm um eine »Main Diagnosis«, eine »Primary Diagnosis« oder eine »Final Diagnosis« gebeten wurde. Im Klinikalltag sind diese Begriffe in der Regel austauschbar.
Das Team testete nicht die kommerziellen Large-Language-Models von OpenAI (ChatGPT) und Google. Dafür gibt es zwei wesentliche Gründe. Zum einen untersagt der Anbieter der Krankenhausdaten aus Datenschutzgründen die Verarbeitung mit diesen Modellen. Zum anderen sollte im Gesundheitssektor ausschließlich Open-Source-Software zum Einsatz kommen. »Nur mit Open-Source-Software haben Krankenhäuser die Informationen und die nötige Kontrolle, um die Sicherheit der Patientinnen und Patienten zu gewährleisten. Wenn es darum geht, Large-Language-Models zu bewerten, müssen wir wissen, mit welchen Daten sie trainiert wurden. Sonst könnte es sein, dass wir für die Bewertung genau die Fragen und Antworten verwenden, mit denen sie trainiert wurden. Da Unternehmen die Trainingsdaten streng unter Verschluss halten, würde eine faire Bewertung erschwert«, sagt Paul Hager.
»Es ist auch gefährlich, wichtige medizinische Infrastrukturen von externen Dienstleistern abhängig zu machen, die ihre Modelle nach Belieben aktualisieren und ändern können. Im Extremfall könnte ein Dienst, den Hunderte von Kliniken nutzen, eingestellt werden, weil er nicht mehr rentabel ist. « |
---|
Paul Hager, Informatiker und Erstautor der Studie |
Die Entwicklung dieser Technologie verläuft sehr schnell. »Es ist gut möglich, dass in absehbarer Zeit ein Large-Language-Model besser dafür geeignet ist, aus Krankengeschichte und Testergebnissen auf eine Diagnose zu kommen«, sagt Prof. Daniel Rückert. »Wir haben deshalb unsere Testumgebung für alle Forschungsgruppen freigegeben, die Large-Language-Models für den Klinikkontext testen wollen.«
Rückert sieht also trotz der vielen Fehldiagnosen und aktuellen Unzulänglichkeiten Potenzial in der Technologie: »Large-Language-Models könnten in Zukunft wichtige Werkzeuge für Mediziner werden, mit denen sich beispielsweise ein Fall diskutieren lässt. Wir müssen uns aber immer der Grenzen und Eigenheiten dieser Technologie bewusst sein und diese beim Erstellen von Anwendungen berücksichtigen«, sagt der Medizin-KI-Experte. (uh)