Digitale, diagnostische Workflows

MIRA: Wenn der KI-Agent die Notaufnahme übernimmt

18. Juni 2026, 09:04 Uhr | Elektronik medical (uh)
Der KI-Agent MIRA soll Ärzten im Krankenhaus helfen, durch die elektronische Patientenakte zu navigieren und von Diagnose bis Therapie unterstützen.
© EKFZ

Klinische KI-Agenten, die Ärzte durch die elektronische Patientenakte führen und eigenständig Laborwerte anfordern, Befunde interpretieren und Therapieentscheidungen vorbereiten? Dresdner Forscher haben MIRA in über 500 Patientenfällen getestet. Mit 88,9% Genauigkeit übertrifft das Modell Fachärzte.

Diesen Artikel anhören

Die Arbeit in der Notaufnahme gleicht für Ärzte oft Hirn-Tetris auf Speed: drei Patienten gleichzeitig, Laborbefunde noch ausstehend. Die Bildgebung braucht 40 Minuten – in denen Anamnesen erhoben, Medikamenteninteraktionen geprüft und Einweisungsentscheidungen vorbereitet werden müssen. Parallel, unter Zeitdruck, mit lückenhafter Datenlage. Wer in diesem Moment auf einen hilfreichen KI-Assistenten wartet, wartet bislang vergeblich: Die meisten klinischen KI-Tools lösen Einzelprobleme, sind nicht in den übergeordneten Workflow integriert und stoppen dort, wo es kompliziert wird.

Genau diese Lücke adressiert MIRA – Medical Intelligence for Reasoning and Action. Das Forschungsteam um Prof. Jakob N. Kather vom Else Kröner Fresenius Zentrum (EKFZ) für Digitale Gesundheit an der TU Dresden hat einen autonomen KI-Agenten entwickelt, der innerhalb elektronischer Patientenakten den gesamten diagnostischen Workflow abbildet: von der Anamnese bis zur Therapieentscheidung, in einem durchgängigen Prozess. Die Studie erschien jetzt in Nature.

Kein freies Reasoning – sondern 85.000 definierte Optionen

Was MIRA von einem generischen LLM-Chatbot im Klinikkontext unterscheidet, ist die Architektur: Der Agent operiert nicht im offenen Reasoning-Modus, sondern greift per Function Calling auf einen explizit definierten Aktionsraum zu – elf klinische Tools, über 85.000 Handlungsoptionen. Die gesamte Kommunikation mit dem EHR läuft über HL7-FHIR-Requests, eingebettet in sechs medizinische Codierstandards: ICD, LOINC, ATC, NDC, RxNorm und SNOMED-CT. Für KI-Entwickler im regulierten Umfeld ist das ein praktischer Vorteil: Jedes Tool kann separat validiert und zugelassen werden – statt das Gesamtsystem als Black Box durch die MDR-Konformitätsbewertung zu bringen.

Virtuelle Patienten, die nicht schummeln

Für die retrospektive Studie nutzten die Dresdner mehr als 574 reale Fälle aus dem MIMIC-IV-Datensatz, nachgebildet in einer simulierten Notaufnahme mit acht Krankheitsbildern – von Appendizitis bis Lungenembolie. MIRA arbeitete dabei nicht mit statischen Akten, sondern mit einem separaten Patient-AI-Agent – einem LLM, das ausschließlich auf Basis der dokumentierten ‘History of Present Illness’ antwortet und keine Informationen vorausnimmt.

Ob das zuverlässig funktioniert, haben die Forscher explizit gemessen: Über 622 Frage-Antwort-Paare hinweg produzierte der Agent in 99,4% der Fälle konsistente Antworten auf semantisch äquivalente Fragen, blieb in 99,3% treu zur dokumentierten HPI – und zeigte null vorzeitige Diagnose-Leaks, auch unter 880 gezielten Adversarial-Attack-Prompts. MIRA musste mit Informationen arbeiten, die schrittweise eintrafen und teils fehlten – nicht mit vollständig aufbereiteten Akten.

88,9% diagnostische Genauigkeit

Über alle 574 Fälle erzielte MIRA eine durchschnittliche diagnostische Genauigkeit von 88,9%. Darunter waren erwartbare Ausreißern nach oben, bei Appendizitis 98,6% und Pankreatitis 92,3%, und ebenso nach unten, bei Pneumonie 72,4% und bei Harnwegsinfekten 77,6%. Im direkten Head-to-Head auf identischen Fällen (n=311) überflügelte MIRA beide Vergleichsgruppen signifikant: 87,8% gegenüber 78,1% bei Fachärzten (p<0,001) und 71,1% bei der gemischten Kohorte aus Assistenz- und Fachärzten (p<0,001). Bei Pankreatitis war der Abstand am deutlichsten: 95,2% versus 78,6% der Fachärzte.

Dyke Ferber, Mediziner und Erstautor der Studie, fasst zusammen:

»MIRA erkannte fehlende Informationen, forderte Untersuchungen an, interpretierte leitliniengerecht Befunde und bereitete Therapieentscheidungen vor. KI-Tools sollen medizinisches Fachpersonal unterstützen und mehr Zeit für die Patientenversorgung schaffen – gleichzeitig müssen sie höchsten Anforderungen an Sicherheit, Transparenz und Verlässlichkeit genügen.«

Auch bei den Interventionsentscheidungen lag MIRA vorn: 53,5% korrekte Prozedur-Matches gegenüber 38,3% der Fachärzte. Bei der Leitlinienadhärenz übertraf MIRA beide Arztgruppen im Mittel um 35 Prozentpunkte.

Null schwerwiegende Fehler, drei Warnzeichen

Das Safety-Profil über 56 Patienten und 468 Verschreibungen ist solide: keine schwerwiegenden Medikamenteninteraktionen, kein Dosierungsfehler bei eingeschränkter Nierenfunktion, kein Allergie-Mismatch, kein QT-Risiko-Prescribing. Drei Fälle therapeutischer Duplikation wurden identifiziert – Ondansetron-Doppelverordnung, überlappende Warfarin/Enoxaparin-Gabe. Keine dramatischen Fehler, aber präzise genug, um den Punkt zu machen: Ein System, das 468 Verschreibungen ohne schwerwiegenden Fehler durchläuft, braucht trotzdem patientenseitige Kontrollmechanismen. Drei Duplikationen sind drei zu viel, wenn das System irgendwann real läuft.

Der Autopilot–Vergleich

Prof. Kather vergleicht MIRA mit dem Autopiloten im Flugzeug: »Solche Systeme können medizinisches Fachpersonal unterstützen und entlasten, indem sie Routineaufgaben übernehmen – aber die Verantwortung bleibt letztendlich immer beim ärztlichen Personal.« Der Vergleich ist eingängig – jedoch auch an einer Stelle unscharf. Autopiloten operieren in physikalisch definierten Zustandsräumen mit messbaren Größen. Klinische Entscheidungen sind kontextabhängig, oft fehlt es an Daten, der rechtliche Rahmen ist schärfer gesetzt. Was MIRA vom Autopiloten-Prinzip tatsächlich übernimmt: Jede Handlung ist an einen nachvollziehbaren Toolaufruf gebunden – nicht die Autonomie ist das Neue, sondern die Zurückverfolgbarkeit.

Jedoch ist einschränkend zu sagen: Alle Tests liefen in einer geschlossenen EHR-Sandbox auf retrospektiven Daten – kein echter Patient, kein echter Zeitdruck, keine ungeplante Dokumentationslücke. Das Paper nennt prospektive Real-World-Studien selbst als nächsten Schritt. (uh)


D. Ferber et al.: Towards Autonomous Medical Artificial Intelligence Agents, Nature 2026.
DOI: 10.1038/s41586-026-10675-5

Anbieter zum Thema

zu Matchmaker+

Lesen Sie mehr zum Thema