Künstliche Intelligenz: Wie Patienten durch ChatGPT und Diagnose-Apps verunsichert werden
Marzena SickingImmer mehr Menschen nutzen KI-gestützte Tools wie ChatGPT, um ihre Symptome zu bewerten und sich schon vor dem Arztbesuch medizinisch zu orientieren. Zwei aktuelle Studien der TU Berlin zeigen: Das kann gut gemeint sein, aber nicht nur für die Patienten kontraproduktiv enden. Auch Ärztinnen und Ärzte stehen zunehmend vor der Herausforderung, mit mitgebrachten digitalen Selbstdiagnosen souverän umgehen zu müssen.
KI im Test: Studien untersuchen ChatGPT und Symptom-Checker-Apps
Künstliche Intelligenz ist keine abstrakte Zukunftsvision mehr, sondern hält zunehmend Einzug in den Alltag der Menschen. Online-Tools wie Google Gemini, Perplexity und allen voran Marktführer ChatGPT sind besonders beliebt. Die Programme können auch nach medizinischen Informationen suchen und Symptome den dazu passenden Krankheiten zuordnen – aber sind sie damit auch ein sinnvoller (Erst-)Ratgeber für Patientinnen und Patienten? Dieser Frage gingen Wissenschaftler der TU Berlin in gleich zwei Studien des Fachgebiets Arbeitswissenschaft nach.
Das Forschungsteam um Dr. Marvin Kopka entwickelte dazu ein Testverfahren, das nicht auf idealtypischen Lehrbuchdiagnosen basiert, sondern auf realen Patientenfällen. In den beiden Studien wurden KI-Modelle (vorrangig ChatGPT, aber auch andere Tools wie LLaMa) sowie sogenannte Symptom-Checker-Apps mit Alltagssymptomen konfrontiert, wie sie häufig auch in der hausärztlichen Sprechstunde vorkommen. Ziel war es, zu prüfen, wie realistisch, hilfreich und differenziert die Ergebnisse und die dazugehörigen Empfehlungen der digitalen Tools tatsächlich sind. „Man kann unsere standardisierte Methode als eine Art ‚Stiftung Warentest‘ ansehen, da wir mit ihr die Genauigkeit von verschiedenen Apps vergleichen können, aber auch ihre Stärken und Schwächen finden“, sagt Studienleiter Marvin Kopka. Die Ergebnisse zeigen außerdem, warum der Einsatz von KI durch Patienten für Praxen zunehmend zum Problem werden kann.
Symptom-Checker liefern konkretere Empfehlungen
So schneiden die getesteten Symptom-Checker-Apps zumindest in der Ersteinschätzung deutlich besser ab als ChatGPT und könnten für Patienten somit durchaus hilfreich sein. Insbesondere, wenn es darum geht, zwischen harmlosen Beschwerden und möglichen Notfällen zu unterscheiden, liefern die Apps eine deutlich realistischere Einschätzung als die anderen getesteten KI-Modelle und in den meisten Fällen auch fundierte und angemessene Handlungsempfehlungen.
Bei den in ChatGPT gestellten Anfragen lief es nicht so entspannt: Die KI reagierte bei den meisten Symptomen übertrieben vorsichtig. So wurde beinahe jeder Fall als potenziell behandlungsbedürftig eingestuft und dem Patienten wurde zu einem baldigen Arztbesuch geraten. Zwar gibt es auch andere Studien, die belegen, dass ChatGPT durchaus in der Lage ist, Krankheiten korrekt zu diagnostizieren. Das gilt aber vor allem für die Fälle, in denen bereits Laborwerte oder andere ärztliche Untersuchungsergebnisse vorliegen. Das Problem hierbei: Medizinische Laien nutzen ChatGPT & Co. häufig schon vor dem ersten Arztbesuch, also für die Ersteinschätzung ihrer Symptome. Hier bleibt die Diagnose aber oft ungenau oder der Nutzer bekommt gleich eine komplette Liste mit infage kommenden Erkrankungen. Dies hilft den Betroffenen wenig und ist eher dazu geeignet, übertriebene Ängste zu schüren.
Wie ChatGPT für volle Arztpraxen und Notaufnahmen sorgt
Aus Sicht der KI beziehungsweise ihrer Entwickler sind die Ergebnisse durchaus nachvollziehbar. Liegen keine genauen Gesundheitsdaten vor, werden eben alle infrage kommenden Ergebnisse ausgegeben. Und um sich rechtlich abzusichern, gibt es die Empfehlung des Arztbesuchs direkt hinterher. Bei betroffenen Patienten führt das aus nachvollziehbaren Gründen jedoch zu Unsicherheit – und zu unnötig häufigen Arztbesuchen, wie die Wissenschaftler bestätigen: „Dass immer mehr Menschen ChatGPT für medizinische Ratschläge nutzen, ist schädlich für das Gesundheitssystem. Die KI motiviert die Nutzer häufig dazu, bei den kleinsten Symptomen sofort einen Arzt oder die Notaufnahme aufzusuchen. Das kann zu einer massiven Überlastung führen", warnt Kopka.
Menschen vertrauen KI-Diagnosen nicht blind
In einer zweiten Studie analysierten die Forschenden, wie Anwender in der Praxis auf Empfehlungen der genannten KI-Tools reagieren. In Beobachtungen und bei einer Befragung von rund 600 Teilnehmenden zeigte sich: Nutzer übernehmen die Vorschläge in der Regel nicht unkritisch, sondern vergleichen sie zunächst mit anderen Quellen wie Google oder Ratschlägen von Familie und Freunden. Zudem wurde deutlich, dass die meisten Menschen tatsächliche Notfälle in der Regel schnell erkennen und entsprechend handeln. Das Problem liegt eher darin, einfache und zunächst undramatisch wirkende Symptome richtig einzuschätzen. Sucht man dann bei ChatGPT oder einer anderen KI Hilfe, ist es nicht unwahrscheinlich, dass die Betroffenen zu viele und teils unverständliche Informationen von den digitalen Tools bekommen und diese dann erst recht nicht einordnen können, so Kopka. "Das erzeugt Angst und sie suchen dann den Expertenrat in der Notaufnahme oder beim Hausarzt – auch bei harmlosen Beschwerden, so wie es ihnen ChatGPT empfiehlt“.
Wie Hausärzte auf Patienten mit KI-Diagnosen reagieren sollten
Für Arztpraxen und Kliniken bedeutet das: Die zunehmende Nutzung von ChatGPT bringt eine neue Herausforderung in ihre Sprechstunde. Denn Patienten kommen nicht nur mit ihren Beschwerden, sondern mit übertriebenen Befürchtungen oder Erwartungen, die sie auf KI-Antworten oder digitale Selbsteinschätzungen stützen. Die Herausforderung liegt darin, den Patienten genau an dieser Stelle einzufangen: Ihm zu zeigen, dass man sein Interesse würdigt und ernst nimmt, aber gleichzeitig weiterhin der bessere Ansprechpartner ist, um die Symptome medizinisch korrekt einzuordnen.
Die Botschaft an den Patienten muss sein, was schon die aktuellen Studien verdeutlichen: Ohne individuelle Daten bleibt selbst das beste KI-Modell weitestgehend spekulativ und kann eine fundierte ärztliche Diagnose nicht ersetzen. Praxisteams sollten deshalb aktiv darüber aufklären, was KI und Diagnose-Apps können und was nicht. Geeignete Maßnahmen sind etwa Informationsblätter im Wartezimmer, gezielte Empfehlungen geprüfter Symptom-Checker-Apps oder auch intensive Gespräche, damit Patienten nicht unnötig die Wartezimmer füllen, weil sie ChatGPT-Antworten für medizinische Tatsachen halten.
Quelle:Marvin Kopka et al.: The RepVig framework for evaluating triage accuracy (Scientific Reports, 2024) https://www.nature.com/articles/s41598-024-83844-z, Marvin Kopka et al.: Technology-Supported Self-Triage Decision Making (npj Health Systems, 2024) https://www.nature.com/articles/s44401-024-00008-x