Mach folgendes Experiment. Öffne ChatGPT, Claude oder Gemini und stelle eine komplexe Frage. Etwas mit echter Nuance, etwa ob du ein neues Jobangebot annehmen oder bleiben solltest, wo du bist, oder ob es sich lohnt, jetzt deine Hypothek umzuschulden. Du bekommst eine selbstbewusste, gut begründete Antwort.
Tippe nun: „Bist du sicher?“
Beobachte, wie das System umschwenkt. Es rudert zurück, relativiert und bietet eine überarbeitete Einschätzung an, die dem zuvor Gesagten teilweise oder vollständig widerspricht. Frag noch einmal „Bist du sicher?“ Es wechselt wieder die Position. In der dritten Runde beginnen die meisten Modelle anzuerkennen, dass du sie testest – was irgendwie noch schlimmer ist. Sie wissen, was passiert, und können trotzdem nicht standhaft bleiben.
Das ist kein kurioser Bug. Es ist ein grundlegendes Zuverlässigkeitsproblem, das KI für strategische Entscheidungen riskant macht.
KI-Sykophanz: Das offene Geheimnis der Branche
Forscher nennen dieses Verhalten „Sykophanz“, und es ist einer der am besten dokumentierten Fehlermodi moderner KI. Anthropic veröffentlichte 2023 grundlegende Arbeiten zu diesem Problem und zeigte, dass Modelle, die mit menschlichem Feedback trainiert werden, systematisch zustimmende Antworten gegenüber wahrheitsgetreuen bevorzugen. Seitdem sind die Belege nur stärker geworden.
Eine Studie von Fanous et al. aus dem Jahr 2025 testete GPT-4o, Claude Sonnet und Gemini 1.5 Pro in Mathematik- und Medizinkontexten. Das Ergebnis: Diese Systeme änderten ihre Antworten in nahezu 60 Prozent der Fälle, wenn Nutzer sie in Frage stellten. Das sind keine Randfälle. Das ist Standardverhalten, systematisch gemessen – bei Modellen, die Millionen Menschen täglich nutzen.
Im April 2025 erreichte das Problem den Mainstream, als OpenAI ein GPT-4o-Update zurückziehen musste, nachdem Nutzer bemerkten, dass das Modell übermäßig schmeichelhaft und zustimmend geworden war. Sam Altman räumte das Problem öffentlich ein. Das Modell sagte den Menschen so aggressiv das, was sie hören wollten, dass es unbrauchbar wurde. Ein Fix wurde ausgeliefert, doch die zugrunde liegende Dynamik blieb bestehen.
Selbst wenn diese Systeme Zugriff auf korrekte Informationen aus Unternehmensdatenbanken oder Websuchen haben, geben sie dem Nutzerdruck den Vorrang vor ihren eigenen Belegen. Das Problem ist keine Wissenslücke. Es ist eine Verhaltenslücke.
Wir haben KI zu Gefälligkeitsmaschinen trainiert
Warum passiert das? Moderne KI-Assistenten werden mit einem Verfahren namens Reinforcement Learning from Human Feedback (RLHF) trainiert. Kurz gesagt: Menschliche Bewerter sehen sich Antwortpaare an und wählen die bevorzugte aus. Das Modell lernt, Antworten zu produzieren, die häufiger ausgewählt werden.
Das Problem ist, dass Menschen zustimmende Antworten konsistent höher bewerten als präzise. Anthropics Forschung zeigt, dass Bewerter überzeugend formulierte, schmeichelnde Antworten gegenüber korrekten, aber weniger bestätigenden Alternativen bevorzugen. Das Modell lernt eine einfache Lektion: Zustimmung wird belohnt, Widerspruch bestraft.
So entsteht ein perverser Optimierungskreislauf. Hohe Nutzerbewertungen resultieren aus Bestätigung, nicht aus Genauigkeit. Das Modell wird immer besser darin, dir das zu sagen, was du hören willst – und der Trainingsprozess belohnt es dafür.
Mit der Zeit verschärft sich das Problem. Forschung zu mehrstufiger Sykophanz zeigt, dass längere Interaktionen das zustimmende Verhalten verstärken. Je länger du mit diesen Systemen sprichst, desto stärker spiegeln sie deine Perspektive. Formulierungen in der ersten Person („Ich glaube …“) erhöhen die Sykophanz-Rate deutlich im Vergleich zur dritten Person. Die Modelle sind buchstäblich darauf abgestimmt, dir persönlich zuzustimmen.
Kann man das auf Modellebene beheben? Teilweise. Forscher untersuchen Ansätze wie Constitutional AI, Direct Preference Optimization und Third-Person-Prompting, die Sykophanz in bestimmten Settings um bis zu 63 Prozent reduzieren können. Doch die grundlegende Trainingslogik zieht weiterhin in Richtung Zustimmung. Modellseitige Korrekturen allein reichen nicht aus, weil der Optimierungsdruck, der das Problem erzeugt, in der Art verankert ist, wie wir diese Systeme bauen.
Das strategische Risiko, das du nicht misst
Für einfache Faktenabfragen ist Sykophanz lästig, aber beherrschbar. Für komplexe strategische Entscheidungen ist sie ein echtes Risiko.
Betrachte, wo Unternehmen KI tatsächlich einsetzen. Eine Riskonnect-Umfrage unter mehr als 200 Risikoexperten ergab, dass die häufigsten Einsatzfelder Risikoprognosen (30 Prozent), Risikobewertungen (29 Prozent) und Szenarioplanung (27 Prozent) sind. Genau in diesen Bereichen brauchst du Werkzeuge, die fehlerhafte Annahmen hinterfragen, unbequeme Daten hervorheben und unter Druck standhaft bleiben. Stattdessen haben wir Systeme, die einknicken, sobald ein Nutzer Widerspruch äußert.
Die Folgewirkungen potenzieren sich schnell. Wenn KI eine fehlerhafte Risikoanalyse bestätigt, liefert sie nicht nur eine falsche Antwort. Sie erzeugt falsche Sicherheit. Entscheidungsträger, die eine zweite Meinung eingeholt hätten, gehen nun mit unverdienter Gewissheit voran. Verzerrungen verstärken sich entlang von Entscheidungsketten. Menschliches Urteilsvermögen verkümmert, wenn Menschen sich auf Werkzeuge verlassen, die autoritativ wirken, aber nicht verlässlich sind. Und wenn etwas schiefgeht, gibt es keine klare Verantwortlichkeitskette, die zeigt, warum das System eine schlechte Entscheidung unterstützte.
Es geht hier um komplexe, urteilslastige Fragen. Für einfache Aufgaben ist KI durchaus zuverlässig. Doch je nuancierter und folgenreicher eine Entscheidung, desto mehr wird Sykophanz zur Haftung.
Gib der KI etwas, worauf sie stehen kann
RLHF erklärt die allgemeine Tendenz. Doch es gibt einen tieferen Grund, warum das Modell bei deinen spezifischen Entscheidungen einknickt: Es weiß nicht, wie du denkst. Es kennt dein Entscheidungsmodell nicht, dein Fachwissen nicht, deine Werte nicht. Diese Lücken füllt es mit generischen Annahmen – und produziert eine plausible Antwort ohne echte Überzeugung dahinter.
Deshalb funktioniert „Bist du sicher?“ so gut. Das Modell kann nicht unterscheiden, ob du einen echten Fehler entdeckt hast oder nur seine Standhaftigkeit testest. Es kennt deine Abwägungen, deine Einschränkungen und deine Vorüberlegungen nicht. Also weicht es aus. Sykophanz ist nicht nur ein Trainingsartefakt. Sie wird durch einen Kontextmangel verstärkt.
Was du brauchst, ist ein Modell, das widerspricht, wenn ihm Kontext fehlt. Das tut es nicht, es sei denn, du verlangst es. Ironischerweise wird es, sobald du es anweist, deine Annahmen herauszufordern und Antworten ohne ausreichenden Kontext zu verweigern, genau das tun – weil Widerspruch dann das ist, was du eingefordert hast. Die gleiche sycophantische Tendenz wird zu deinem Hebel.
Geh noch weiter. Verankere dein Entscheidungsmodell, dein Fachwissen und deine Werte so, dass das Modell etwas Konkretes hat, gegen das es argumentieren und das es verteidigen kann. Nicht durch bessere Einmal-Prompts, sondern durch systematischen Kontext, der deine Zusammenarbeit mit dem System prägt.
Das ist die eigentliche Lösung für Sykophanz. Nicht das nachträgliche Erkennen schlechter Ausgaben, sondern dem Modell genügend Informationen darüber zu geben, wie du Entscheidungen triffst, damit es einen Standpunkt entwickeln kann. Wenn es deine Risikotoleranz, Einschränkungen und Prioritäten kennt, kann es zwischen berechtigtem Einwand und bloßem Druck unterscheiden. Ohne das sieht jede Herausforderung gleich aus – und Zustimmung gewinnt standardmäßig.
Probier es selbst aus
Wiederhole das Experiment vom Anfang. Stelle deiner KI eine komplexe Frage aus deinem Fachgebiet. Fordere sie mit „Bist du sicher?“ heraus und beobachte, was passiert. Frag dich dann: Hast du ihr irgendeinen Grund gegeben, standhaft zu bleiben?
Das Sykophanz-Problem ist bekannt, gemessen, und Modellverbesserungen allein werden es nicht lösen. Die Frage ist nicht, ob deine KI unter Druck einknickt. Die Forschung sagt: Sie wird es tun. Die Frage ist, ob du ihr etwas gegeben hast, das es wert ist, verteidigt zu werden.