LLMs lernen schnell, scheitern aber weiterhin am „Humanity’s Last Exam“ – SciFi

Für manche Menschen ist künstliche Intelligenz in Form verschiedener Large Language Models (LLMs) wie Gemini, GPT, Grok oder Claude so etwas wie der (bis auf Weiteres) letzte Hort allen Wissens. Sie behandeln sie wie das große Lexikon, in dem alles verzeichnet ist, was Menschen jemals gewusst, geforscht, untersucht, spekuliert oder argumentiert haben (und was nicht der Vergessenheit anheim gefallen ist, versteht sich). Manche erwarten sich von künstlicher Intelligenz vielleicht sogar mehr als „nur“ Aufklärung, nämlich eine Art Urteilsvermögen als Resultat der Abwägung von Daten und Fakten gegeneinander auf der Basis von Algorithmen, die eine vernünftige Entscheidungsfindung anleiten sollen.

Kurz gesagt erwarten manche Menschen von künstlicher Intelligenz, dass sie über alles Bescheid weiß und über Ideologie weitgehend erhaben ist; sie erwarten von KI nichts weniger als Allwissenheit im Sinn von Alles-Wissen-Was-Es-Derzeit-Zu-Wissen-Gibt, samt des „richtigen“ Ins-Verhältnis-Setzens der Dinge zueinander. (Wie sonst wäre es möglich, dass sich manche von LLMs Lebensberatung erwarten und sie wie Therapeuten behandeln?!)

Von dieser Vorstellung aus ist es nicht mehr weit bis zu dem Gedanken, dass KI Menschen nicht nur was Faktenwissen betrifft überlegen ist und menschliche Expertise und menschliche Dienstleistungen hinter derjenigen/denjenigen, die KI hat/erbringen kann, zurückbleibt, so dass Menschen (diesbezüglich) obsolet werden. Ideologisch bedingte Bevorzugungen mancher Daten, Literatur etc. gegenüber anderen/-r werden dann oft, wenn sie überhaupt von Nutzern von LLMs erkannt und als existent eingeräumt werden, als kleinere Mängel oder ggf. sogar (zwecks Erziehung der „Massen“) als wünschenswertoder notwendig angesehen. Das alles mag der Stoff sein, aus dem Science Fiction-Romane sind, aber es ist nicht das, was (bis auf Weiteres) die Realität angemessen beschreibt.

Unbestreitbar ist, dass LLMs Bemerkenswertes leisten und in den letzten Jahren große Fortschritte gemacht haben:

„The performance of open-source LLMs have steadily improved, and the size of models for achieving the same performance is shrinking … the release of ChatGPT spurred a surge of open-source models with rapid performance improvements. These models have increasingly rivaled closed-source counterparts, culminating in Deepseek V3 surpassing GPT-4 on the MMLU benchmark … Concurrently, the model size required for comparable performance has steadily decreased; for instance, while a 70B model like LLaMA-2-70B was needed to match GPT-3.5 in July 2023 …, a 9B model such as Yi-1.5-9B was sufficient by May 2024 …“ (Wang et al. 2025: 3),

d.h.

„Die Leistung von Open-Source-LLMs hat sich stetig verbessert und die Größe der Modelle zur Erzielung derselben Leistung schrumpft …die Veröffentlichung von ChatGPT [löste] einen Anstieg von Open-Source-Modellen mit schnellen Leistungsverbesserungen aus. Diese Modelle konnten zunehmend mit ihren Closed-Source-Pendants mithalten, was schließlich darin gipfelte, dass Deepseek V3 GPT-4 beim MMLU-Benchmark[-Test] übertraf … Gleichzeitig hat sich die für eine vergleichbare Leistung erforderliche Modellgröße stetig verringert; während beispielsweise im Juli 2023 noch ein 70-B-Modell wie LLaMA-2-70B erforderlich war, um mit GPT-3.5 gleichzuziehen …, reichte im Mai 2024 bereits ein 9-B-Modell wie Yi-1.5-9B hierfür aus …“.

Die wachsende Effektivität und Effizienz, die LLMs erzielen, werden oft als Indikator dafür angesehen, dass LLMs insgesamt immer intelligenter oder menschenähnlicher würden, „… potentially outstripping human-level performance, on a wide range of real-world tasks“ (Fodor 2025: 1), d.h. so dass sie „… möglicherweise bei einer Vielzahl von alltagsrelevanten Aufgaben die Leistungsfähigkeit des Menschen übertreffen“ (wobei Fodor selbst dieser Auffassung höchst skeptisch gegenübersteht).

Dieser Eindruck wird vermutlich von vielen Menschen geteilt, die erstmals in den letzten Jahren und in sehr vielen verschiedenen Bereichen – z.B. in Form von Übersetzungsprogrammen, Einkaufsberatern wie Amazons „Rufus“, in Form von medizinischer Beratung z.B. durch GatorTron, ChatDoctor oder Med-PaLM u.v.a.m. – eigene, direkte und vermutlich überwiegend positive Erfahrungen mit LLMs machen konnten.

Mehr noch: LLMs erfüllen bereits heute nicht nur praktische Funktionen (wie Einkaufsberatung, Informationsgewinnung, Übersetzung etc.), sondern auch die von Gesprächspartnern, bei denen sie Verständnis, Empathie, Kameradschaft suchen und – vielleicht nicht zuletzt – eine Möglichkeit der Selbstdarstellung (s. in diesem Zusammenhang Hong, Choi et al. 2025; Sahebi & Parvizi-Wayne 2026). Dass dies nicht nur für eine kleine Minderheit von Menschen zutrifft, zeigt die Entwicklung – und Nutzung! – diesbezüglich spezialisierter Anwendungen wie Replika oder Character.ai. Man kann sagen, dass viele Menschen bei KI bzw. LLMs Menschlichkeit suchen, die sie bei Menschen nicht (in dem Maß) finden (in dem sie sie sich wünschen).

Aber es ist vorrangig die Eigenschaft der Intelligenz, die die Entwicklung und Verbesserung von KI antreibt und gewöhnlich als Grundlage für die Entwicklung anderer (quasi-/)menschlicher Eigenschaften im Bereich der KI angesehen wird, und diesbezüglich wird der Entwicklungsstand von KI bzw. LLMs, auf denen die Anwendungen basieren, mit denen es Millionen, wenn nicht Milliarden, von Menschen alltäglich zu tun haben, oft weit überschätzt.

So können LLMs zwar lernen, aber was sie lernen, ist vor allem das, was in der Literatur „statisches Wissen“ genannt wird, während sie hinsichtlich ihrer Leistung bei der Lösung erfahrungsbasierter, schlussfolgerungsintensiver Aufgaben, die oft Übertragungsleistungen erfordern, nach wie vor deutlich hinter Menschen zurückbleiben; ihr Lernen aus „Erfahrung“ ist nicht stabil und erfolgt langsamer als dies bei Menschen der Fall ist, wie m.W. zuletzt Wang et al. (2025a) gezeigt haben. Wang et al. halten auf der Basis ihres Vergleich der Testergebnisse von LLMs und Menschen fest:

„These findings underscore the potential of LLMs as general-purpose learning machines, while also revealing a substantial intellectual gap between models and humans, irrespective of how well LLMs perform on static benchmarks“ (Wang et al. 2025a: Seite 1 von 14),

d.h.

„Diese Ergebnisse unterstreichen das Potenzial von LLMs als universelle Lernmaschinen, zeigen aber auch eine erhebliche intellektuelle Kluft zwischen Modellen und Menschen auf, unabhängig davon, wie gut LLMs bei statischen Benchmarks abschneiden“.

Aber deutliche Mängel mit Bezug auf Intelligenz bestehen nicht nur im Hinblick auf Lernen aus „Erfahrung“ oder dem korrekten Schlussfolgern, sondern auch hinsichtlich des Umfangs statischen Wissens.

„Statische benchmarks“ oder genauer: statische Benchmark-Tests sind Zusammenstellungen von vordefinierten Fragen oder Problemstellungen, die das jeweilige LLM beantworten oder lösen soll. Wie gut das LLM – im Vergleich zu seinen vorherigen Leistungen, im Vergleich zu anderen LLMs oder im Vergleich zu vorher als Mindestanforderungen festgesetzten Werten – abschneidet, wird gewöhnlich auf der Basis von „ground truth benchmarks“ entschieden, d.h. anhand eines festgesetzten Standards, der die oder eine richtige Antwort abbildet (im Gegensatz zu „preference benchmarks“, bei denen Menschen auf der Basis des outputs des LLMs und unter Verwendung verschiedener Kriterien entscheiden, was die beste Antwort auf eine Frage die beste Lösung für eine Problemstellung ist). Es sind gewöhnlich statische und ground truth-Benchmark-Tests, anhand derer die Leistungsfähigkeit von LLMs gemessen werden und die als Indikatoren für die Leistungsfähigkeit von LLMs publiziert werden.

Wenn man so sagen möchte: LLMs werden – wie z.B. Schüler auch – häufig einfachen Wissenstests unterzogen, wobei sich der Begriff „einfach“ nicht unbedingt darauf bezieht, dass das entsprechende Wissen unter Menschen und wie in LLMs weithin verfügbar wäre, sondern eher darauf, dass allein oder weit überwiegend Wissensbestände abgefragt werden, während Fragen, deren Beantwortung Übertragungsleistungen oder das Ziehen korrekter Schlussfolgerungen beinhaltet, nur einen vergleichsweise kleinen Teil des Tests ausmachen.

Beispiele für statische und ground truth benchmark-Tests sind (u.v.a.) MMLU, HellaSwag und BigBench. MMLU, das für „Massive Multi-task Language Understanding“ steht, ist vielleicht der bekannteste dieser Art von Tests und ist typisch für diese Art von Tests. Es handelt sich dabei um eine Sammlung von Multiple-choice-Fragen aus 57 verschiedenen Bereichen, anhand derer das Wissen und die Problemlöse-Fähigkeit eines LLM getestet werden soll. Man könnte meinen, dass die Testergebnisse (allein oder vorrgangig) abhängig sind von dem Material, anhand dessen das Modell trainiert wurde, aber wenn die Problemlösefähigkeit eines LLMs getestet werden soll, werden in der Regel die für die Beantwortung der Frage oder die Lösung der Problemstellung notwendigen Informationen im „prompt“, d.h. im Rahmen der Frage-/Problemformuierung, bereitgestell – ganz so, wie das in der Schule bei einer Textaufgabe in Mathematik der Fall ist. Solche Aufgaben sind keineswegs per se triviale Aufgaben, aber vom Anspruch her testen sie nicht mehr als man von im Recherchieren oder Schlussfolgern einigermaßen beschlagenen Menschen erwarten würde. Klare Vorteile der KI gegenüber Menschen bestehen lediglich in der Geschwindigkeit, in der Antworten produziert werden – die im Übrigen durchaus falsche Antworten sein können.

Grok, wie er sich selbst sieht.
Die Aufgabe: „Grok, zeichne ein Bild von Dir!“

Angesichts der Fortschritte, die LLMs in den letzten Jahren gemacht haben – d.h., sie haben ihren Wissensbestand samt ihrer Routinen, nach Informationen zu suchen, sie zu strukturieren und auszuwerten, verbessert –, war es immer wieder erforderlich, Tests anzupassen oder neue Tests zu entwerfen. Ein relativ neuer Test wurde am Ende des Jahres 2024 entwickelt, im Januar 2025 der lesenden Fachöffentlichkeit vorgestellt und – m.E. in übergroßem Selbstbewußtsein und gleichzeitig missverständlich, denn getestet werden sollen nicht Menschen, sondern LLMs – „Humanity’s Last Exam“, d.h. etwa „Der letzte Test der/für die Menschheit“ genannt.

„LLMs now achieve over 90% accuracy on popular benchmarks like MMLU, limiting informed measurement of state-of-the-art LLM capabilities. In response, we introduce HUMANITY’S LAST EXAM (HLE), a multi-modal benchmark at the frontier of human knowledge, designed to be the final closed-ended academic benchmark of its kind with broad subject coverage. HLE consists of 2,500 questions across dozens of subjects, including mathematics, humanities, and the natural sciences. HLE is developed globally by subject-matter experts and consists of multiple-choice and short-answer questions suitable for automated grading. Each question has a known solution that is unambiguous and easily verifiable, but cannot be quickly answered via internet retrieval“ (Phan et al. 2026: 4).

D.h.:

„Große Sprachmodelle (LLMs) erreichen mittlerweile bei gängigen Benchmarks wie MMLU eine Marke von über 90 % richtigen Antworten, was eine fundierte Bewertung der aktuellen Leistungsfähigkeit dieser Modelle erschwert. Als Antwort darauf stellen wir HUMANITY’S LAST EXAM (HLE) vor, einen multimodalen Benchmark-Test an der Grenze des menschlichen Wissens, der als letzter akademischer Benchmark seiner Art mit geschlossenen Fragen und breiter Themenabdeckung konzipiert ist. HLE umfasst 2.500 Fragen aus Dutzenden von Fachgebieten, darunter Mathematik, Geisteswissenschaften und Naturwissenschaften. HLE wird weltweit von Fachexperten entwickelt und besteht aus Multiple-Choice- und Kurzantwortfragen, die für die automatisierte Bewertung geeignet sind. Jede Frage hat eine bekannte Lösung, die eindeutig und leicht überprüfbar ist, aber nicht schnell über eine Internetsuche beantwortet werden kann.“

Grok, wie er sich selbst in 100 Jahren sieht.
Die Aufgabe: „Grok, zeichne ein Bild von Dir in 100 Jahren!“

Der HLE-Test ist der bislang anspruchsvollste Test aus der Klasse der statischen, ground truth benchmark-Tests und das Ergebnis einer wahrhaft globalen und interdisziplinären Anstrengung: fast 1.000 Experten in ihren jeweiligen Feldern – mehrheitlich Professoren, Forscher oder Hochschulabsolventen – aus mehr als 500 Institutionen in 50 Ländern haben Fragen aus ihren jeweiligen Wissensbereichen zum HLE-Test beigesteuert (Phan et al. 2026: 5), und die Beantwortung dieser Fragen setzt (hoch-/)spezialisiertes Wissen voraus, so z.B. die folgende Frage aus der Biologie:

„Hummingbirds within Apodiformes uniquely have a bilaterally paired oval bone, a sesamoid embedded in the caudolateral portion of the expanded, cruciate aponeurosis of insertion of m. depressor caudae. How many paired tendons are supported by this sesamoid bone? Answer with a number“ (vgl. Phan et al. 2026: 6).

D.h. – anscheinend; mangels diesbezüglichem Sachverstand habe ich diese Frage von DeepL übersetzen lassen (womit ich großes Vertrauen in die Kompetenz dieser speziellen Anwendung eines LLM zeige):

„Kolibris innerhalb der Ordnung Apodiformes weisen als einzige eine paarweise angeordnete, ovale Sesambeinknochen auf, die im caudolateralen Bereich der erweiterten, kreuzförmigen Sehnenhaut am Ansatz des Musculus depressor caudae eingebettet sind. Wie viele Sehnenpaare werden von diesem Sesambeinknochen gestützt? Antworte mit einer Zahl.“

Dies ist der Hintergrund, vor dem die Formulierung der Autoren, der Test bewege sich „an der Grenze des menschlichen Wissens“, zu vertehen ist, wobei man besser sagen würde „an der Grenze des derzeitigen menschlichen Wissens“ (was ein Grund dafür ist, warum ich den Titel des Testes für weit überzogen halte).

Anhand solcher Fragen, die hochspezialisiertes Wissen voraussetzen, haben die Autoren das Leistungsvermögen einer Reihe bekannter und in der Industrie führender LLMs getestet, und sind zum folgenden Ergebnis gekommen:

„All frontier models achieve low accuracy on HLE …, highlighting significant room for improvement in narrowing the gap between current LLMs and expert-level academic capabilities on closed-ended questions. These low scores are partially by design – the dataset collection process … attempts to filter out questions that existing models can answer correctly. Nevertheless, we notice upon evaluation, models exhibit non-zero accuracy. This is due to inherent noise in model inference – models can inconsistently guess the right answer or guess worse than random chance for multiple choice questions“ (Phan et al. 2026: 8).

D.h.

„Alle führenden Modell erzielen bei HLE … nur eine geringe Zahl richtiger Antworten [sie reicht von 2,7 Prozent richtiger Antworten bis 13,4 Prozent richtiger Antworten!], was deutlich macht, dass es noch erheblichen Verbesserungsbedarf gibt, um die Lücke zwischen aktuellen LLMs und den akademischen Fähigkeiten von Experten bei geschlossenen Fragen zu schließen. Diese niedrigen Werte sind teilweise beabsichtigt – beim Erstellen des Datensatzes … wurde versucht, Fragen herauszufiltern, die bestehende Modelle korrekt beantworten können. Dennoch stellen wir bei der Auswertung fest, dass die Modelle eine Richtigkeit ungleich Null aufweisen. Dies ist auf inhärentes Rauschen in der Modellinferenz zurückzuführen – Modelle können die richtige Antwort inkonsistent erraten oder bei Multiple-Choice-Fragen schlechter als der Zufall erraten“.

Um festzustellen, ob LLMs ihre ggf. vorhandene Unsicherheit mit Bezug auf ihre Antwort mitteilen, statt (auch) falsche Antworten mit großem Vertrauen zu geben, was in der Formulierung der Autoren (Phan et al. 2026: 8) „… indicative of confabulation/hallucination“, d.h. ein Hinweis auf „Konfabulation/Halluzination“ ist, wurde den Modellen aufgegeben, ihren Antworten jeweils eine Angabe darüber anfügen, wieviel Vertrauen auf einer Skala von 0 Prozent bis 100 Prozent sie in die Richtigkeit ihrer Antwort haben:

„A well-calibrated model’s stated confidence should match its actual accuracy – for example, achieving 50% accuracy on questions where it claims 50% confidence. Table 1 reveals poor calibration across all models, reflected in high RMS calibration error scores. Models frequently provide incorrect answers with high confidence on HLE, failing to recognize when questions exceed their capabilities“ (Phan et al. 2026: 8).

D.h.

„Das angegebene Konfidenzniveau eines gut kalibrierten Modells sollte mit seiner tatsächlichen Richtigkeit übereinstimmen – beispielsweise sollte es bei Fragen, für die es eine Konfidenz von 50 % angibt, eine Richtigkeit von 50 % erreichen. Tabelle 1 zeigt eine schlechte Kalibrierung bei allen Modellen, was sich in hohen RMS[root mean square, ein Maß zur Beurteilung der Prognosegüte von Regressionsmodellen]-Werten für den Kalibrierungsfehler widerspiegelt. Die Modelle liefern bei HLE häufig falsche Antworten mit hoher Konfidenz und erkennen nicht, wenn Fragen ihre Fähigkeiten übersteigen“ (Phan et al. 2026: 8).

(Diesbezüglich möchte man allerdings anfügen, dass noch zu untersuchen bleibt, inwieweit LLMs diesbezüglich positiv oder negativ von menschlichem Verhalten abweichen.)

Diese Ergebnisse wurden im Februar und März diesen Jahres, also 2026, von der (Fach-/)Presse aufgenommen und unter Schlagzeilen in der Öffentlichkeit verbreitet wie

Diese Berichte sind aber allesamt irreführend, denn was sie unterschlagen oder bestenfalls in einem Halbsatz oder implizit mitteilen, ist, dass die Testdaten, die Phan et al. (2026) berichten und auf die sich die Presseberichte beziehen, aus dem Ende des Jahres 2024 stammen. Sie zeigen, dass LLMs zu diesem Zeitpunkt sehr weit davon entfernt waren, an die Grenze des derzeitgen menschlichen Wissens vorzudringen.

Und tatsächlich wurden entsprechende Berichte bereits vor einem Jahr in der Presse veröffentlicht, so z.B. in der Pressemitteilung des Forschungszentrums Jülich am 3. Februar 2025 unter dem Titel „‚Humanity’s Last Exam‘ bringt KI an ihre Grenzen“ auf der webseite von tn3 am 24. Januar 2025 unter dem Titel „Humanity’s Last Exam: Daran scheitern die besten KI-Modell“ auf Heise online am 24. Januar 2025 unter dem Titel „Humanity’s Last Exam: Neuer KI-Test an dem alle Modelle scheitern“ und auf vielen anderen Medien.

Dies waren Reaktionen der Presse auf das Erscheinen der ersten Version des Textes von Phan et al. am 24. Januar 2025, in dem die oben genannten negativen Befunde auf arXiv berichtet wurden. Seitdem sind neun weitere Versionen des Textes auf arXiv veröffentlicht worden. Der Text wurde inhaltlich nicht aktualisiert, aber das Erscheinen der neuesten Version (Version 10) mag Anlass für die oben genannten (und andere) Presseberichte aus dem Februar und März diesen Jahres gewesen sein.

In jedem Fall wird das eigentlich interessante, was es derzeit zum Test von LLMs anhand des HLE zu sagen gibt, in diesen Presseberichten nicht berichtet. Und das betrifft die Entwicklung der Testleistungen der ursprünglich getesteten LLMs. Die entsprechenden Daten finden sich nicht in Phan et al. 2026, sondern auf der speziell dem HLE gewidmeten Webseite . Dort findet man die aktualisierten Daten zu den Testergebnissen, die die verschiedenen LLMs erzielt haben, oder genauer: man findet die erzielten Testergebnisse im Zeitverlauf von November 2024 bis März 2026. Die entsprechende Abbildung sieht so aus:

https://www.heise.de/news/Humanity-s-Last-Exam-Neuer-KI-Test-an-dem-alle-Modelle-scheitern-10255230.html

Deutlich erkennbar ist, dass die getesteten LLMs weiterhin am HLE relativ stark scheitern; keines der Modelle schafft es, bis in den März 2026 zumindest die Hälfte der Fragen richtig zu beantworten. Deutlich erkennbar ist aber auch, dass alle gestesteten LLMs im Verlauf dieser relativ kurzen Zeit teilweise erheblich hinzugelernt haben, wenn auch manche mehr als andere.

Gemini 3.1 Pro hat im Februar 2026 mit 45,9 Prozent richtiger Antworten das bislang beste Ergebnis erzielt und hat außerdem, wenn man so sagen möchte, Urteilsvermögen hinzugewonnen: Es gibt einen Konfidenzwert von 53,3 Prozent an, was dem Niveau der richtigen Antworten, die es geliefert hat, ungefähr entspricht. Noch im März 2025 hat Gemini 2.5 Pro-Exp lediglich 18,8 Prozent richtige Antworten im HLE erzielt und gleichzeitig unangemessen großes Vertrauen in die Richtigkeit seiner Antworten (71 Prozent) mitgeteilt. Das ist eine bemerkenswerte Verbesserung in relativ kurzer Zeit, und wie gesagt ist es nicht nur Gemini 3.1 Pro, das sich in dieser kurzen Zeit deutlich verbessert hat.

Was Phan et al. bereits in Version ihres Textes als Erwartung formuliert haben, nämlich dass es aufgrund der raschen Entwicklung im KI-Bereich plausibel erscheint zu erwarten, dass LLMs am Ende des Jahres 2025 die 50-Prozent-Marke richtiger Antworten beim HLE-Test überwinden können, ist zwar nicht eingetreten, aber zumindest Gemini 3.1 Pro hat diese Erwartung nur knapp verfehlt. LLMs können also nachweislich schnell neues und hochspezialisiertes Sachwissen hinzugewinnen, und es gibt keinen Grund anzunehmen, dass sie das nicht auch weiterhin tun können und werden und in einigen Jahren mit Expertenwissen in verschiedenen Wissensgebieten aufwarten können. Das würde sie zu einer Wissensquelle von größtem Wert machen, würde aber (allein) nicht bedeuten, dass sie intelligenter geworden sind. Dementsprechend heißt es auf der dem HLE gewidmeten Webseite:

„High accuracy on HLE would demonstrate expert-level performance on closed-ended, verifiable questions and cutting-edge scientific knowledge, but it would not alone suggest autonomous research capabilities or ‘artificial general intelligence’“.

D.h.

„Ein hohes Maß an Richtigkeit [d.h. richtigen Antworten] beim HLE-Test würde eine Leistung auf Expertenniveau mit Bezug auf geschlossene, überprüfbare Fragen und modernste wissenschaftliche Erkenntnisse demonstrieren, würde aber nicht allein auf autonome Forschungsfähigkeiten oder ‘künstliche allgemeine Intelligenz’ hinweisen“.

Insofern bleibt der Traum von künstlicher Intelligenz, die diese Bezeichnung verdient hat, vorerst ein Traum. Bis auf Weiteres sind wir bedauerlicherweise nach wie vor mit LLMs konfrontiert, die regelmäßig daran scheitern, einfache logische Fehlschlüsse wie z.B. den Fehlschluss ad auctoritatem zu erkennen und zu vermeiden, und müssen gegenüber dem, was sie uns mitteilen, – nicht nur deshalb – kritisch bleiben und unser eigenes Urteilsvermögen walten lassen, wie wir das bei der Würdigung aller Information aus anderen Quellen tun (sollten).

Und so bleibt z.B. zu fragen, ob die gängigen LLMs die irreführenden Berichte, die über ihre Leistungen mit Bezug auf das HLE im Februar und März diesen Jahres in der Presse erschienen sind, als solche hätten identifizieren können ….

Literatur

Budler, Leona Cilar, Chen, Hongyu, Chen, Aokun, et al., 2025: A Brief Review on Benchmarking for Large Language Models Evaluation in Healthcare. WIREs Data Mining and Knowledge Discovery 15(2): e70010

Fodor, James, 2025: Line Goes Up? Inherent Limitations of Benchmarks for Evaluating Large Language Models. arXiv: 2502.14318v1

Hong, Yeseon, Choi, Junhyuk, et al., 2025: Can LLMs and Humans Be Friends? Uncovering Factors Affecting Human-AI Intimacy Formation. arXiv:2505.24658

Phan, Long, Gatti, Alice, Han, Ziwen, et al., 2026: Humanity’s Last Exam. arXiv: 2501.14249v10

Sahebi, Siavosh, & Parvizi-Wayne, Darius, 2026: LLM – „Friends“ are Hostile Scaffolds in the Age of Loneliness. Mind and Machines 36, article number 13(2026). https://doi.org/10.1007/s11023-026-09765-0

Wang, Suqing, Li, Zucaho, Shi, Luohe, et al., 2025: From Parameters to Performance: A Data-Driven Study on LLM Structure and Development. arXiv: 2509.18136

Wang, Suqing, Guo, Zhiquang, Ma, Weizhi, & Zhang, Min, 2025a: How Far Can LLMs Improve from Experience? Measuring Test-Time Learning Ability in LLMs with Human Comparison. arXiv:2506.14448

Falls Sie unsere Arbeit unterstützen, und dafür sorgen wollen, dass bei ScienceFiles auch weiterhin das Rad rund läuft, dann kaufen Sie uns doch einen Kaffee:

Oder unterstützen Sie uns auf einem der folgenden Wege
Unser herzlicher Dank ist Ihnen sicher!

DENN: ScienceFiles lebt von Spenden.
Helfen Sie uns, ScienceFiles auf eine solide finanzielle Basis zu stellen, damit Sie uns auch morgen noch lesen können!

Wir haben drei sichere Spendenmöglichkeiten: