auch im peer reviewing-Prozess verbreitet – SciFi

Es ist nun schon sechs Jahre her, dass ich in der Blauen Reihe von Science Files meinen Forschungsüberblick über die damals bereits bekannten schweren Mängel des peer-review-Prozesses veröffentlicht und damit belegt habe, dass es keineswegs das Qualitätssiegel für einen fachwissenschaftlichen Text ist, als das die Bemerkung, dass der Text „peer-reviewed“ sei, ausgegeben wird.

Wenn ein fachwissenschaftlicher Text als „peer-reviewed“ ausgewiesen wird, dann wird damit ausgedrückt, dass der Text einem Prozess der Begutachtung durch Fachkollegen unterzogen worden sei, um möglichst sicherzustellen, dass er keine faktischen oder Argumentationsfehler enthält, die vorherige Forschung im Fach berücksichtigt und korrekt wiedergibt u.v.a.m., kurz: die Autoren des Textes bei seiner Abfassung die Regeln wissenschaftlichen Arbeitens nicht in irgendeiner Weise verletzt haben. „Peer reviewing“ – so habe ich vor sechs Jahren geschrieben –

„… bezeichnet im Kern die Prüfung eines Manuskriptes vor seiner Veröffentlichung durch sogenannte peers‘, d.h. gewöhnlich Fachkollegen, und besonders durch solche Fachkollegen, die über dasselbe Thema oder ein ähnliches Thema gearbeitet haben oder arbeiten wie das, das im Manuskript behandelt wird. Die Annahme dahinter ist, dass solche „peers“ auf der Höhe der Diskussion über das Thema sind, die relevanten Theorien und Daten kennen, die Methoden im Umgang mit Forschung über dieses Thema und speziell mit den Daten, die für das Thema relevant sind, beherrschen und daher die Güte eines Textes beurteilen können, der dieses Thema bearbeitet. „Güte“ soll dabei nicht nur Freiheit von offensichtlichen Fehlern in den Daten oder in der Logik der vorgebrachten Argumentation bedeuten, sondern auch Verständlichkeit, Vollständigkeit der Darstellung vorhergehender Theoriebildung und Datenauswertungen zum Thema u.a.m.“ (Diefenbach 2020: 2).

Dies ist die Theorie des peer reviewing; die Praxis sieht gänzlich anders aus, wie in meiner oben zitierten Schrift nachzulesen ist (und belegt wird).

Den Mängeln des peer reviewing-Prozesses Abhilfe zu schaffen, haben sich manche dadurch erwartet oder zumindest erhofft, dass dabei zunehmend Künstliche Intelligenz (KI) zum Einsatz kommt. So gibt es z.B. software wie Pangram, durch das (mit einer Akkuratheit von 99,84%; s. Gartenberg et al. 2026: S. 3 von 18) festgestellt werden kann, ob ein zur Veröffentlichung z.B. in einer Fachzeitschrift eingereichtes Manuskript seinerseits von oder mit Hilfe von KI erstellt wurde. Manuskripte, die vorrangig oder gänzlich als von KI verfasst identifiziert werden können, können von vornherein abgelehnt werden, so dass sie gar nicht erst Gegenstand des peer reviewing-Prozesses werden. Es ist dann Sache der Herausgeber der entsprechenden Fachzeitschrift (bzw. des Verlagshauses), solche KI-Erkennungs-software zu verwenden, aber inwieweit dies systematisch passiert, ist fraglich, auch, wenn dies zunehmend häufiger der Fall sein dürfte.

Gartenberg et al. (2026) haben für 6.957 Manuskripte, die seit Januar 2021 zur Veröffentlichung in der Zeitschrift „Organizational Science“ eingereicht wurden, festgestellt, dass (hauptsächlich oder vollständig) KI-generierte Manuskripte nicht von vornherein durch entsprechende Software ausgesondert wurden, sondern den für die Zeitschrift normalen Prozess durchlaufen haben, bei dem der verantwortliche Chefredakteur zunächst nur eine Plagiatserkennung durchführt, und ein Manuskript dann, wenn es diesen Test besteht, an einen stellvertretenden Redakteur weitergibt, dem die Entscheidung obliegt, ob das Manuskript an externe Gutachter übergeben werden soll oder nicht. Wie Gartenberg et al. berichten, erfolgte im betrachteten Zeitraum durch die Herausgeber keine systematische Prüfung darauf, ob Manuskripte hauptsächlich oder gänzlich von KI verfasst wurden, aber die Ablehnungsrate von Manuskripten, die in der Studie von Gartenberg et al. – die Pangram zur Erkennung solcher Manuskripte verwendeten – zu mehr als 30 Prozent von KI verfasst wurden, eine um 30 Prozent höhere Ablehnungsrate hatten als Manuskripte mit einem niedrigeren KI-„Anteil“ (Gartenberg et al. 2026: S. 8 von 18):

„… editors, likely without recognizing the writing as AI-generated, consistently judges these manuscripts as lower quality and unworthy of reviewers‘ time“ (Gartenberg et al. 2026: S. 8 von 18),

d.h.

„… Redakteure, beurteilen diese Manuskripte durchweg als minderwertig und der Zeit der Gutachter unwürdig, wahrscheinlich ohne diese Manuskripte als KI-generiert zu erkennen.“

In der Studie von Gartenberg et al. wurden von insgesamt 1.190 Manuskripten, die von Pangram als zu mehr als 30 Prozent KI-generiert identifiziert wurden, 736 durch den Herausgeber bzw. die Redaktion ausgesondert, aber immer 454 von ihnen – das entspricht 38 Prozent – an Gutachter weitergegeben (s. Gartenberg et al. 2026: Seit 8 von 18, Table 3; eigene Berechnungen).

Im Beobachtungszeitraum der Studie von Gartenberg et al. wurden insgesamt 2.475 Manuskripte zur Begutachtung an menschlichen Gutachter weitergegeben, und wenn man in Rechnung stellt, dass aufgrund der thematischen Ausrichtung der Zeitschrift eine begrenzte Anzahl von Gutachtern mit fachlichem Bezug zur Verfügung stehen, die außerdem auch als Gutachter für andere Zeitschriften mit derselben oder ähnlicher thematischer Ausrichtung fungieren, kann man sich vorstellen, dass Gutachtertätigkeiten einen durchaus nennenswerten Anteil der Arbeit von Fachwissenschaftlern ausmachen.

Dass Gutachter bestrebt sind, sich die Begutachtungsarbeit einfacher zu machen, ist daher verständlich. Und deshalb wiederum ist nicht überraschend, dass Gartenberg et al. (2026: S. 10 von 18) festgestellt haben:

„While AI use in reviews is not as pervasive as in manuscripts, over 30% of reviews in Organization Science still use some degree of AI today. The fastest growing category consists of reviews classified as 30%-70% AI …“ (Hervorhebung im Original),

d.h.

„Während der Einsatz von KI in Gutachten nicht so weit verbreitet ist wie in [zur Veröffentlichung eingereichten] Manuskripten, werden in über 30% der Gutachten für Organization Science auch heute noch ein gewisses Maß an KI verwendet. Die am schnellsten wachsende Kategorie stellen dabei Gutachten, die zu 30%-70% von KI erstellt wurden…“.

Und das hat Folgen:

„As with paper submissions, we observe a similar, marked decline in the Flesch Reading Ease of the reviews submitted to Organizational Science following the launch of ChatGPT. Similarly, we find a concerning pattern of degradation in the written reviews across nearly all of our writing quality measures … Reviews that use AI are harder to read, with more complex word choice, more nominalization, and more jargon … This increases the work of editors, who now have to spend more time understanding reviews, and of authors, who must interpret and respond to reviewers‘ requests and recommendations“ (Gartenberg et al 2026: S. 11-12 von 18; Hervorhebung im Original),

d.h.

„Wie bei den Papiereinreichungen beobachten wir einen ähnlichen, deutlichen Rückgang der Flesch-Lesefreundlichkeit der Rezensionen, die nach der Einführung von ChatGPT bei Organizational Science eingereicht wurden. Ebenso stellen wir ein besorgniserregendes Muster der Verschlechterung in den schriftlichen Rezensionen bei fast allen unseren Schreibqualitätsmaßen fest… Rezensionen, die KI verwenden, sind schwieriger zu lesen, mit komplexerer Wortwahl, mehr Nominalisierung und mehr Jargon … Dies erhöht den Arbeitsaufwand der Redakteure, die nun mehr Zeit damit verbringen müssen, Gutachten zu verstehen, und der Autoren, die die Forderungen und Empfehlungen der Gutachter interpretieren und darauf reagieren müssen“.

SciFi-Supt

FINANZKRISE

Selbst wir leben nicht von Luft und Liebe!

Aber nur, weil andere stets Geld von uns wollen…. zunehmend mehr Geld von uns wollen.

So viel, dass ScienceFiles am (finanziellen) Abgrund steht.

Wenn Sie gerne lesen, was Sie bei ScienceFiles lesen und auch weiterhin lesen wollen, was Sie nur bei uns finden, dann müssen Sie uns flüssig halten.

Es gibt vier Möglichkeiten, uns zu unterstützen:

Weitere Informationen finden Sie hier:

ScienceFiles-Unterstützung

Bei allen Unterstützern bedanken wir uns bereits an dieser Stelle sehr HERZLICH!

„When AI is used for reviews, these reviews cover a narrower evaluative range“ (Gartenberg et al. 2026: S. 13 von 18),

d.h.

„[w]enn bei der Erstellung von Gutachten KI verwendet wird, decken diese Gutachten einen engeren Bewertungsbereich ab“ (Gartenberg et al. 2026: S. 13 von 18).

Gartenberg et al. (2026: S. 17 von 18) konstatieren daher – zumindest für die untersuchte Zeitschrift, Organizational Science – dass

„… we are heading toward a ‚more‘ rather than a ‚better‘ equlibrium as we integrate AI into our field. However, as researchers whose own work has been reshaped by AI over the past, year, we also see the potential of a ‚better‘ equilibrium in which new, more difficult questions are asked, new methods are applied in imaginative ways, or both“,

d.h.

„… wir eher eher auf ein ‚Mehr‘ als auf ein ‚besseres‘ Gleichgewicht zusteuern, wenn wir KI in unser Feld integrieren. Als Forscher, deren eigene Arbeit im letzten Jahr durch KI verändert wurde, sehen wir jedoch auch das Potenzial eines ‚besseren‘ Gleichgewichts, in dem neue, schwierigere Fragen gestellt, neue Methoden auf einfallsreiche Weise angewendet werden oder beides“.

Aber wie genau ein „besseres“ Gleichgewicht aussehen soll und wie es erzielt werden kann, ist eine unbeantwortete Frage, vor der nicht nur Gartenberg et al., sondern auch viele andere Autoren, die das Thema „KI in der wissenschaftlichen Arbeit“ bearbeiten, einigermaßen ratlos stehen.

Transparenz in Form von Richtlinien zur Offenlegung von KI-Verwendung allein ändern nichts an den Ergebnissen, die die Verwendung von KI beim Verfassen von Manuskripten oder Gutachten zu Manuskripten produziert. Auf rein technische Lösungen wird man sich nicht verlassen können insofern es das perfekte LLM („large language model“), auf das man beim wissenschaftlichen Arbeiten zurückgreifen kann, nicht geben wird, sondern (u.a.) jedes LLM nur so gut ist wie das Material, an dem es trainiert wurde, was wiederum dazu führt, dass jedes LLM seine eigenen „biases“, d.h. Tendenzen oder Voreingenommenheiten, aufweist.

Eine Rückkehr zu einem rein oder weit überwiegend von menschlichen Gutachtern durchgeführten Begutachtungsprozesses bzw. einer Stärkung des menschlichen Anteils am Verfassen von Gutachten ist nicht nur aus praktischen Gründen unrealistisch, sondern auch gar nicht wünschenswert, denn der rein von Menschen durchgeführte Begutachtungsprozess hat seinerseits schwere Mängel (s. hierzu Diefenbach 2020), die durch den Einsatz von KI zumindest zum Teil vermieden oder korrigiert werden könn(t)en.

Was sich abzeichnet, ist vielmehr die Notwendigkeit, den Wissenschaftsbetrieb als solchen einer kritischen Betrachtung zu unterziehen und ggf. zu verändern. Gartenberg et al. 2026: u.a. S. 2 von 18) machen insbesondere die Wichtigkeit, viel publiziert zu haben, für eine Karriere in der institutionalisierten Wissenschaft dafür verantwortlich, dass Herausgeber (und in der Konsequenz: Gutachter) mit einer wahrer Flut von minderwertigen Manuskripten überschwemmt werden:

„Volume incentives originate not at the journals but rather at the universities themselves, and even more so at those that reward simple publication counts and offer financial bonuses for placement in designated ‚A‘ journals … At a minimum, existing norms and rules regarding the exact count of publications required to define someone as sufficiently ‚productive‘ will be outdated; the more fundamental change will require rewarding execeptional quality over quantity“ (Gartenberg et al. 2026: S. 17 von 18),

d.h.

„Volumenanreize [d.h] Anreize dazu, viel – nicht unbedingt qualitätvoll – zu publizieren] entstehen nicht bei den Zeitschriften, sondern an den Universitäten selbst, und noch mehr bei denen, die einfache Publikationszahlen belohnen und finanzielle Prämien für die Platzierung in ausgewiesenen ‚A‘-Zeitschriften anbieten… Zumindest werden die bestehenden Normen und Regeln hinsichtlich der genauen Anzahl der Veröffentlichungen, die erforderlich sind, um jemanden als ausreichend ‚produktiv‘ zu definieren, veraltet sein; die grundlegendere Änderung erfordert die Belohnung außergewöhnlicher Qualität gegenüber Quantität”.

Vor diesem Hintergrund gewinnen Indizes, die abbilden, wie groß das Interesse ist, auf das ein Text unter Wissenschaftlern oder Fachvertretern stößt und wie häufig er rezipiert oder zitiert wird, eine deutlich größere Bedeutung gegenüber der bloßen Anzahl an Texten, die man in irgendeiner Form veröffentlichen konnte. (Plattformen wie Researchgate stellen schon seit Langem einen solchen „research interest“-Index für das gesamte Publikationswerk eines Wissenschaftlers bereit.)

Bis auf Weiteres ist es m.E. eine diskussionswürdige Idee, wenn Gartenberg et al. (2026: S. 17 von 18) vorschlagen, dass Fachzeitschriften eine Einreichungsgebsühr von jedem erheben sollten, der ein Manuskript zur Veröffentlichung in der jeweiligen Zeitschrift einreicht. Das würde nicht nur verhindern, dass Autoren ihre Texte (gleichzeitig oder nacheinander) bei allen möglichen Zeitschriften einreichen, um sie irgendwann irgendwo unterzubringen, so dass sie auf ihre Publikationsliste gesetzt werden können – das würde sehr schnell sehr teuer für die Autoren –, sondern auch, dass auf die Schnelle, überwiegend oder gänzlich KI-generierte, Texte eingereicht werden, die dann Herausgebern und Gutachtern Arbeit verursachen, aber eine vergleichsweise geringe Chance haben, zur Veröffentlichung angenommen zu werden, als sorgfältig (selbst) erstellte Texte.

Insgesamt gesehen ist der Einsatz von KI im Bereich wissenschaftlichen Arbeitens nach wie vor eher angesichts seines Potenzials vielversprechend als angesichts seiner derzeitigen praktischen Leistungsfähigkeit nützlich.

Zitierte Literatur:

Diefenbach, Heike, 2020: „Peer Reviewed“ – kein Qualitätssiegel! Llanelli: Sciencefiles, Blaue Reihe, Band 7. https://sciencefiles.org/wp-content/uploads/2020/03/HD_2020_Peer-Reviewed-Endversion.pdf

Gartenberg, Claudine, Hasan, Sharique, Murray, Alex, & Pierece, Lamar, 2026: More Versus Better: Artificial Intelligence, Incentives, and the Emerging Crisis in Peer Review. Organization Science. (Published online in Articles in Advance 27 April 2026.) https://doi.org/10.1287/orsc.2026.ed.v37.n3

Falls Sie unsere Arbeit unterstützen, und dafür sorgen wollen, dass bei ScienceFiles auch weiterhin das Rad rund läuft, dann kaufen Sie uns doch einen Kaffee:

Oder unterstützen Sie uns auf einem der folgenden Wege
Unser herzlicher Dank ist Ihnen sicher!

DENN: ScienceFiles lebt von Spenden.
Helfen Sie uns, ScienceFiles auf eine solide finanzielle Basis zu stellen, damit Sie uns auch morgen noch lesen können!

Wir haben drei sichere Spendenmöglichkeiten: