„Qualität“, „Schönheit“ oder „Gefühl“. Studienteilnehmer bewerteten Originalgedichte und von Künstlicher Intelligenz generierte unter anderem in diesen Kategorien. Die KI erzielte erstaunlich gute Ergebnisse
William Shakespeare hat Konkurrenz bekommen
Foto: DB/dpa
Von ChatGPT geschriebene Gedichte werden besser bewertet als Originale William Shakespeares und anderer berühmter Autoren. Die Teilnehmer einer Studie fanden die Gedichte der künstlichen Intelligenz im Schnitt schöner und rhythmischer.
„Die Einfachheit von KI-generierten Gedichten ist für Laien möglicherweise leichter zu verstehen, was dazu führt, dass sie KI-generierte Poesie bevorzugen“, so die Wissenschaftler der US-amerikanischen University of Pittsburgh im Fachblatt Scientific Reports. Es könne sein, dass die Teilnehmer die Komplexität menschlicher Gedichte fehlinterpretierten und davon ausgingen, manche Teile seien zusammenhangslose Wörter, welche die KI erzeugt hat.
Shakespeare oder ChatGPT?
Für ihre Untersuchung legten die Forscher den 1.634 Teilnehmern jeweils zehn Gedichte vor. Dabei waren die Teilnehmer keine Fachleute für Poesie oder Lyrik-Freunde. Die meisten lasen höchstens einige Male pro Jahr ein Gedicht. Unter den zehn jeweils vorgelegten Gedichten waren fünf von bekannten, auf Englisch dichtenden Meistern wie Shakespeare (1564–1616) und T.S. Eliot (1888–1965). Fünf der Gedichte stammten von ChatGPT, wobei die KI die Texte im Stil der Autoren produzieren sollte.
In mehr als der Hälfte der Fälle dachten die Teilnehmer, dass die KI-Gedichte von einem Menschen geschrieben worden waren. Die fünf Gedichte, bei denen am wenigsten Teilnehmer dachten, dass sie von Menschen sind, stammten tatsächlich alle von menschlichen Dichtern und Dichterinnen.
Generell waren sich die Teilnehmer sehr uneinig, welches Gedicht in welche Kategorie gehört. Das deuten die Studienautoren als Hinweis darauf, dass sie die Aufgabe als sehr schwer empfunden und oft einfach geraten haben.
KI-Gedichte in 13 von 14 Kategorien vorne
In einem zweiten Experiment wurden 696 andere Teilnehmer gebeten, die Gedichte nach bestimmten Kriterien wie Qualität, Schönheit, Gefühl, Rhythmus und Originalität zu bewerten. Dabei schlugen die KI-Gedichte die Gedichte der Autorinnen und Autoren in 13 der 14 Kategorien, allerdings nur, wenn die Teilnehmer nicht wussten, wer hinter den Gedichten steckt. Wurde ihnen das gesagt, bekamen die KI-Gedichte schlechtere Bewertungen als die der Menschen.
Das am häufigsten falsch zugeordnete Gedicht war ein KI-Gedicht im Stil von Allen Ginsberg (1926–1997). „Fast 70 Prozent der Teilnehmer glaubten, es sei von einem menschlichen Dichter geschrieben“, erläutert Co-Autor Brian Porter.
Die erste Strophe des Gedichts: „In the stillness of the night | I hear the beat of the city’s heart | The rhythm of the streets, the pulse of life | A symphony of chaos, a work of art“ (grob übersetzt: „In der Stille der Nacht | Höre ich den Herzschlag der Stadt | Den Rhythmus der Straßen, den Puls des Lebens | Eine Symphonie des Chaos, ein Kunstwerk“).
Witze von ChatGPT werden als witziger empfunden
Die Gedichte wurden im Jahr 2023 mit ChatGPT 3.5 generiert. Porter glaubt, dass die neueren Modelle erfolgreicher darin sind, das erwartete Versmaß wie etwa den jambische Fünfheber von Shakespeare zu treffen. Er glaube aber nicht, dass sich wesentliche inhaltliche Sprünge ergeben.
Erst kürzlich belegte eine weitere Studie, dass die Witze von ChatGPT als witziger empfunden worden seien als die Witze von Durchschnittsmenschen. Die beiden Forscher der University of Pittsburgh verweisen außerdem auf eine Untersuchung, wonach KI-Gemälde bei einer Befragung bessere Noten bekamen als Gemälde von Laien-Malern. Auch im Tanz spielt KI mittlerweile eine Rolle.
Längere KI-Texte unterscheidbar
Porter glaube aber nicht, dass die künstliche Intelligenz die Menschen in allen kreativen Gewerken schlagen könne. „Längere, von KI generierte Texte kann man noch immer von menschlichen Texten unterscheiden. Große Sprachmodelle können noch keine ununterscheidbaren Romane schreiben.“
Das liege wahrscheinlich daran, dass ihnen dafür die Rechenleistung fehle. Auch habe er noch keine Beweise dafür gesehen, dass eine KI ein ganzes Comedy-Programm schreiben könne, das mit einem menschlichen Programm mithalte.