Funktionieren Tools zur Erkennung von AI-generierten Texten?

ChatGPT sorgt in der Bildungswelt aktuell für einige Furore. Kein Wunder, erstellt das Tool doch in Sekunden sinnvolle und stringente Texte für verschiedenste Fragestellungen. Insbesondere Einsendeaufgaben und andere schriftliche Arbeiten sind damit anfällig für AI-Plagiate, Formate also, die von vielen Weiterbildungsinstitutionen, Hochschulen und Universitäten als Prüfungsleistungen eingesetzt werden.

Selbst bei Klausuren erzielt die Software bereits sehr gute Ergebnisse (wie Prof. Dr. Florian Schatz von der Fachhochschule Kiel in einem Artikel beschreibt), so dass es nur eine Frage der Zeit sein dürfte, bis auch E-Klausuren "Opfer" der KI Anwendungen werden.

Mit klassischen Lösungen lassen sich solche AI-generierten Texte nicht identifizieren, denn sie werden dynamisch und in immer anderer Form generiert. Umso spannender ist die Frage, wie neue Tools zur Erkennung von AI-generierten Texten funktionieren.

Enttäuschende Resultate

Zu Testzwecken haben wir deshalb über GPT-3 eine Einsendeaufgabe aus einem Lehrbrief der APOLLON Hochschule der Gesundheitswirtschaft erstellen lassen. Ziel der Aufgabe war es, eigene Definitionen für Fachbegriff zu erstellen, die im Lehrbrief vorgestellt wurden. Anschließend wurde der generierte Text 1:1 in diverse Testtools eingegeben, u.a. bei OriginalityAI, GPTZero, Copyleaks und dem AIContentDetector.

Der Text wurde dabei inkl. offensichtlicher Fehler (erratische Buchstabenfolgen, Rechtschreibfehler) am Ende des Textes kopiert, die von GPT-3 auf Grund einer temporären Überlastung generiert wurden. Eine manuelle Korrektur hätte ansonsten das Ergebnis der Prüfung verfälschen können.

Die bittere Erkenntnis: keine der Lösungen identifizierte den Text als von einer AI generiert. Statt dessen wurden alle als sicher (oder zumindest mit hoher Wahrscheinlichkeit) "human-generated content" klassifiziert.

Schlimmer noch: selbst wenn ich denselben Text in Englisch erstellen lasse, scheitert die Erkennungssoftware. Alle englischen Texte werden - wie die deutschen - als von Menschen geschrieben klassifiziert. Die Lösungen sind somit - zumindest auf den ersten Blick - völlig nutzlos.

Für Hochschulen ist es aktuell unmöglich, mit GPT-3 erzeugte Texte sicher als solche zu identifizieren.
— Philipp Höllermann

Die Ergebnisse könnten damit zusammenhängen, dass der Lösung vorgegeben wurde, leicht von der standardisierten Texterstellung abzuweichen. So wurden der Wert für Frequency und Presence Penalties erhöht, mit der eine zu häufige Wiederholung von Worten und inhaltlich identischen Sätzen vermieden werden soll. Diese Einstellung kann indes von jedem Nutzer binnen Sekunden über Schieberegler vorgenommen werden und muss von Plagiats-Software berücksichtigt werden.

Einziger Hoffnungsschimmer für die Hochschulen ist damit, dass GPT-3 eines gar nicht kann: echte Quellen zitieren und relevante, hochwertige Literaturverweise zu liefern. Die Verweise der Software sind hier entweder frei erfunden, oberflächlichen Webrecherchen entnommen oder sehr unpräzise.

Womit die Software indes dieselben Ergebnisse liefert, wie - glaubt man den Klagen vieler Lehrkräfte - in der Zwischenzeit auch viele Studierende.

Philipp Hoellermann

Sustainable. Digital. Education. Working Dad. Vegetarian. Managing Director of handsons.io. Democrat. Open for business.

https://www.handsons.io
Zurück
Zurück

Hochschulen und Social Media - Wo, wie und warum

Weiter
Weiter

Werden “Data Sciences” die wichtigsten Studienfächer der Zukunft?