Neue IU Forschungsarbeit: Ist die Bewertung von Freitext-Aufgaben durch die KI gerechter?

Nadja_studiert_Informatik · 19. April

Am 14.4.2024 um 10:21 schrieb Muddlehead:

All deine Kritikpunkt sind auch heute schon präsent in der Praxis, auch ohne KI.

Absolut. Die KIs sind ein Massen-Verstärker dieser Sachen. Aber man könnte sie an sich auch verwenden, um die Situation zu verbessern.

Nadja_studiert_Informatik · 19. April

Ich habe mir die Studie nochmal angesehen. Ich verstehe es nicht so ganz. Vielleicht könnt ihr mir helfen.

Verstehe ich das richtig, dass die Unterschiede bei den menschlichen Prüfern im Durchschnitt 2,8 Punkte betragen haben? Pro Aufgabe??? Das wäre übel bei den kurzen Aufgaben mit den wenigen Punkten. Eine Klausur hat doch sechs Freitext-Aufgaben mit jeweils zweimal 6, 8 und 10 Punkten, oder? Wenn die Abweichungen zwischen den Bewertern pro Aufgabe so hoch sind, macht das sehr viel aus. Ist das normal, vor allen Dingen auch bei Aufgaben mit so wenig Text? Es wird beschrieben, dass die Abweichungen umso höher sind je besser die Note ist. Was heißt das? Das Korrigierende unterschiedliche Auffassungen von einer sehr guten Arbeit haben? Wenn man sich das anschaut, macht es dann überhaupt Sinn, dass die KI „richtig“ liegt, wenn sie den Mittelwert dieser Bewertungen trifft? Also ich meine, man kann den Mittelwert ja in so einer ersten Studie nehmen, um überhaupt erstmal irgendwas zum Trainieren zu haben. Aber ich stelle mir die Frage, ob das dann überhaupt anwendbar ist. Vielleicht müsste man erstmal schauen, was überhaupt die richtige Bewertung ist? Oder wie versteht ihr die Daten? Ich denke 1600 Aufgaben sind auch nicht sehr viele, wenn eine Klausur sechs Freitextaufgaben hat, oder? Was wäre dann eine gute Datenmenge? Habt ihr gesehen in der Studie, ob auch die 6-Punkte-Fragen genommen wurden, bei denen ja drei Stichpunkte in der Regel ausreichen?

Ich finde die Studie interessant, aber an anderen Stellen als da, wo der Fokus liegt. Ist ja oft so…

Nadja_studiert_Informatik · 19. April

Ich will an dieser Stelle noch sagen, dass ich dem Lehrpersonal keinen Vorwurf mache! Ich denke, dass die Korrigierenden bei dieser Entwicklung und den Wachstumszahlen der IU wenig Einfluss haben. Ich finde halt, so lange sich bei Discord unter den Studierenden hartnäckig der Mythos hält, dass Willkür bei den Bewertungen vorliegt und man eine schlechtere Note bekommt, wenn man nachfragt wann denn nun mit dem Ergebnis zu rechnen ist, sollte die Hochschule Alles unternehmen, um dagegen aufzuklären. Also man bräuchte konkrete Transparenz-Maßnahmen. Aber bei dieser Entwicklung werden diese Vorstellungen der Studierenden halt massiv gefördert.

Eine Frage noch, die ich auch bei der Studie habe:

Es wird das Black Box Problem erwähnt. Das heißt, man überprüft auch nicht wie die KI zu der Bewertung kommt? Das könnte man doch aber einbauen? Also man könnte doch eine Begründung von der KI für die Note fordern? Vielleicht habe ich überlesen, dass das noch gemacht wird?

Nadja_studiert_Informatik · 19. April

vor 3 Minuten schrieb DerLenny:

Kannst Du machen, die würde aber post-factum generiert. Es wäre eine Antwort, aber nicht unbedingt die, die wirklich zur Entscheidung geführt hat. KIs funktionieren gewissermaßen wie japanische Kücken-Genderer: implizite Mustererkennung.

Vielleicht weiß ich zu wenig über die Funktionsweise der neuen Transformer. Aber ich stelle es mir ein bisschen so vor wie wenn ich ChatGPT zum Verbessern meiner Sprachübersetzungen verwende: Ich gebe ChatGPT meinen übersetzten Text und bitte um Verbesserungen mit genauer Erklärung. In den häufigsten Fällen ist die Begründung „für den Sprachfluss“. Ja gut, nichts dabei erfahren als dass die KI halt insgesamt ein gebräuchlicheres Englisch kann als ich, was ja vorher schon klar war. Aber hin und wieder werden mir halt auch Bedeutungs- und selten sogar Grammatikfehler genannt und dann erfahre und lerne ich wirklich was. Wäre es bei der Bewertung von Klausuren nicht auch so, dass womöglich am häufigsten quasi gesagt wird, es wurden fünf toll klingende Wörter genannt, die häufig in dem Kontext genannt werden? Und dann wüsste man halt, dass an dieser Stelle nochmal ein Tutor ranmuss. Vielleicht habe ich aber auch eine falsche Vorstellung von der Funktionsweise.

vor 12 Minuten schrieb DerLenny:

so rein von den Vorgehensweisen ist aber scheint es aber so, dass hohe Qualität nicht das Ziel der IU ist. Im Gegenteil, es geht eher darum, das absolute Minimum zu bieten (da günstiger).

Ja, das sieht ganz so aus. 😒 Ich wollte trotzdem mal erläutern, wo ich die Probleme sehe und wie ich es besser fände…

Ich denke schon viel nach wie die Transformer die Welt verändern werden. Ich meine, man weiß das alles noch nicht und es ist nur Spekulation. Ich finde halt, wirklich relevant sind doch die Fragen, wie sich Schreiben und Lesen und Faktenlage und das Verhältnis zu solchen Dingen entwickeln werden. Und wo der Unterschied in Bildung und Wissenschaft zwischen Menschen und Maschinen liegen wird, ist doch der relevante Punkt. Mich frustriert es halt furchtbar, wenn eine Hochschule in diesem Kontext nur über Verkauf nachdenkt. Ich fühle mich dann irgendwie falsch am Platz.

Aber gut, so lange ich nicht den Eindruck habe, dass die IU mein Selbst-Denken bestraft, konzentriere ich mich weiterhin selbst auf meine Bildung. Ich will dann aber nicht, dass meine wertvollen Daten für diesen Verkaufs-Zweck verschleudert werden.

Markus Jung · 19. April

@phoellermann hat die Studie bei LinkedIn diskutiert:

https://www.linkedin.com/feed/update/urn:li:activity:7186278012114366464?updateEntityUrn=urn%3Ali%3Afs_feedUpdate%3A(V2%2Curn%3Ali%3Aactivity%3A7186278012114366464)

Zitieren möchte ich ihn daraus, was die Zweitbewertung angeht, weil ihr die hier auch angesprochen habt:

Zitat

Allerdings ist auch auffällig, dass die erneute Benotung durch menschliche Tutoren ("Re-Grading") fast immer zu signifikant schlechteren Ergebnissen führte. So wurden Aufgaben, die ursprünglich mit 18 (von 18) Punkten bewertet wurden, bei der erneuten Bewertung durchschnittlich nur noch mit 11 Punkten bewertet. Aufgaben, die mit 15 Punkten bewertet waren, erreichten beim Review nur noch 7 Punkte. Nur in einem Bewertungsbereich verbesserte sich beim Review der Durchschnitt der Noten.

Warum dem so ist, ist eine spannende Frage: Bewerteten die Reviewer auf Grund des Settings durchgängig kritischer? Oder ist die Benotung in den Ausgangsdaten ins Positive verschoben, bewerten die Prüfer der Hochschule im Alltag also deutlich zu positiv? Und würde diese "zu positive" Bewertung durch den Einsatz von KI nicht verstetigt?

KanzlerCoaching · 19. April

Hat denn irgendjemand mal im Laufe der Studie genau verglichen, welche Antworten unterschiedlich durch Tutoren und KI bewertet wurden? Oder hat die Arbeiten unterschiedlichen Tutoren zur Bewertung vorgelegt und hat dann die Ergebnisse verglichen?

Ich kann aus all dem hier Geschriebenen und der Studie nicht erkennen, wer (oder was) denn nun die zutreffende Bewertung abgegeben hat. Und das wäre doch wohl das Ziel bei der Entscheidung, ob KI oder ein Tutor korrigiert. Oder sollte es zumindest sein.

Bearbeitet 19. April von KanzlerCoaching

cheester88 · 19. April

Am 13.4.2024 um 11:26 schrieb KanzlerCoaching:

Beim Lesen schießt mir ein Gedanke durch den Kopf:

Durch KI generierte Lehrbriefe werden vom Studierenden durch KI generierte Hausarbeiten/die Thesis in Prüfungen gearbeitet, was wiederum eine KI korrigiert und bewertet.

Ob die KI sich schlechter bewertet 😂

Der Gedanke ist wirklich lustig 😅.

IU Internation. Hochschule · 25. April

Hallo zusammen,

Vielen Dank für die spannende Diskussion zur Studie.

Grundsätzlich haben wir für die Studie vergangene Klausurinhalte verwendet. Diese sind vollkommen anonymisiert worden und unterliegen somit nicht den strengen Auflagen des Datenschutzes, damit Rückschlüsse auf individuelle Personen oder Daten ausgeschlossen sind.

Darüber hinaus möchten wir auch bezüglich der etwaigen Vermutungen in nicht-IU Kanälen, gerne noch einmal kommunizieren, dass bei Klausuren immer eine individuelle Überprüfung durch die Hochschullehrenden stattfindet - sowohl bei MC als auch bei offenen Fragen.

Schriftliche Arbeiten werden einer automatisierten Plagiatsprüfung unterzogen, aber auch hier erfolgt die Bewertung ausschließlich durch die Lehrenden. Wir stellen zu jedem Zeitpunkt sicher, dass die Hoheit der Prüfungsbewertung somit bei den Hochschullehrenden liegt. Am Status-Quo bei der Beurteilung hat sich also nichts geändert. Jegliche Änderungen werden transparent an unsere Studierenden kommuniziert, insofern wir zukünftig auf eine publizierte KI-Technologie im Bereich der Benotung zurückgreifen.

Wir hoffen, mit der Beantwortung weitere Klarheit geschaffen zu haben.

Viele Grüße

Louisa (Leitung Student Relations & Community(

IU Internationale Hochschule

TheHumanHunter · 25. April

vor 5 Stunden schrieb DerLenny:

Die Frage war nicht, ob personenbezogene Daten genutzt wurden, sondern wo die Einwilligung gegeben wurde, und wo diese widerrufen werden kann.

Gilt die Regel mit der Einwilligung bei anonymisierten Daten noch, sofern die Daten nicht (Re)-identifizierbar sind? Antworten auf Klausurfragen, bzw. Multiple-Choice sollten imo nur schwer zurückverfolgbar sein.

Anmelden

Neue IU Forschungsarbeit: Ist die Bewertung von Freitext-Aufgaben durch die KI gerechter?

Empfohlene Beiträge

Link zu diesem Kommentar

Auf anderen Seiten teilen

Link zu diesem Kommentar

Auf anderen Seiten teilen

Link zu diesem Kommentar

Auf anderen Seiten teilen

Link zu diesem Kommentar

Auf anderen Seiten teilen

Link zu diesem Kommentar

Auf anderen Seiten teilen

Link zu diesem Kommentar

Auf anderen Seiten teilen

Link zu diesem Kommentar

Auf anderen Seiten teilen

Link zu diesem Kommentar

Auf anderen Seiten teilen

Link zu diesem Kommentar

Auf anderen Seiten teilen

Erstelle ein Benutzerkonto oder melde Dich an, um zu kommentieren

Benutzerkonto erstellen

Anmelden

Neue Inhalte aus allen Foren

Beliebte Inhalte aus allen Foren