Algorithmus für Computerized Adaptive Testing zur automatisierten Leistungsrückmeldung. Simulationsstudie am Beispiel eines Studieneingangstests in Mathematik.*

Autor*innen: Stefan Behrendt, Jan Köllner, Kristina Kögler & Christine Sälzer

 

Abstract

Hintergrund
Die fachlichen Eingangsvoraussetzungen der Studierenden sind mit der stärkste Prädiktor für den Erfolg der Studieneingangsphase (Richardson et al., 2012), wobei sich insbesondere zuletzt im Zuge der Corona-Pandemie sichtbare schulische Defizite bei den Studienanfangenden offenbart haben (Engzell et al., 2021). In fast allen Studiengängen – auch über den MINT-Bereich hinaus – sind mathematische Voraussetzungen von grundlegender Bedeutung (Neumann et al., 2017 & 2021). Viele Hochschulen bieten bereits Beratungs- und Fördermöglichkeiten an, um individuellen Passungsproblemen begegnen zu können. Jedoch werden diese Probleme meist zu spät und nur auf aggregiertem Niveau identifiziert und die individuellen Interventionsmöglichkeiten sind dann begrenzt. Insbesondere in den MINT-Fächern sind hohe Studienabbruchquoten die Folge (Falk & Marschall, 2021). Um dieses Problem anzugehen, wurde an der Universität Stuttgart eine Studieneingangsdiagnostik für Basisfähigkeiten der Mathematik entwickelt.
Eine zentrale Bedingung für die zielführende Nutzung eines derartigen Testinstruments in der Studieneingangsphase, zum Beispiel im Rahmen der Mathematik-Brückenkurse, ist eine hohe Zuverlässigkeit, um ein informatives Feedback bereitstellen zu können, bei gleichzeitig geringer Bearbeitungsdauer. Dabei bietet der Digitalisierungsschub die Chance, Methoden des Computerized Adaptive Testing (CAT) anzuwenden (van der Linden & Glas, 2000), die mit vielfältigen methodischen Herausforderungen einhergehen. Im Mittelpunkt unseres Vorhabens steht dabei eine informative und zuverlässige individuelle Leistungsrückmeldung an die Studierenden.

Fragestellung
Dieser Beitrag stellt einen adaptierten CAT-Algorithmus auf Basis des Algorithmus von van der Linden & Ren (2019) vor. Ohne den Einsatz einer Eichstichprobe werden dabei auch die Itemparameter im Erhebungsprozess unter Verwendung geeigneter Prior-Parameter aktualisiert. Die Auswertung für das Leistungsfeedback erfolgt anhand eines Threshold-Modells, welches den verbleibenden Messfehler in das Feedback an die Teilnehmenden integriert. Dies erlaubt noch kürzere Testzeiten, da der Anspruch an die Messgenauigkeit reduziert wird.
In unserem Beitrag beschäftigen wir uns mit der Frage, wie zuverlässig die Leistungseinordnung der Teilnehmenden funktioniert und wie sich diese Zuverlässigkeit im Verlauf der Itemparameter-Updates verändert. Hierzu berichten wir Ergebnisse aus Simulationsstudien und Erkenntnisse aus dem ersten praktischen Einsatz.

Methode
Das Diagnoseinstrument besteht aus vier Testteilen zu verschiedenen Bereichen der Mittelstufenmathematik. Aufgrund des experimentellen Stands des Algorithmus entschieden wir uns, nur den Testteil zu „Bruch- und Potenzrechnung“ mittels CAT zu testen. Aus vorhergehenden klassischen Erhebungen können wir die Verwendung eines zweiparametrischen Item-Response-Theorie-Modells für jeden einzelnen Testteil als geeignet identifizieren. Dieses bildet somit die Basis der Modellierung.
Der CAT nutzt für die Parameter-Updates den GIBBS-Algorithmus in der JAGS-Implementierung (Plummer, 2003). Dabei werden die Personenparameter nach jeder Antwort und die Itemparameter nach Abschluss des Testteils aktualisiert. Das Feedback orientiert sich an einem Schwellwert, der von dem angestrebten Studiengang abhängt. Diese wurden aus der bestehenden Datenbasis abgeleitet. Wir leiten aus der Personenparameter-Verteilung einen Bereichsschätzer ab und interpretieren Leistungen, welche sicher unter dem Threshold liegen als unzureichend; Leistungen, welche sicher über dem Threshold liegen als ausreichend; Leistungen, welche nicht eindeutig sind, als durchschnittlich. Durch den Einbezug des mittleren Rückmeldebereichs kann eine gewisse Messunsicherheit berücksichtigt werden.
Die Simulationsstudien variieren verschiedene Parameter wie die erlaubte Messunsicherheit, die Lage des Thresholds, die Genauigkeit der Item-Priors oder modellkonformes Antwortverhalten. Dabei wird der Einfluss auf verschiedene Gütekriterien – gemessen mit jeweils geeigneten Kennwerten – wie zum Beispiel das Konvergenzverhalten, die erwarteten Häufigkeiten und die Fehlzuordnungen im Feedback ermittelt. Es werden jeweils 1500 Personen und 100 Items modelliert.

Ergebnisse
Wie erwartet konvergieren die Itemdiskriminationsparameter nicht immer. Dem wurde durch Einschränkung des Wertebereichs begegnet.
Das Konvergenzverhalten der Items ist lediglich von der Anzahl der Bearbeitungen abhängig, alle anderen variierten Merkmale haben darauf keinen Einfluss. Betrachtet man die ersten 250 Personen, also diejenigen ohne genaue Itemparameter, und die letzten 250 Personen, also diejenigen mit den genauesten Itemparametern, so ergeben sich nur kleine Unterschiede in der Genauigkeit der Rückmeldung (Fehlerrate 5.5 % bzw. 5.1 %; theoretisch erreichbare Fehlerrate ca. 4 %). Dies spricht dafür, dass die verwendete Art des Feedbacks die Genauigkeitsverluste mangels Eichstichprobe ausgleichen kann. Detailliertere Auswertungen der Simulationen stehen noch aus, sind aber zum Tagungstermin verfügbar.
Momentan läuft der praktische Einsatz. Wir erwarten bis zu N=2000 Proband:innen in die Auswertungen einbeziehen zu können. Dabei können wir auch Vergleiche mit den vorausgehenden Stichproben, welche nicht computerbasiert erhoben wurden, mit insgesamt N=3974 Proband:innen bilden.

 

*Dieser Beitrag wurde im Rahmen des digitalen Jahres der Gesellschaft für Empirische Bildungsforschung (digiGEBF21) eingereicht und ist bis zum 31.12.2022 an dieser Stelle verfügbar. Alle Rechte liegen bei den Verfasser*innen.