Workshop: | Automatische Kodierung offener Kurztextantworten mit ReCo: Maschinenlernen und natürliche Sprachverarbeitung |
Dozierende*r: | Dr. Fabian Zehner (DIPF Frankfurt; Zentrum für internationale Bildungsvergleichsstudien [ZIB]) Nico Andersen (DIPF Frankfurt) |
Termin: | Donnerstag, 18. November, 10:00–15:00 Uhr inkl. einem kurzen asynchronen Video zur Installation und einem kurzen Video zu R-Vorkenntnissen |
Abstract
Das Auswerten von offenen Textantworten, zum Beispiel in Leistungstests, kann aufwändig und fehleranfällig sein, wenn größere Mengen durch Menschen kodiert werden müssen. So muss zum Beispiel kodiert werden, ob eine Antwort richtig oder falsch ist. Maschinenlernen und natürliche Sprachverarbeitung ermöglichen die automatische Kodierung, die vielfältig verwendet werden kann: zur Unterstützung, Ergänzung oder auch anstelle der menschlichen Kodierer*innen, zur Echtzeitauswertung von Antworten für computer-adaptives Testen oder auch zur Echtzeitauswertung von Antworten der Lernenden im Klassenraum, um nur ein paar Beispiele zu nennen.
Im Workshop erklärten wir die Funktionsweise der Software ReCo (Automatic Text Response Coder; www.reco.science); eine Software, die für das Auswerten von Kurztextantworten konstruiert und im Kontext von large-scale Assessments (PISA) evaluiert wurde. Workshop-Teilnehmer*innen wurden in die Methodik der Software eingeführt, konnten anschließend aber vor allem selbst praktische Erfahrung im automatischen Auswerten von Textantworten sammeln, indem sie die Nutzung der frei verfügbaren Shiny-App aus dem R-Paket shinyReCoR erlernten. Diese leitete Anwender*innen anhand einer graphischen Oberfläche durch den gesamten Prozess vom Datenimport bis hin zum Export der resultierenden Klassifikatoren oder automatisch generierten Kodierung. Nach der Teilnahme am Workshop sollten die Teilnehmer*innen in der Lage sein, mithilfe der Software die Textdaten eigener Datenerhebungen eigenständig auswerten zu können.
ReCo basiert vor allem auf der Anwendung verschiedener Vorverarbeitungsschritte, der latenten semantischen Analyse, Clustering der Antworten zu Antworttypen sowie Maschinenlernen, um Antworttypen mit Kodierungen in Verbindung zu bringen. ReCo kann dabei allerdings nicht nur auswerten, ob eine Antwort richtig ist, sondern extrahiert auch weitere Antwortmerkmale, wie etwa inwieweit Antwortelemente den Text paraphrasieren.
Ziele
- Kennenlernen und konzeptuelles Verständnis der Methodik hinter der Software ReCo zum automatischen Kodieren von Kurztextantworten (natürliche Sprachverarbeitung, Latente Semantische Analyse, Clustering, naïve Bayes, Kreuzvalidierung)
- Befähigung der Bedienung von ReCos Shiny-App für Textdaten eigener Studien
- Befähigung der Weiterverwendung der Ergebnisse in R und darüber hinaus
Voraussetzungen
- Oberflächliche Kenntnisse von R hilfreich, aber nicht nötig (graphische Benutzungsoberfläche)
Literatur
Landauer, T. K., McNamara, D. S., Dennis, S., & Kintsch, W. (Eds.) (2011). Handbook of latent semantic analysis. Erlbaum: Mahwah.
Witten, I. H., Frank, E., Hall, M. A., & Pal, C. J. (2016). Data Mining: Practical Machine Learning Tools and Techniques (4. Aufl.). Morgan Kaufmann series in data management systems. s.l.: Elsevier Reference Monographs.
Zehner, F., Sälzer, C. & Goldhammer, F. (2016). Automatic coding of short text responses via clustering in educational assessment. Educational and Psychological Measurement, 76(2), 280–303. doi: 10.13140/RG.2.2.26846.84800
Software
- Installiertes R (Version ≥4.0.0) und notwendige R-Pakete, allerdings keine substanziellen R-Kenntnisse nötig. Video zur Installation im Vorfeld verfügbar hier.
- Idealerweise laden die Teilnehmer*innen das shinyReCoR-Paket im Vornherein runter und installieren es.
- Je nach Setup, benötigen Windows-Nutzer*innen vor der Paketinstallation evtl. Rtools.
- Download und Installation entweder (1) automatisch durch Eingabe von source(„https://www.reco.science/latest“) in der R(Studio)-Konsole oder (2) manuell (Instruktionen hier).
- RStudio oder ein moderner Browser