Semi-automatisch generierte Leseverständnistests
Bachelor
Studienform
Förderprogramm / Auszeichnung
Das Projekt Semi-automatisch generierte Leseverständnistests ermöglicht es Lehrenden, Leseverständnistests zu Texten generieren zu lassen. Nach abgeschlossener Auswahl und Anpassung der Fragen können die ausgewählten Fragen auf unterschiedliche Art exportiert werden, zum Beispiel als einfaches Textdokument oder als Übungsaufgabe für Moodle oder Jack.
In vielen Lehrveranstaltungen wird zusätzlich zu den Vorlesungen ergänzende und vertiefende Literatur bereitgestellt. Dieses Angebot wird von den Studierenden jedoch oft nicht wahrgenommen. Leseverständnistests gelten als ein Weg, Studierende zur Beschäftigung mit der zu einer Vorlesung bereitgestellten Literatur zu motivieren (Howard, 2004). Die Studierenden können so eigene Wissenslücken frühzeitig erkennen und setzen sich mit dem Vorlesungsstoff zusätzlich auseinander. Darüber hinaus stellen sie auch den Lehrenden Feedback über mögliche Verständnisprobleme und Wiederholungsbedarf bei den Studierenden zur Verfügung. Damit Leseverständnistests überhaupt wirksam werden können, müssen diese jedoch erst einmal vorhanden sein. Der Zusatzaufwand für Lehrende zur Generierung solcher Tests ist jedoch erheblich, weswegen diese oft nicht oder nicht in ausreichendem Umfang eingesetzt werden. Ebenso müssen die Tests möglichst gut in den Lehrablauf integriert werden. Freiwillige oder vertiefende Angebote werden kaum genutzt, wenn diese als nicht prüfungsrelevant erscheinen. Das Projekt adressiert beide Punkte, indem zum einen ein System zur semi-automatischen Generierung von Leseverständnistests zur Verfügung gestellt wird und zum anderen die Integration in bestehende E-Learning-Umgebungen sichergestellt und evaluiert wird.
Erstellung der Fragen
Bei der Erstellung der Fragen werden zu jedem eingelesenen Text als erster Schritt die wichtigsten darin enthaltenen Schlüsselwörter identifiziert, um Fragen stellen zu können, die zentral für den Text sind. Das kann sowohl bedeuten, dass gezielt nach einem solchen zentralen Konzept gefragt wird, dies also die Antwort auf eine Frage ist, oder dass eine Frage zu diesem Konzept gestellt wird, es also in der Frage selbst enthalten ist. Die Schlüsselwörter werden bestimmt, indem den Worten des Textes Werte zugeordnet werden, die ihre Besonderheit ausdrücken sollen. Zur Ermittlung dieser Werte wird die Häufigkeit von Wörtern im Text mit der in einem großen Hintergrundkorpus von Wörtern (Web1T5; Brants and Franz, 2006) verglichen. Sätze, die Schlüsselwörter enthalten, werden dann intern als syntaktische Strukturen
repräsentiert, um sie für das System verarbeitbar zu machen. Aus dieser Struktur können anschließend unter Anwendung von Transformationsregeln Fragen generiert werden. Zunächst werden Teile der Satzstruktur markiert, die sich als Antwort auf eine Frage eignen. Im Anschluss werden zu diesen Antwortkandidaten durch weitere Regeln entsprechende Fragen generiert. Die Generation der Fragen folgt einem Übergenerationsansatz, sodass eine Kuration der erstellten Fragen durch die Benutzer*innen erforderlich ist.
Anwendung aus Nutzer*innensicht
Die Anwendung lässt sich aus Sicht der Nutzer*innen in zwei Schritte gliedern: das Einlesen von Texten und die anschließende Auswahl von Fragen. Um die Verständlichkeit der Oberfläche zu erhöhen, gibt es für die einzelnen Bereiche kleine Fragezeichen-Icons, über die die
Nutzer*innen Informationen zur Benutzung das System erhalten können. Die Nutzer*innen haben die Möglichkeit, einen Ausgangstext in Form eines pdf- oder txt-Dokuments zur Verfügung zu stellen oder den Text direkt in ein Textfeld einzugeben. Es werden sowohl deutsche als auch englische Texte unterstützt und die hochgeladenen Texte werden zur Übersicht in einer Tabelle dargestellt. Das Klicken auf Generate Questions startet den Extraktionsprozess für alle diese Texte.
Nach erfolgter Extraktion der Fragen werden diese in der in Abbildung 1 gezeigten Oberfläche dargestellt.

Abbildung 1: Menü zum Hochladen von Text
Die linke Spalte zeigt alle generierten Fragen, aus denen die Anwender*innen unkompliziert diejenigen auswählen können, die sie als geeignet empfinden. Die ausgewählten Fragen werden dann in einer separaten Liste gesammelt. Natürlich ist es auch möglich Fragen zu löschen oder anzupassen. Standardmäßig wird die Übersicht generierter und ausgewählter Fragen mit einem einfachen Menü dargestellt, dass es den Nutzer*innen erlaubt, durch Seiten von generierten Fragen zu blättern. Dies gibt uns als Entwickler*innen die Möglichkeit, die Fragen so zu ordnen, dass zunächst diejenigen angezeigt werden, von denen vermutet wird, dass die Benutzer*innen sie am sinnvollsten finden werden. Alternativ zu dieser einfachen Oberfläche können die Benutzer*innen auch auf ein erweitertes Menü umschalten, das Möglichkeiten zur Filterung der generierten Fragen bietet. Dieses Menü ist in Abbildung 2 zu sehen.

Abbildung 2: Erweitertes Menü zur Auswahl von Fragen
Das Menü erlaubt die Fragen per Freitextsuche zu filtern oder bestimmte Fragetypen und Schlüsselwörter auszuwählen, die die Fragen enthalten sollen. Dies kann zum Beispiel nützlich sein, wenn es ein spezielles Konzept gibt, zu dem eine Frage gestellt werden soll. Nach abgeschlossener Auswahl und Anpassung der Fragen können die ausgewählten Fragen auf unterschiedliche Art exportiert werden, zum Beispiel als einfaches Textdokument oder als Übungsaufgabe für Moodle oder Jack.
Auf technischer Seite ist es uns gelungen, ein bestehendes Fragengenerierungssystem (Heilman 2010) auf die deutsche Sprache anzupassen und in ein Userinterface zu integrieren. Diese Software ist als Webservice frei zugänglich und wird auch nach Projektende verfügbar sein. Bei der ersten Erprobung wurde deutlich, dass die regelbasierte Erstellung von Fragen viele vergleichsweise triviale Fragen nach einzelnen Fakten generiert. Gleichzeitig sind aber oft die nicht-trivialen Fragen diejenigen, die eine intensivere Beschäftigung mit dem Text verlangen. Ein wünschenswerter nächster Forschungsschritt, der über die Laufzeit des Projekts hinausweist, ist daher die Ausweitung der Fragengenerierung auf nicht-triviale Fragentypen. Da bestehende Datensätze aus dem Bereich der Machine Comprehension, die oft als Trainingsmaterial für die Fragengenerierung genutzt werden, ebenfalls überwiegend einfache faktische Fragen enthalten, ist die Erstellung neuer Ressourcen für didaktisch sinnvolle Fragen eine spannende Frage für anschließende Forschungen.
Zuletzt aktualisiert: Nov. 21, 2025
Prof. Dr.-Ing. Torsten Zesch
Fakultät für Informatik
Sprachtechnologie
torsten.zesch@uni-due.de
Dr. Andrea Horbach
Fakultät für Informatik
Sprachtechnologie
andrea.horbach@uni-due.de





