Das Ende von Scantron – Der Atlantik

Durch Kürzungen und Kürzungen bei der Finanzierung, Integration und Resegregation, Panik und Reformen, Weltkriege und Kulturkriege haben amerikanische Studenten durchweg mindestens eines gut gelernt: wie man einen Bleistift Nr. 2 zückt und Prüfungsantworten auf einem mit Zeilen bedruckten Blatt markiert nach Blasenreihe. Egal, ob Sie ein iPad-Baby oder ein Babyboomer sind, die Chancen stehen gut, dass Sie mindestens ein paar, wenn nicht sogar ein paar Hundert dieser maschinell bewerteten Multiple-Choice-Formulare ausgefüllt haben. Sie sind seit langem die Hauptzutat in einer Buchstabensuppe standardisierter Tests, sowohl nationaler (SAT, ACT, TOEFL, LSAT, GRE) als auch lokaler (SHSAT, STAAR, WVGSA). Und sie werden sowohl in Akademien mit einem Jahreseinkommen von 50.000 US-Dollar als auch in den ärmsten öffentlichen Schulen verwendet, wo die klassischen grünen oder blauen Scantron-Antwortbögen die täglichen Tests in jedem Fach begleiten können.

Die maschinelle Bewertung, mittlerweile ein Synonym für die Marke Scantron wie Taschentücher für Kleenex, ist so beliebt, weil sie Millionen von Studenten schnelle und unkomplizierte Ergebnisse liefern kann. Diese Technologie wiederum hat eine Ära der Multiple-Choice-Tests eingeleitet. Warum beinhaltet der Englischunterricht nicht nur das Schreiben von Aufsätzen, sondern auch die Auswahl, welches von vier möglichen Themen eine Passage darstellt? Warum erfordert die Infinitesimalrechnung nicht nur das Schreiben von Beweisen, sondern auch die Auswahl der richtigen Lösung aus verschiedenen vorgegebenen Zahlen? Das liegt vor allem am Scantron und seinen Brüdern.

Doch schon bald wird es in dem Land möglicherweise die erste Generation seit Jahrzehnten geben, die nicht darauf trainiert ist, instinktiv eine Reihe winziger Antwortblasen ohne Fehlmarkierungen auszufüllen. Der SAT wird nächstes Jahr vollständig digitalisiert; die ACT-, AP-Prüfungen und zahlreiche staatliche Tests haben dies bereits getan oder werden folgen. Auch die Teilnahme an Klassenquizzen könnte eines Tages darin bestehen, nicht mehr in einem Antwortbogen herumzusprudeln, sondern auf einer Tastatur zu tippen oder auf ein Tablet zu tippen. Das Aufkommen der automatischen Multiple-Choice-Bewertungstechnologie hat die amerikanische Bildung grundlegend mehr geprägt als vielleicht alles andere. Jetzt könnte sein Untergang dasselbe bewirken.

Ein amerikanischer Schüler im frühen 20. Jahrhundert hätte während seiner gesamten Schulzeit möglicherweise keinen einzigen Multiple-Choice-Test absolviert. Zu diesem Zeitpunkt konzentrierten sich die Beurteilungen in der Regel auf Aufsätze, Projekte, mündliche Prüfungen und andere Aufgaben, die mehr Zeit für die Beantwortung durch die Schüler und für die Benotung durch die Lehrer erforderten, so Linda Darling-Hammond, emeritierte Professorin für Pädagogik an der Stanford University und langjährige bundesstaatliche Bildungspolitikerin Hersteller, sagte es mir. Dieses Modell war ganzheitlicher als ein Multiple-Choice-Test, aber auch anfällig für Subjektivität und Voreingenommenheit – und teilweise nur deshalb möglich, weil weit weniger Kinder eine formelle Bildung erhielten.

Bald jedoch suchten Lehrer und Regierungsbeamte nach Möglichkeiten, die schnell steigenden Schülerzahlen zu bewerten. Im Jahr 1900 besuchten etwa 10 Prozent der Teenager die High School; 1940 waren es etwa 70 Prozent. Auch die Hochschulen überlegten, wie sie aus einem viel größeren Bewerberpool auswählen können. Es sei für Pädagogen nicht länger möglich, sich bei der Beurteilung von Schülern „auf ihre Augen und Ohren zu verlassen“, sagte mir Jack Schneider, Bildungshistoriker an der University of Massachusetts in Amherst. Schulen und Schulbezirke benötigten Daten.

Der Multiple-Choice-Test machte einfach Sinn. Obwohl bereits 1845 einige standardisierte Tests existierten, umfassten sie eher offene Fragen. Die erste Multiple-Choice-Prüfung in den Vereinigten Staaten war ein Lesetest, der während des Ersten Weltkriegs in Kansas durchgeführt wurde. Kurz darauf entstanden mehrere weitere, darunter ein militärischer Eignungstest im Jahr 1917, der bald in eine Version für Studenten umgewandelt wurde, und dann der SAT im Jahr 1926. Durch begrenzte, feste Antworten auf jede Frage entstand eine einheitliche Methode zur numerischen Darstellung und Sortierung von Studenten. Einige gingen aufs College, andere auf eine Handelsschule und so weiter. Selbst ohne Maschinen könnten Administratoren und Lehrer Multiple-Choice-Tests viel schneller von Hand bewerten, als sie einen Aufsatz oder einen Geometriebeweis lesen könnten.

Bei der Beurteilung von Schülern durch Multiple-Choice-Tests wurde natürlich davon ausgegangen, dass die Prüfungen objektive Einblicke in die Fähigkeiten der Schüler lieferten. Das taten sie nicht, und stattdessen bestätigten viele Prüfungen nur bestehende Vorurteile in Bezug auf Rasse und Klasse, sagte mir Sevan Terzian, Historiker für amerikanische Bildung an der University of Florida. Ob richtig oder nicht, immer mehr Schüler meldeten sich in der Schule an und legten diese Prüfungen ab, was die Grenzen menschlicher Bewerter deutlich machte. „Da viele Studenten diese Prüfungen ablegen … wird das wirklich wichtig: die Fähigkeit, alle diese Prüfungen schnell zu benoten, damit es möglich ist, zeitnah Ergebnisse zu erhalten, damit die Studenten weitermachen können“, Ethan Hutt, der an der Schule Pädagogik und Prüfungen studiert Die University of North Carolina in Chapel Hill hat es mir erzählt. Geschwindigkeit war bei Prüfungen von entscheidender Bedeutung, die sich auf die Hochschulzulassung, die Noten und den Abschluss auswirken konnten. Auf der Suche nach mehr Effizienz brachte IBM 1937 die erste automatische Ritzmaschine auf den Markt, die auf der Messung der elektrischen Leitfähigkeit von Bleistiftmarkierungen beruhte.

Der eigentliche Durchbruch gelang jedoch in den 1950er Jahren, als Everett Lindquist, Mitbegründer des ACT, ein optisches Markierungserkennungssystem erfand, das bis heute die Grundlage vieler heute verwendeter Testbewertungsgeräte ist. Die Technologie identifizierte Markierungen mit Licht anstelle von Elektrizität und war viel schneller und konnte im Vergleich zu den 800 der IBM-Maschine etwa 4.000 Tests pro Stunde auswerten. Der Scanner von Lindquist, schrieb er in seiner Patentanmeldung, würde es „möglich machen, die gewünschte Bewertung durchzuführen“. , Konvertieren, Analysieren und Berichten von Vorgängen in wenigen Tagen oder sogar Stunden im Vergleich zu Wochen. Mit anderen Worten: Es ist nicht erforderlich, 50 bis 100 Mitarbeiter zu beschäftigen.“

Bald war die maschinelle Sortierung allgegenwärtig. Testergebnisse seien während des Kalten Krieges „wie ein BIP-Maß für Bildung“ geworden, erzählte mir Hutt, und in einem Land, in dem die Bildung so dezentralisiert sei, sei es von entscheidender Bedeutung zu wissen, wo eine Schule im Vergleich zu anderen stehe – und sei in den 1960er-Jahren dadurch leichter zu bestimmen Computer, die große Datenmengen speichern und verarbeiten können. Es sei dieser „Drang nach Vergleichsergebnissen, der wirklich zur Obsession mit standardisierten Tests führt“, sagte Schneider.

Als Scantron 1972 gegründet wurde, waren Multiple-Choice-Tests aufgrund der maschinellen Bewertung bereits zu einem wichtigen Bestandteil der amerikanischen Bildung geworden, und ein enormer Vorstoß für landesweite Tests steigerte nur die Nachfrage nach Bewertungstechnologie. Das Unternehmen und sein Geschäftsmodell trugen dazu bei, dass diese Tests noch verbreiteter wurden: Scantron stellte preiswerte Bewertungsmaschinen zur Verfügung und erzielte einen Gewinn durch den Verkauf von Antwortbögen an einen eigenen Markt aus Schulen und Schulbezirken. Lehrer hatten sich das A/B/C/D-Format bereits seit Jahren von standardisierten Tests ausgeliehen, aber Scantron bot kleinere, erschwingliche Scanner an, die dies noch einfacher machten. Im Jahr 2019 belieferte Scantron 96 der sogenannten „100 besten Schulbezirke in den Vereinigten Staaten“ und druckte jedes Jahr weltweit rund 800 Millionen Blätter; Ihre Scanner können 15.000 Blatt pro Stunde verarbeiten. Lehrer und Führungskräfte, die bereits davon überzeugt waren, dass diese Tests neutrale Leistungsbeurteilungen ermöglichten, fanden „die Technologie zur Benotung dieser Multiple-Choice-Prüfungen sehr ansprechend“, sagte Terzian.

Nahezu jeder Aspekt der amerikanischen Bildung ist mittlerweile auf Scantron und die maschinelle Benotung ausgerichtet. Die Technologie ermöglichte es Gesetzen des 21. Jahrhunderts wie „No Child Left Behind“, Tests massiv auszuweiten und die Ergebnisse der Schüler an die Finanzierung zu knüpfen. Schulen werden physisch umgestaltet, indem sie ihre Bibliotheken, Turnhallen, Hörsäle und Computerlabore in Prüfungs-, Sammlungs- und Benotungszentren umwandeln; Sie zahlen außerdem 15 bis 20 Cent pro Blatt. Die Schüler bringen an Prüfungstagen Schachteln mit Bleistiften Nr. 2 mit (der Graphit ist besonders undurchsichtig und für den Scanner leichter zu registrieren), teilen Scantron-Memes und versuchen, Möglichkeiten zum Betrügen zu finden, indem sie mehrere Blasen markieren. Pädagogen „lehren auf höchstem Niveau“ und Kinder lernen, im A/B/C/D-Format zu denken, sagte Becky Pringle, Präsidentin der National Education Association, einer der beiden größten Lehrergewerkschaften des Landes Mich.

Die Dominanz der eingeblendeten Antwortbögen und der dünnen roten Markierung neben falschen Antworten beginnt jedoch zu schwinden. Viele standardisierte Tests bieten jetzt mehr offene Fragen, die das Denken höherer Ordnung messen sollen, sagte Linda Darling-Hammond. Und physische Antwortbögen weichen langsam Computerbildschirmen, ein Wandel, der durch die Pandemie und den Fernunterricht beschleunigt wurde: Staatliche Tests, Hochschulzulassungsprüfungen und andere Beurteilungen im ganzen Land werden digitalisiert. Derzeit unterscheiden sich viele Online-Prüfungen nicht wesentlich. Im Januar wird der SAT zum ersten Mal seit mehreren Jahrzehnten keine Blasenblätter mehr verwenden, aber er wird immer noch mit der gleichen Art von Multiple-Choice-Fragen gefüllt sein. Lehrer, die Multiple-Choice-Antworten von Hand überprüfen, einen Antwortbogen durch ein Scantron-Gerät laufen lassen oder die sofortige Benotung auf einem Bildschirm durchführen, sind alles unterschiedliche Technologien, um dieselbe Art von Prüfung auszuwerten und dieselbe Art von Daten zu extrahieren, sei es aus Graphit oder per Klick ein Cursor.

Das ist zumindest vorerst der Fall. Computer könnten das amerikanische Testen durchaus verändern, indem sie kreativere und interaktivere Fragen ermöglichen, sagte mir Kara McWilliams, Vizepräsidentin für Produktinnovation und -entwicklung bei ETS, einem Testunternehmen, das Prüfungen wie den GRE anbietet. McWilliams leitet außerdem das KI-Labor des Unternehmens, das fortschrittliche KI-Modelle verwendet, um Testfragen zu erstellen und bei der Bewertung zu helfen. Nachdem Fachexperten beispielsweise eine große Anzahl von Aufsätzen mit Anmerkungen versehen hatten, konnte ein KI-Programm, das auf diese menschlichen Bewertungen trainiert wurde, Tests selbst bewerten, wobei das endgültige Ergebnis noch von einer Person überprüft wurde. Computer könnten auch zur Bewertung mündlicher Beurteilungen oder Fremdsprachenprüfungen eingesetzt werden, etwa um festzustellen, ob ein Student, der gebeten wurde, „Apfel“ ins Spanische zu übersetzen, ausgesprochen hat manzana korrekt. Ähnlich wie die maschinelle Benotung groß angelegte Multiple-Choice-Tests ermöglichte, könnte es sein, dass die Schüler letztendlich mehr Fragen in freier Form beantworten und mehr Aufsätze schreiben, die genauso schnell und einfach bewertet werden, wie es heute mit einem Scantron-Formular möglich ist. Ein Sprecher von Scantron sagte mir, dass das Unternehmen stolz auf seine „digitalen Lösungen“ sei und „sich auf unsere anhaltende Wirkung in den nächsten 50 Jahren und darüber hinaus freut“.

Wenn die Ära der Multiple-Choice-Tests tatsächlich zu Ende geht, werden die Beurteilungen nicht unbedingt fehlen. Das Format ist nicht nur von Natur aus reduktiv, sondern auch die Form von Frage-und-Antwort-Blasen ist anfällig für Voreingenommenheit. Im Gegenzug haben sie jahrzehntelange Debatten darüber ausgelöst, ob Amerikas standardisierte Tests rassistischer, sexistischer oder klassistischer sind als Alternativen wie Aufsätze und mündliche Prüfungen.

Die Umstellung auf Computer wird uns möglicherweise immer noch nicht von diesen Kämpfen befreien. Scantron und AI sind zwei Versionen eines Computers, der schnelles Feedback gibt und vorgibt, objektiver zu sein, als es ein Lehrer jemals sein könnte. Dennoch müssen die Ergebnisse beispielsweise eines landesweiten Multiple-Choice-Mathetests noch darauf übertragen werden, wie man einen Schüler, der möglicherweise im Rückstand ist, besser unterrichten kann. Auch Erkenntnisse aus Computerprogrammen werden – insbesondere angesichts der vielen Voreingenommenheiten und Ungenauigkeiten von KI-Modellen – wahrscheinlich nicht von den gleichen Fehlern bei der menschlichen Interpretation verschont bleiben. Bessere Daten sind immer noch nur so gut wie das, was Pädagogen damit machen.

source site

Leave a Reply