een nieuw schooljaar is in volle gang, dus scholen beginnen na te denken over de vraag of studenten op schema zijn om aan de academische normen van hun staat te voldoen. Ze zijn ook waarschijnlijk denken vooruit over de staat prestatietests, de onafhankelijke en objectieve examens studenten nemen om te bepalen of ze leren op het juiste niveau.
tegelijkertijd vragen sommige ouders zich misschien af of ze hun kind moeten afmelden voor deze tests. Als een individuele handeling, opt-out van tests is als opt — out van de jaarlijkse medische controles-het levert geen informatie en maakt niet gezonder. Als een collectieve handeling, Opting out ondermijnt wat kan worden geleerd van testscores. Als ouders van goed presterende studenten in een school allemaal afmelden, zal de gemiddelde score van die school lager zijn (en vice versa voor slecht presterende studenten). Wie wordt geholpen is onduidelijk.
welke examens test weerspiegelt wat Staten willen dat hun studenten te leren-de normen. Het vergelijken van gemiddelde scores tussen scholen en districten is alleen mogelijk omdat dezelfde test wordt gedaan. Bij het meten van wat studenten weten, testen zijn een enorme troef, het verstrekken van belangrijke en betrouwbare informatie die niet op andere manieren kan worden geleerd.
om zeker te zijn, niet veel mensen kijken uit naar het nemen van tests. Maar als we op de muur van onze dokter kijken en een plaquette zien dat ze gecertificeerd is, zouden we kunnen denken dat certificering een goede zaak is. De dokter is geslaagd voor een test. Of een advocaat kan toegelaten worden tot de balie, wat betekent dat hij geslaagd is voor het examen van de staat, een test. Een gecertificeerde accountant zal een reeks tests hebben doorstaan. Niemand wil een arts, advocaat of accountant wiens kennis onder de geaccepteerde standaard ligt.
hetzelfde zou op scholen moeten gelden. Het is dus nuttig om een stap terug te doen en een belangrijke vraag te stellen: geeft de testscore aan wat een kind Weet? Als dat zo is, doet het waarvoor het is ontworpen. Tentamen scores worden vaak bespot als zijnde het resultaat van “lesgeven aan de test,” maar wat mensen die die zin gebruiken zijn echt klagen over is rote en levenloos onderwijs. Levenloos lesgeven en lesgeven op de proef zijn twee verschillende dingen. Echt lesgeven aan de test staat centraal in effectief lesgeven, zolang de examens weerspiegelen wat studenten verondersteld worden te leren.
hoe tests worden gemaakt
voor ouders die geen opvoeders zijn, lijkt het proces van het maken van gestandaardiseerde tests een grote zwarte doos. In feite is het een rigoureus en zeer wetenschappelijk proces, een proces dat is ontwikkeld over 100 jaar en weerspiegelt onderzoek door generaties van gewaardeerde wetenschappers. Het heeft zijn eigen subveld, psychometrie, en elk jaar universiteiten graduate nieuwe Ph. D.s in dat subveld.
We kunnen denken aan grootschalige testontwikkeling door eerst na te denken over testontwikkeling in miniatuur. Bedenk eens hoe een leraar op een middelbare school een test zou kunnen ontwerpen met betrekking tot bijvoorbeeld lineaire vergelijkingen in de algebra.
de leraar leverde een bepaalde hoeveelheid materiaal over het onderwerp in de vorm van klassikaal onderwijs, huiswerk en andere opdrachten zoals groepsactiviteiten of online lessen. Cruciaal, wat de leraar onderwezen moet betrekking hebben op een set van inhoud normen die elke staat heeft ontwikkeld en meestal posten online.
Hier is een algebra standaard uit de gemeenschappelijke kern: Los lineaire vergelijkingen en ongelijkheden op in één variabele, inclusief vergelijkingen met coëfficiënten vertegenwoordigd door letters. (Geïnteresseerde lezers kunnen hier andere standaarden voor algebra zien en kunnen alle standaarden hier vinden.)
voor een leraar geeft deze standaard aan dat haar leerlingen dit moeten kunnen: voor de vergelijking 3x + 4 = 13, bepaal dat x gelijk is aan 3. Of, als de vergelijking ax + b = c is, kunnen oplossen voor x is gelijk aan (c-b) / a. in deze tweede vergelijking worden coëfficiënten weergegeven als letters, zoals de standaard vraagt.
voor de leerkracht die wil weten of haar leerlingen aan de norm voldoen, zou ze kunnen denken dat een redelijke vraag is om hen te vragen 15y + 10 = 40 op te lossen. De testvraag bevat een subtiel verschil-studenten moeten oplossen voor y in plaats van x-maar het is nog steeds een vergelijking met een enkele variabele. De leraar kan de moeilijkheidsgraad een beetje verhogen door studenten te vragen om y + 3y + 10 = 50 op te lossen. Studenten moeten de twee Y-termen toevoegen, maar het is nog steeds een vergelijking met een enkele variabele.
die moeilijke vragen moeten er zijn
als de test te veel moeilijke vragen bevat, en geen studenten krijgen een antwoord goed, het examen heeft wat test ontwerpers noemen een vloer. Met alle leerlingen die 0 scoren, kan de leraar niet onderscheiden wat haar leerlingen weten: de vloer blokkeert de leraar om te weten welke leerlingen een laag kennisniveau hebben en welke een hoog niveau hebben.
Op dezelfde manier, als de leerkracht de test zo gemakkelijk maakt dat veel leerlingen alle antwoorden goed krijgen, zal ze een plafondeffect hebben gecreëerd. Sommige studenten hebben echte vaardigheden boven hun score, maar het plafond blokkeert de leraar om het te weten, want als alle testscores 100 procent zijn, zien alle studenten er hetzelfde uit.
om plafondeffecten en vloereffecten te vermijden, zijn er vragen nodig met een hogere en een lagere moeilijkheidsgraad. Studenten met sterke kennis zijn in staat om de moeilijkere vragen te beantwoorden; studenten met zwakkere kennis niet.
hetzelfde ontwikkelingsproces wordt op veel grotere schaal gebruikt voor beoordelingen zoals de PARCC-test (het acroniem staat voor The Partnership for Assessment of Readiness for College and Careers), Smarter Balanced, en de Texas STAAR-test, de State Of Texas Assessment of Academic Readiness. Hier zijn de standaarden het uitgangspunt voor het ontwerpen van de tests (hier is een visualisatie van het proces).
opvoeders en testdeskundigen ontwikkelen banken van vragen met betrekking tot deze normen, zoals de bovenstaande algebravragen. Deze worden onder de loep genomen om ervoor te zorgen dat ze testen wat de normen vereisen en dat hun formulering duidelijk is en niet ongepast of bevooroordeeld ten opzichte van welk ras of geslacht dan ook.
bijvoorbeeld, een wiskundige vraag waarbij het slaggemiddelde van een honkbalspeler wordt berekend, kan een probleem vormen voor studenten die geen honkbal spelen of niet bekend zijn met de regels. Het herzien van de formulering om te gaan over het berekenen van een eenvoudig gemiddelde zonder verwijzing naar honkbal zou de oplossing kunnen zijn, als zou gewoon een andere vraag te vervangen.
nauwgezette inspanningen worden in deze tests geïnvesteerd. Elke vraag op de PARCC examens, bijvoorbeeld, wordt beoordeeld door 30 of meer mensen voordat het wordt gebruikt. Vragen die de cut maken worden vervolgens pilot-getest in 14 staten en bijna 16.000 scholen. Slimmer gebalanceerd volgt een soortgelijk proces, het testen van meer dan 5.000 items in 21 staten en meer dan 5.000 scholen.
op elk niveau zal de test waarschijnlijk op zijn minst een paar echt moeilijke vragen bevatten die veel verder gaan dan de mogelijkheden van de studenten in die klas. Studenten (en leraren) hebben de neiging om dit soort vragen te onthouden, maar ze zijn niet op de test gewoon om pijn en ongemak te creëren. Integendeel, het zaaien van de test met moeilijke vragen vermijdt het plafond effect en helpt onderscheid te maken tussen studenten die een basisniveau van vaardigheid en die op een gevorderd niveau. Er kunnen nog steeds studenten zijn die alle vragen verkeerd of juist krijgen, maar het ontwerp van de tests maakt het onwaarschijnlijk dat het gebeurt.
sommige klachten zijn verdiend, sommige zijn niet
sommige aspecten van tests trekken terecht klachten. Bijvoorbeeld, test-score rapporten aan ouders zijn vaak beladen met statistische jargon zoals normen, percentielen, normale curve equivalenten, stanines, lexiles, en vaardigheidsniveaus die zijn gebaseerd op … wie weet wat.
een ouder wiens kind scoort op het 65e percentiel in de vierde klas en het 65e percentiel in de vijfde klas kan zich afvragen of hij of zij stilstaat. Het kind is niet — in feite heeft de student een jaar aan materiaal geleerd, omdat het kind beter scoorde dan 65 procent van de vierdeklassers en dan, een jaar later, beter dan 65 procent van de vijfdeklassers. Maar test ontwerpers hebben zelf geen gunsten gedaan door het verstrekken van rapporten die ouders vereisen om te worstelen met statistische concepten om zin van scores te maken.
sommige ouders kunnen de testscore van een kind zien en denken dat het verkeerd moet zijn omdat ze weten dat hun kind beter is in wiskunde (of lezen, of wetenschap) dan dat. Misschien had de student een slechte dag-ziekte, afleiding van de familie, een overgeslagen ontbijt. Ouders moeten scores bekijken tegen de achtergrond van andere indicatoren van hoe hun kind het doet op school, zoals cijfers op rapportkaarten.
ouders kunnen ook bezorgd zijn dat de testscores van hun kind worden gebruikt als basis voor de evaluatie van de leraar van hun kind, een ontwikkeling in de afgelopen tien jaar die ontstond als reactie op de druk op Staten en schooldistricten om de testscores te verhogen. Geeft de leraar van hun kind niet meer om de score dan om hun kind?
nou, nee-de meeste systemen voor het beoordelen van leraren geven slechts een matig gewicht aan scores, terwijl het organiseren en beheren van klaslokalen krijgen meer gewicht. En het idee dat leraren die om hogere scores geven een slechte zaak is, weerspiegelt een topsy-turvy kijk op onderwijs, waarin leraren hun doelen bereiken — hun leerlingen laten leren wat er in de normen staat — op de een of andere manier een probleem is.
sommige debatten over tests zijn gebaseerd op een magere basis. Jaarlijkse staatstests nemen bijvoorbeeld niet veel instructietijd in beslag. Ouders kunnen bezorgd zijn dat de leraar van hun kind les geeft aan de test, maar, zoals hierboven beschreven, tests zijn ontworpen om kennis te meten over dezelfde normen waarop de klas curricula zijn gebaseerd.
dus, terwijl dit schooljaar zich ontvouwt, laten we niet vergeten waarom Staten leerlingen testen: om te zien of ze leren op het juiste niveau. En laten we begrijpen dat tests worden gemaakt door middel van een betrouwbaar proces, net als de examens die onze artsen, advocaten en accountants moeten nemen.Mark Dynarski, oprichter en voorzitter van Pemberton Research, is een education fellow aan het George W. Bush Institute.
stuur een brief naar de Editor