TY - JOUR AU - Tengberg, Michael AU - Skar, Gustaf PY - 2016/04/28 Y2 - 2024/03/28 TI - Samstämmighet i lärares bedömning av nationella prov i läsförståelse JF - Nordic Journal of Literacy Research JA - NJLR VL - 2 IS - 1 SE - Original Research Articles DO - 10.17585/njlr.v2.230 UR - https://nordicliteracy.net/index.php/njlr/article/view/230 SP - AB - <p>Tillförlitlighet i bedömning är en avgörande komponent i varje testprogram där testtagares resultat bygger på bedömares tolkningar utifrån en bedömningsskala eller en bedömningsguide. Utförliga svar på öppna uppgifter bedöms exempelvis sällan som antingen ”rätt” eller ”fel”. Istället tillämpas skalan eller bedömningsguiden för att fastställa i vilken utsträckning svaret uppvisar den efterfrågade kompetensen. I den här artikeln redovisas resultat från en studie av bedömarreliabilitet på öppna uppgifter i det nationella provets i svenska läsförståelsedel i årskurs nio. För att undersöka i vad mån provsystemet skapar förutsättningar för god bedömarreliabilitet har sex lärare fått bedöma tre elevers lösningar av 14 öppna uppgifter, totalt 252 bedömningar. Analyserna innefattar konsensusestimat (procentuell samstämmighet och Cohens kappa) och konsistensestimat (ICC). Dessutom har kvalitativa analyser genomförts på uppgiftsnivå för att undersöka orsaker till låg bedömarreliabilitet för specifika uppgifter. Resultaten från studien visar på moderata nivåer av bedömarreliabilitet, både ifråga om kappavärden (.73) och ICC (.82), vilket motsvarar en variation mellan bedömningarna som får stora konsekvenser för elevernas slutgiltiga provresultat. I artikeln diskuterar vi resultatens implikationer för rättvis bedömning av elevers läsförmåga i Sverige. Vi för också ett resonemang om olika sätt att stärka bedömarreliabiliteten det nationella provet i läsförståelse.</p><h3 class="label">English abstract</h3><p><strong>Consistency in Teachers' Assessments of National Tests in Literacy</strong></p><p>Inter-rater reliability is a critical component in any test program where test-takers’ responses are judged by human raters using scales or scoring rubrics. Lengthy responses to open-ended test items are, for instance, rarely judged objectively as either “correct” or “incorrect”. Rather, rubrics are used to determine the extent to which a particular item response displays the expected competence. This paper reports a study of inter-rater reliability in teachers’ assessment of open-ended items in the Swedish national reading test for 9th grade. In order to explore whether the test design supports reliable assessment, six experienced teachers of Swedish were asked to rate the responses of three students on 14 items, 252 ratings in all. Analyses included consensus estimates (percent agreement and Cohen’s kappa) and consistency estimates (ICC). In addition, qualitative item analyses were performed in order to investigate possible causes of low reliability for specific items. Findings indicate moderate levels of inter-rater reliability according to both kappa (.73) and ICC (.82) values, equaling a variation of ratings with large consequences for the students’ final results. Implications for equal assessment of students’ reading ability in Sweden are discussed, as well as some suggestions for necessary future development of the national reading test.</p> ER -