آیا مدل اندازه گیری راش برای همطرازسازی آزمونها کاربرد دارد؟
محورهای موضوعی : روان درمانگریرسول صادقی 1 , جیم توگنولینی 2
1 - دانشجوی دکتری دانشگاه جدید ولز جنوبی
2 - مدیر کل سازمان پژوهشهای
آموزشی، دفتر استرالیا
کلید واژه: روانسنجی, مدل راش, همطرازسازی, نظریة سؤال-پاسخ,
چکیده مقاله :
پیدایش نظریه های جدید روانسنجی، از جمله نظریة سؤال-پاسخ این امکان را فراهم آورده که بتوان عملکرد دانش آموزانی را که در زمانهای مختلف با آزمونهای متفاوت سنجیده شده اند (با این فرض که آزمونهای مذکور خصیصه مشترکی را می سنجند) با یکدیگر مقایسه کرد. به منظور این مقایسه، آزمونهای مذکور باید همطراز شوند. فرآیند همطرازسازی موجب می شود عملکرد دانش آموزان مختلف در آزمونهای گوناگون در یک مقیاس واحد بیان و مقایسه گردند. این نوع همطرازسازی به طور گسترده ای در کشور استرالیا به کار گرفته می شود تا درصد دانش آموزان در معرض خطر آموزشی را شناسایی و برایشان برنامه های جبرانی ارائه کنند. پژوهش حاضر نتایج حاصل از دو روش همطراز سازی (نسبی و همزمان) با استفاده از مدل اندازه گیری راش (1960) را با یکدیگر مقایسه می کند و به دنبال پاسخگویی به این سؤال است: اگر داده های گردآوری شده برای همطرازسازی با مدل راش تطابق نداشته باشند یا تطابق این داده ها با مدل راش بتدریج کمتر شود نمره های حاصل از همطرازسازی مذکور دستخوش چه تغییراتی می شوند؟ به منظور شبیه سازی داده ها با میزان تطابق متفاوت با مدل راش از برنامه شبیه سازی کامپیوتری (RUMMSims) استفاده شد. یافته ها نشان می دهند که وقتی داده ها با مدل راش تطابق دارند نتایج حاصل از دو روش همطرازسازی با یکدیگر قابل مقایسه هستند، اما هرچه تطابق بین داده ها و مدل راش کاهش می یابد نتایج حاصل از دو روش همطرازسازی به تغییرپذیریهای معناداری منتهی می شوند.
The advent of modern psychometric theory, Item Response Theory (IRT), has enabled performance to be compared over time, across academic year levels where different tests (different items assessing the same construct) have been used for different student groups on different occasions. In order for this to occur, the tests have to be equated. Once they are equated, the students’ performances can be represented along the same scale. Once they are on the same scale they can be directly compared e.g. comparison of Year 3, 5 and 7 in a subject and their performances can be compared to predetermined cut-scores. Test equating of this type is currently used widely in Australia to identify the percentage of students to be ‘at risk’ (below benchmark). The results from two equating procedures (relative anchoring and concurrent equating) used with Rasch (1960) measurement models are compared, as fit to the model gets progressively worse. The research question is what happens to students’ marks as fit to the model varies? Data in this study were generated from the one-parameter logistic model using the Simulation Program for Rasch Data (RUMMSims). The findings of the present study indicate that when data fit the Rasch model there is no significant difference between results produced from the different equating procedures. However, as data fit to the model gets progressively worse, the equating results that emerge from applying different equating procedures generate significant variations
_||_