Using Multiple Regression in the Hurwicz Method to Determine the Cut Score of Tests as an alternative to Angoff and Bookmark Methods
Using Multiple Regression in the Hurwicz Method to Determine the Cut Score of Tests as an Alternative to Angoff and Bookmark Methods
Subject Areas : Instruction
maryam parsaiean 1 , Ebrahim Khodaie 2 , balal Izanloo 3 , Keyvan Salehi 4 , Sima Naghizadeh 5
1 - Department of Curriculum development & amp; instruction methods. Faculty of Psychology and Education Tehran University
2 - Department of Curriculum Development & Instruction Methods, Faculty of Psychology and Education University of Tehran
3 - Associate Professor, University of Kharazmi, Faculty of Psychology and Education , Tehran,
4 - Associate Professor, Faculty of Psychology and Education, University of Tehran, Tehran, ds. Faculty of Psychology and Education Tehran University
5 - Assistant Professor, National Organization of Educational Testing (NOET), Tehran, Iran,Email
Keywords: Cut score, Hurwicz method, multiple regression, Angoff method, bookmark method, cross-validation, Tolimo test,
Abstract :
The aim of the current research is to determine the cutoff score of the Tolimo test for doctoral candidates applying for study opportunities abroad by applying multiple regression in the Hurwicz method, which is a decision-making approach. The statistical population of this research includes the candidates of one course of Tolimo exam, which were 461 people. The research method of this study is based on a quantitative approach, and in terms of its purpose, it is part of applied research, and in terms of analysis, it is part of secondary analysis studies, and the scores of all 461 candidates in each of the grammar, reading comprehension, listening, and writing sections are used to determine the cutoff score. becomes Based on the results of the study and considering the small amount of classification error, if the total score is used, the average value of the Hurwicz index is the cutoff score of 481, and if the linear regression model is significant, using the results of the Hurwicz index in multiple regression, the cutoff score is 491. It can be used as a cutoff score. The proposed method significantly improves the accuracy of determining the cutoff score compared to Angoff and Bookmark methods. According to the findings obtained from cross-validation and error values, the cutoff score obtained from the combined strategy leads to more accurate results with zero classification error. Keywords: Cut score, Hurwicz method, multiple regression, Angoff method, bookmark method, cross-validation, Tolimo test
استفاده از رگرسیون ... خدایی و همکاران
Journal of Instructio and Evaluation Vol. 17, No. 65, Spring 2024
|
"Research article" doi: 10.71767/jinev.2024.4013014
Using Multiple Regression in the Hurwicz Method to Determine the Cut Score of Tests as an Alternative to Angoff and Bookmark Methods1
Maryam Parsaeian 2, Ebrahim Khodaie3*, Balal Izanloo 4, Keyvan Salehi5, Sima Naghizadeh6
(Received: 2024.01.17 - Accepted: 2024.05.14)
1- The present article is taken from the thesis of Maryam Parsaeian, Ph. D. student in the field of Evaluating and measuring in University of Tehran.
2- Ph.D. student, Faculty of Psychology and Education, University of Tehran, Tehran, Iran.
3- Associate Professor, Faculty of Psychology and Education, University of Tehran, Tehran, Iran.
*- Corresponding Author: khodaie@ut.ac.ir
4- Assistant Professor, University of Kharazmi, Faculty of Psychology and Education, Tehran, Iran
5- Associate Professor, Faculty of Psychology and Education, University of Tehran, Tehran, Iran.
6- Assistant Professor, National Organization of Educational Testing (NOET), Tehran, Iran,
Abstract
The aim of the current research is to determine the cutoff score of the Tolimo test for doctoral candidates applying for study opportunities abroad by applying multiple regression in the Hurwicz method, which is a decision-making approach. The statistical population of this research includes the candidates of one course of Tolimo exam, which were 461 people. The research method of this study is based on a quantitative approach, and in terms of its purpose, it is part of applied research, and in terms of analysis, it is part of secondary analysis studies, and the scores of all 461 candidates in each of the grammar, reading comprehension, listening, and writing sections are used to determine the cutoff score. Based on the results of the study and considering the small amount of classification error, if the total score is used, the average value of the Hurwicz index is the cutoff score of 481, and if the linear regression model is significant, using the results of the Hurwicz index in multiple regression, the cutoff score is 494. It can be used as a cutoff score. The proposed method significantly improves the accuracy of determining the cutoff score compared to Angoff and Bookmark methods. According to the findings obtained from cross-validation and error values, the cutoff score obtained from the combined strategy leads to more accurate results with zero classification error.
Keywords: Cut score, Hurwicz method, multiple regression, Angoff method, bookmark method, cross-validation, Tolimo test
«مقاله پژوهشی» doi: 10.71767/jinev.2024.4013014
استفاده از رگرسیون چندگانه در روش هارویچ برای تعیین نمره برش آزمونها به عنوان جایگزینی برای روشهای آنگوف و بوکمارک1
مریم پارساییان2، ابراهیم خدایی3*، بلال ایزانلو4، کیوان صالحی5، سیما نقیزاده6
(دریافت: 27/10/1402 ـ پذیرش: 25/02/1403)
چکیده
هدف پژوهش حاضر این است که با به کارگیری رگرسیون چندگانه در روش هارویچ که یک رویکرد تصمیمگیری است نمره برش آزمون تولیمو برای داوطلبان دکتری متقاضی فرصتهای مطالعاتی خارج از کشور را تعیین کند. جامعه آماری این پژوهش شامل داوطلبان یک دوره از آزمون تولیمو است که 461 نفر بودند. روش پژوهش این مطالعه مبتنی بر رویکرد کمی است و از نظر هدف جزء پژوهشهای کاربردی و از نظر تحلیلی جزء مطالعات تحلیل ثانویه محسوب میشود و از نمرههای همه 461 داوطلب به هر کدام از بخشهای گرامر، درک مطلب، شنیداری و نوشتاری برای تعیین نمره برش استفاده میگردد. بر اساس نتایج مطالعه و با توجه به مقدار خطای طبقهبندی ناچیز، در صورت استفاده از نمره کل، میانگین مقادیر شاخص هارویچ به نمره برش 481 و در صورت معنیدار بودن مدل رگرسیون خطی با به کارگیری نتایج شاخص هارویچ در رگرسیون چندگانه، از نمره برش 494 به عنوان نمره برش میتوان استفاده کرد. روش پیشنهادی به طور قابل توجهی دقت تعیین نمره برش را در مقایسه با روشهای آنگوف و بوکمارک بهبود میبخشد. با توجه یافتههای به دست آمده از اعتبارسنجی متقابل و مقادیر خطا، نمره برش بهدستآمده از استراتژی ترکیبی منجر به نتایج دقیقتر و با خطای طبقهبندی صفر میشود.
واژههای کلیدی: نمره برش، روش هارویچ، رگرسیون چندگانه، روش آنگوف، روش بوکمارک، اعتبارسنجی متقابل، آزمون تولیمو
مقدمه
نمره برش نشاندهنده یک نقطه تصمیمگیری است که در آن تصمیم برای پذیرش یا رد یک آزمودنی بر اساس مقایسه نمره به دست آمده فرد با نمره برش تعیین شده حاصل میشود. بنابراين نمره برش مقدار آستانهای را نشان ميدهد که پذيرش و عدم پذيرش در آزمون را مشخص ميكند. بدين صورت كه هر مقدار بيشتر از نمره برش، به معناي قبولي در آزمون و هر مقدار کمتر از نمره برش به معناي عدم قبولي در آزمون در نظر گرفته میشود. در تعيين نمره برش برای طبقهبندی آزمودنيها، دو نوع خطا رخ میدهد. 1) خطاي مرتبط با نمره برش كه خطاي اندازهگيري7 یا خطای استاندارد8 ناميده ميشود و 2) خطاي مرتبط با تصميمگيري بر اساس نمره برش كه خطاي طبقهبندي9 ناميده ميشود (برك10، 1986). خطای طبقهبندی به معنای پذیرش دانشآموزان ناکارآمد و رد دانشآموزان کارآمد است (لين، روبرتس و خوانا11، 2020). اگر نمره برش خیلی بالا تعیین شود، دانشآموزانی که واقعاً شایسته قبولی هستند شکست خواهند خورد و برعکس اگر نمره برش خیلی پایین تعیین شوند، دانشآموزانی که واقعاً مستحق شکست هستند قبول خواهند شد. بالا یا پایین بردن نمره برش برای کاهش یک نوع خطا، لزوماً احتمال خطای نوع دیگر را افزایش میدهد. به عنوان مثال میتوان تعداد دانشآموزانی را که قبول میشوند، اما واقعاً مستحق شکست هستند را با افزایش نمره برش کاهش داد که نتیجه انجام این کار افزایش تعداد دانشآموزانی میشود که شکست میخورند اما واقعاً شایسته قبولی هستند. تدوین آزمون خوب و شیوههای خوب برای تعیین نمرههای برش میتواند تعداد خطاهای طبقهبندی را کاهش دهد، اما هیچ راهی برای کاهش خطاها به صفر وجود ندارد (گرابواسکای و وینر12، 2017).
گاهی اوقات تشخیص آسیب نسبی ناشی از این دو نوع خطا آسان است. به عنوان مثال در آزمون صدور گواهینامه برای خلبانی بدیهی است که قبولی در آزمونی که مستحق رد شدن است، به وضوح مضرتر از قبول نشدن در آزمونی است که مستحق قبولی است. با این حال در بیشتر محیطهای دانشگاهی، تعیین آسیب نسبی ناشی از این دو نوع خطا بسیار دشوارتر است. به عنوان مثال برخی افراد میگویند که استفاده از استانداردهای سختگیرانهای که دانشآموزان حاشیهای را رد میکند، صرفاً دانشآموزان را به دلیل ناکامی در سیستم آموزشی تنبیه میکند و ضرر شکست دانشآموزان بسیار بیشتر از فایده آن است. برخی دیگر میگویند که اعمال استانداردهای دقیق تنها راه بهبود مدارس است و قبولی دانشآموزان حاشیهای که ممکن است فاقد مهارتهای مهم باشند برای دانشآموزان و جامعه مضر است. حق با کدام گروه است؟ به طور کلی افرادی که در تعیین نمرههای برش عملیاتی نقش دارند باید هر دو نوع خطا را در قضاوت خود در نظر بگیرند و تصمیم بگیرند که کدام نوع خطا را مضرتر بدانند. در واقع نمره برش باید نوع مضرتر خطا را کاهش دهد (زیکی و پری13، بی.تا.). توجه داشته باشید که اگر یکی از انواع خطاها آسیبی به همراه نداشته باشد، نیازی به تعیین نمرههای برش وجود ندارد. برای مثال اگر قبولی دانشآموزانی که مستحق شکست هستند به هیچ وجه آسیبی به همراه نداشته باشد، بهترین استراتژی صرفاً قبولی همه دانشآموزان است.
بنابراین تصمیمگیری به عنوان یک فرآیند پیچیده ذهنی، یک برنامه حل مسئله است که هدف آن تعیین نتیجه مطلوب با توجه به جنبههای مختلف است. این فرآیند میتواند عقلانی یا غیرمنطقی باشد و از سوی دیگر میتواند از مفروضات ضمنی یا صریح استفاده کند که تحتتأثیر عوامل متعددی از جمله فیزیولوژیکی، بیولوژیکی، فرهنگی، اجتماعی و غیره باشد. مسائل پیچیده تصمیمگیری را میتوان با استفاده از معادلات ریاضی، آمار چندگانه، ریاضیات، تئوریهای اقتصادی و دستگاههای کامپیوتری حل کرد که به محاسبه و تخمین راهحلهای مسائل تصمیمگیری به صورت خودکار کمک میکنند (طاهردوست و معدنچيان14، 2023).
لذا تعیین استاندارد جنبه جداییناپذیر هر سیستم ارزیابی است که طیفی از ذینفعان از جمله سیاستگذاران، تدوینکنندگان آزمون و متخصصان اندازهگیری را درگیر میکند تا اطمینان حاصل شود که نتایج آزمون معنادار و قابل دفاع خواهد بود چرا که به طور قابل توجهی بر تصمیمگیری در مورد پیشرفت آزمودنیها به مرحله بعدی آموزش تأثیر میگذارد (لين، روبرتس و خوانا، 2020). در این مطالعه، ما رویکرد جدیدی برای تعیین نمرات برش آزمون با استفاده از رگرسیون چندگانه در روش هارویچ مورد بحث قرار داده و از نظر تجربی بررسی خواهیم کرد. این روش، عدم قطعیت و ذهنیت موجود در روشهای سنتی را در نظر میگیرد و اعتبار و عادلانه بودن نتایج آزمون را بهبود میبخشد به طوری که میتواند نقش بسزایی در تعیین معیارهای قبولی آزمونهای مهارت زبان مانند آزمون تولیمو در ایران داشته باشد. هدف ما از استفاده از این رویکرد، ارائه ارزیابی دقیقتر و مطمئنتر از عملکرد شرکتکنندگان است که میتواند به مربیان و برنامهریزان آموزش عالی در تصمیمگیری آگاهانه در مورد فرصتهای آموزشی دانشجویان کمک کند.
مبانی نظری و پیشینه پژوهش: تاکنون روشهای زیادی برای تعیین نمره برش ایجاد شدهاند ولی دو روشی که به طور گسترده به خصوص در حوزه آموزش مورد استفاده قرار گرفتهاند روشهای آنگوف15 (1971) و بوکمارک16(یا نشانک)(1996) هستند.
روش آنگوف یکی از طولانیترین و پایدارترین روشهای تعیین استاندارد در میان روشهایی است که توسط متخصصان در تجزیه و تحلیل محتویات ابزار آزمون برای تعیین استاندارد استفاده میشود که توسط آنگوف در سال 1971 پیشنهاد شد. روش آنگوف شامل تعریف و توصیف استاندارد عملکرد، برآورد احتمال یک آزمودنی فرضی یا گروهی از آزمودنیها که به هر سؤال آزمون پاسخ درستی میدهند و یا ارزیابی در سطح استاندارد عملکرد با جمع برآوردهای سؤال برای هر داور و محاسبه میانگین نمرات حاصل شده داوران است که نتیجه این میانگین، مقدار نمره برش است (براندون17، 2004). به عبارت دیگر در روش آنگوف، اعضاي پانل بايستي همه سؤالها را ارزیابی کنند و نسبت آزمودنیها با حداقل مهارت را که میتوانند به درستی به هر سؤال پاسخ دهند را تخمين بزنند. مجموع میانگین رتبه18 برای هر سؤال به عنوان یک نمره برش تعیین میشود (کیم19 و همکاران، 2017). مشکلات اصلی این روش عبارتند از (الف) مفهومسازی آزمونشونده مرزی و (ب) در مورد پاسخ صحیح به هر سؤال آزمون توسط آزمونشونده مرزی بایستی قضاوت احتمالی انجام شود (دیمیترو20، 2022).
در سال 1996 برای غلبه بر برخی محدودیتهای روش آنگوف، لوئیس، میتزل و گرین21 روش بوکمارک را معرفی کردند. روش بوكمارك مبتنی بر نظریه سؤال پاسخ است. يعني چارچوبی که مهارت امتحانشوندگان و دشواری سؤالهای آزمون را به طور همزمان مشخص میکند (لین22، 2006). در اين روش، يك احتمال پاسخ23 (RP) از پيش تعيين ميشود و سپس سؤالهاي آزمون براساس دشواري برآورد شده در نظريه سؤال پاسخ به ترتيب صعودي در يك دفترچه سؤال24(OIB) قرار داده ميشوند و از اعضاي پانل خواسته میشود که یک "نشانک" را در نقطهای بین سختترین سؤالی که آزمونشونده مرزي در آزمون احتمالاً به درستی پاسخ میدهند و سادهترین سؤالی که آزمونشونده مرزی احتمالاً به درستی پاسخ نمیدهند قرار دهند (زیکی و پری، بی.تا.). براي RP مقادير مختلفي از جمله 5/0، 67/0 و 8/0 در نظر گرفته شده است (وانگ25، 2003) ولي اغلب مقدار RP=0/67 قرار داده ميشود بدينمعني كه 67 درصد شانس وجود دارد كه آزمودني مرزي به يك سؤال، پاسخ درست دهد. نمره برش نقطهای در مقیاس نظريه سؤال پاسخ است که با RP انتخابی یک پاسخ صحیح برای سؤال درست قبل از نشانک مطابقت دارد (در برخی موارد، نمره برش برابر با نقطه میانی بین سؤال نشانهگذاری شده و سؤال قبلی تعیین میشود). بنابراين مشکلات اصلی در روش نشانک مربوط به مفهومسازی آزمونشونده مرزی، انتخاب یک مقدار RP، قضاوت احتمال برای قرار دادن نشانک و تمرکز محدود بر دشواری سؤال است (دیمیترو، 2022).
مفهوم عملکرد مرزی در تعیین نمرههای برش با استفاده از روشهای آنگوف و بوکمارک بسیار مهم است. به عنوان مثال برای تعیین اینکه کدام دانشآموز مهارت دارد، باید دانشآموزان پایه را از افراد مسلط و دانشآموزان مسلط را از افراد پیشرفته تشخیص داد. بنابراین لازم است بین بهترین عملکرد دانشآموزی که هنوز در سطح پایه است و بدترین عملکرد دانشآموزی که هنوز در سطح تسلط است تمایز قائل شد. به طور مشابه لازم است بین بهترین عملکرد دانشآموزی که هنوز در سطح تسلط است و بدترین عملکرد دانشآموزی که هنوز در سطح پیشرفته است تمایز قائل شد. تمرکز بر دانشآموز متوسط در یک دسته، کمکی به ایجاد تمایزات لازم نمیکند. در واقع تمرکز باید در نقطهای باشد که دانشآموز با بهترین عملکرد در یک رده از دانشآموز با بدترین عملکرد در رده بالاتر بعدی قابل تشخیص نباشد یا نقطهای باشد که دانشآموز با بدترین عملکرد در یک دسته از دانشآموز با بهترین عملکرد در دسته پایینتر بعدی قابل تشخیص نباشد. در شرایط قبول و رد، قضاوت باید بر مرز بین دانشآموزی که بهترین عملکرد را دارد و هنوز شایستگی شکست را دارد و دانشآموزی با بدترین عملکرد که هنوز هم شایسته قبولی است، متمرکز شود (زیکی و پری، بی.تا.).
علیرغم استفاده گسترده از روشهای آنگوف و بوکمارک در عمل، دارای محدودیتهایی نیز هستند. به عنوان مثال، یکی از محدودیتهای روش آنگوف این است که در روش آنگوف اصطلاح نامزد مرزی در ادبیات و در عمل به طور دقیق تعریف نشده است كه ميتواند منجر به متفاوت بودن و عدم اعتبار نتايج آزمون شود چرا كه تصميمگيري بر اساس قضاوت كارشناسان انجام ميگيرد (لين، روبرتس و خوانا، 2020). از سوی دیگر از جمله محدودیتهای روش بوکمارک انتخاب احتمال پاسخ، ناهماهنگی سؤالها، حذف عوامل مهم غیر از دشواری سؤالها و نیز مدلهای نظریه سؤال پاسخ26 است (لين، 2006). تشخیص مکان دقیق نشانک را نیز میتوان به عنوان محدودیت دیگر روش بوکمارک بیان کرد چرا که ممکن است کارشناسان نظرات متفاوتی در مورد قرار دادن آن داشته باشند (زیکی و پری، بی.تا.). به غیر از این محدودیتها که برای هر کدام از این روشها وجود دارد میتوان به محدودیتهایی مانند 1) زمانبر و هزینهبر بودن روشهای سنتی نیز اشاره کرد. زیرا یکی از راههای افزایش دقت در روشهای سنتی در شناسایی افرادی که صلاحیت پذیرش را دارند این است که بایستی تعداد زیادی از کارشناسان واجد شرایط درگیر شوند تا اطمینان معقولی حاصل شود که رتبهبندی کارشناسان به اندازه کافی قابل اعتماد است و اگر این روند تکرار شود، نتایج قضاوتها تفاوت زیادی نخواهد داشت (انجمن تحقیقات آموزشی آمریکا، 2018) که استخدام کارشناسان برای قضاوت در مورد سؤالهای آزمون میتواند پرهزینه باشد. به علاوه در صورتی که سؤالهای آزمون زیاد باشد فرآیند قضاوت در مورد سؤالهای آزمون توسط کارشناسان زمانبر میشود که همین امر میتواند باعث عدم دقت آنها شود. 2) از آنجایی که وضعیت واقعی یا نمره واقعی هر آزموندهنده مشخص نیست و فقط نمرههای مشاهده شده آنها موجود است و قضاوت کارشناسان موضوع در تعیین نمره برش و وضعیت آزموندهندهها تأثیر میگذارد لذا این خطوط تقسیم ممکن است بهترین انتخاب برای نمره برش به منظور به حداقل رساندن خطا نباشد (گرابواسکای و وینر، 2017). بنابراین روشهای سنتی به شدت بر قضاوت متخصص متکی هستند که میتواند معرف ذهنیت و تنوع در پانلهای مختلف متخصصان باشند. 3) موضوع رانش27 مفهومی در طول فرآیند تنظیم استاندارد است. بدين معني كه آیا مفاهیم حداقل شایستگی داوران در کل فرآیند تنظیم استاندارد یکسان باقی میماند یا تصور داوران تحتتأثیر عواملی مانند قرار گرفتن در معرض سؤالهاي آزمون، بحث در میزگرد یا خستگی است؟ رانش یک مشکل بالقوه در هر روش قضاوتی است، به ویژه زمانی که نیازهای شناختی وظیفه تنظیم نمره برش بالا باشد (ریکر28، 2006). 4) روش قرار دادن اعضاي پانل در معرض نظارت كارشناسان، فرآيندهاي مقايسه اجتماعي را به دنبال خواهد داشت كه منجر به تجديدنظر در نظرات اعضاي گروه ميشود و اين تأثير زماني بيشتر ميشود كه نظر اجماع گروه به جاي توزيع نظرات اعضاء به يكي از اعضاء معطوف شود. به عبارت ديگر کارشناسان ممکن است تعصبات یا ترجیحات خاص خود را داشته باشند که میتواند بر قضاوت آنها در مورد سؤالهای آزمون تأثیر بگذارد (برك، 1986). 5) استفاده از روشهای سنتی برای تعیین نمرات برش در آزمونهایی مانند آزمون تولیمو که در آن سؤالهای آزمون از یک بانک سؤال از پیش تعیینشده تولید میشوند میتواند توسط داورها به خطر بیفتد. زیرا آنها باید دارای تخصص موضوعی باشند و اگر به عنوان مدرس نیز خدمت کنند، ممکن است سؤالها را در اختیار داشته باشند و آنها را بین دانشجویان خود توزیع کنند یا اینکه در بهترین وضعیت ممکن، نکات یا سرنخهایی برای پاسخهای خاص به دانشجویان خود ارائه دهند كه این میتواند منجر به برتری ناعادلانه برخی از آزمونشوندگان نسبت به دیگران شود و در نتیجه اعتبار کلی نتایج آزمون کاهش یابد.
برای رفع اين محدوديتها كه نوعي مقابله با چالشهای تصمیمگیری در شرایط عدم قطعیت محسوب ميشوند، محققان و متخصصان روشها و تکنیکهای مختلفی را توسعه دادهاند. هدف این روشها بهبود کیفیت تصمیمگیری از طریق کاهش تأثیر عدم قطعیت بر فرآیند تصمیمگیری است. به عبارت ديگر تصمیمگیری زمانی چالشبرانگیزتر میشود که اطلاعات موجود ناقص، مبهم یا مشمول تفاسیر متعدد باشند. در چنین شرایطی تصمیمگیرندگان باید بر قضاوت و تجربه خود تکیه کنند تا بهترین تصمیم ممکن را بگیرند. این نوع تصمیمگیری در شرایط عدم قطعیت در بسیاری از زمینهها از جمله تجارت، اقتصاد، سیاست و مراقبتهای بهداشتی رایج است. به عنوان مثال مدیران کسب و کار باید در مورد سرمایهگذاری، توسعه محصول و گسترش بازار در مواجهه با شرایط نامشخص اقتصادی و فشارهای رقابتی تصمیم بگیرند (پرز29 و همکاران، 2015). بنابراین افراد تصمیمگیرنده بایستی روشهای تصمیمگیری مناسبی را اتخاذ کنند که بتوانند به طور مؤثر عدم اطمینان را مدیریت کنند و بهترین تصمیم را اخذ نمایند.
در شرایط عدم قطعیت میتوان از روشهای مختلفی از جمله مدلسازی احتمالی30، درخت تصمیم31، شبیهسازی مونت کارلو32 و تكنيكهاي تصميمگيري چند معياره33 استفاده کرد. مدلسازی احتمالی شامل کمی کردن عدم قطعیت در تصمیمگیری است که در آن به نتایج مختلف بر اساس اطلاعات موجود، احتمال تخصیص داده میشود. درخت تصمیم، تصویری واضح از مساله تصمیمگیری در شرایط عدم قطعیت را ارائه میدهد و به تصمیمگیرندگان کمک میکند تا تصمیم بهینه را اخذ کنند. در واقع با استفاده از درخت تصمیم میتوان بهترین مسیر اقدام را با در نظر گرفتن تمام نتایج ممکن و احتمالات مرتبط با آنها شناسایی نمود. درخت تصمیم به ویژه زمانی مفید است که چندین تصمیم و نتایج ممکن وجود داشته باشد و احتمالات هر نتیجه به خوبی تعریف نشده باشند (هان34 و همکاران، 2011). شبیهسازی مونت کارلو تکنیکی است که در تصمیمگیری در شرایط عدم قطعیت استفاده میشود که شامل استفاده از مدلهای آماری برای شبیهسازی نتایج احتمالی مختلف یک تصمیم است که یک روش محاسباتی است که از نمونهگیری تصادفی برای تولید تعداد زیادی سناریو استفاده میکند که هر کدام نشاندهنده نتیجه احتمالی یک تصمیم است. شبیهسازی مونتکارلو به ویژه زمانی مفید است که متغیرهای نامشخص زیادی در مسئله تصمیمگیری دخیل باشند (راس35، 2013). تصمیمگیری چند معیاره یکی از مسائل اصلی تصمیمگیری است که هدف آن تعیین بهترین گزینه با در نظر گرفتن بیش از یک معیار در فرآیند انتخاب است. روشهای تصمیمگیری چندمعیاره دارای ابزارها و روشهای متعددی است که میتوانند در زمینههای مختلف به کار گرفته شوند (طاهردوست و معدنچيان، 2023). همانطور که تصمیمگیری با بزرگ شدن مسائل به طور فزایندهای پیچیده میشود، روشهای تصمیمگیری چندمعیاره به عنوان ابزار قدرتمندی برای انتخابهای آگاهانه ظاهر شدهاند. در واقع یکی از کاربردهای مهم روشهای تصمیمگیری چندمعیاره در تعیین نمرههای برش است تا مشخص شود که یک فرد، سازمان یا محصول دارای معیارهای خاصی است یا خیر.
نتیجه انتخاب تصمیمگیرنده در شرایط عدم قطعیت به دو عامل بستگی دارد: کدام گزینه انتخاب خواهد شد و کدام سناریو (وضعیت طبیعی) در آینده رخ خواهد داد. پیامد هر تصمیمی نه تنها توسط خود تصمیم، بلکه توسط یک عامل خارجی تعیین میشود که خارج از کنترل تصمیمگیرنده است. جدول 1 بیانگر تصمیمگیری در شرایط عدم قطعیت است که در آن سطرها بیانگر گزینهها (یا سناریوها) و ستونها بیانگر ویژگیهای مربوط به هر گزینه میباشند. در جدول 1، مقادیر بیانگر مقدار مرتبط با گزینه و ویژگی است. روشهای ماکسیماکس36، مینیماکس37 ، ساواج38 ، لاپلاس39 و هارویچ40 همگی روشهای تصمیمگیری چندمعیاره در شرایط عدم قطعیت هستند که به تصمیمگیرندگان کمک میکنند گزینهها را ارزیابی کرده و در موقعیتهایی که ابهام، ریسک یا اطلاعات ناقص وجود دارد، تصمیم بگیرند. به عبارت دقیقتر هدف از استفاده از اینگونه روشهای تصميمگيري چندمعياره کمک به تصمیمگیرندگان برای تصمیمگیری آگاهانه و منطقی در موقعیتهای نامشخص است.
جدول 1: ماتریس تصمیم
Table 1
Decision matrix
| ویژگی 1 Feature1 | ویژگی 2 Feature2 | ... | ویژگی m Feature m | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
گزینه 1 Option 1 |
|
| … |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
گزینه 2 Option 2 |
|
| … |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
| … |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
گزینه n Option n |
|
| … |
|
| گرامر Grammar | شنیداری Listening | درک مطلب Reading | نوشتاری Writing | نمره کل Total score |
---|---|---|---|---|---|
حجم جامعه population volume | 461 | 461 | 461 | 461 | 461 |
مینیمم نمرهها Minimum scores | 3 | 2 | 4 | 100 | 317 |
ماکسیمم نمرهها Maximum scores | 34 | 35 | 32 | 600 | 642 |
میانگین نمرهها Average scores | 18.58351 | 20.67245 | 18.50109 | 188.6117 | 478.0933 |
انحراف استاندارد standard deviation | 6.429219 | 8.923533 | 5.688518 | 115.3229 | 69.10718 |
چارک اول first quarter | 14 | 13 | 14 | 100 | 422 |
چارک دوم second quarter | 18 | 21 | 19 | 150 | 482 |
چارک سوم third quarter | 24 | 28 | 23 | 250 | 528 |
از آنجایی که برای تعیین نمره برش به شیوههای سنتی مانند آنگوف و بوکمارک لازم است سؤالهای آزمون به چند داور برای تجزیه و تحلیل داده شود و از طرفی روش هارویچ به ازای مقادیر مختلف ، تصمیمگیرنده افراطی بدبین تا افراطی خوشبین را در برمیگیرد لذا داورها به سه صورت سختگیر، متوسطگیر و آسانگیر در نظر گرفته میشوند. بدینصورت که یک داور سختگیر، احتمال پایینی برای دادن پاسخ صحیح به یک سؤال برای آزمودنی مرزی در نظر میگیرد. یک داور آسانگیر، احتمال پاسخ صحیح به یک سؤال را برای آزمودنی مرزی بالا در نظر میگیرد و داور متوسطگیر، احتمال متوسطی را برای این منظور تعیین میکند. لذا بازه مربوطه به سه دسته تقسیم و میانگین هر دسته (نقطه وسط هر بازه) به عنوان ضریب هارویچ داورها در نظر گرفته میشود که نتایج حاصل در جدول 3 آورده شده است.
جدول 3 : دامنه مقادیر داورها از نظر نوع عملكرد
Table 3
The range of Referees' values according to the type of performance
نوع داور Referee type | دامنه مقادیر عملکرد Range of performance values | ضریب Coefficient | ||
داور سختگير Strict Referee | (0, 0.33) | 0.17 | ||
داور متوسطگير Average Referee | (0.34 , 0.67) | 0.5 | ||
داور آسانگير Permissive Referee | (0.68 , 1) | 0.84 |
|
|
|
| میانگین Average |
نمره برش Cut score | 372.25 | 479.5 | 590 | 480.58 |
|
|
|
| میانگین Average |
---|---|---|---|---|
گرامر Grammar | 8.27 | 18.5 | 29.04 | 18.6 |
شنیداری Listening | 7.61 | 18.5 | 29.72 | 18.61 |
درکمطلب Reading | 8.76 | 18 | 27.52 | 18.09 |
|
|
|
|
شاخص هارویچ Hurwicz index | 383.968 | 484.002 | 587.67 |
نمره برش Cut score | 494 | 536.40 | 609.1875 |
| خطای استاندارد standard error | خطای طبقهبندی Classification error |
دومین استراتژی خالص Second pure strategy | 1.1694 | 0.03597 |
چهارمین استراتژی ترکیبی fourth Combined strategy | 1.1694 | 0.0 |
همچنین برای بررسی اعتبار مدلهایی که نمره برش آنها بین 480 تا 500 شده از اعتبارسنجی متقابل استفاده شد. بدین صورت که دادهها به طور تصادفی به دو بخش آموزشی و آزمون تقسیم شدند به طوری که فرآیند آموزش و آزمون، پنج بار اجرا شد و در هر اجرا یک بخش به عنوان آزمون و سایر بخشها برای آموزش به کار گرفته شدند و در نهایت میانگین ها و میانگین نمره برش حاصل از این اجراها به عنوان مقادیر بهینه در نظر گرفته شدند که در جدول 8 آورده شدهاند.
جدول 8 : نتایج حاصل از اعتبارسنجی متقابل
Table 8
Results of cross-validation
|
| نمره برش Cut score |
دومین استراتژی خالص Second pure strategy | 0.17 | 481 |
چهارمین استراتژی ترکیبی fourth ombined strategy | 0.17 | 494 |
= میانگین های حاصل از پنج اجرا
بحث و نتیجهگیری
تعیین نمرههای برش در آزمون یک وظیفه ضروری برای مربیان و کارفرمایان است که برای ارزیابی دانش و مهارت افراد استفاده میکنند. نمره برش حداقل نمره مورد نیاز برای یک فرد به عنوان دستیابی به سطح خاصی از عملکرد یا مهارت در یک آزمون مشخص است. این نمره در تصمیمگیری در مورد محل قرارگیری، تشخیص و واجد شرایط بودن افراد برای برنامههای مختلف ضروری است. نمره برش همچنین به شناسایی افرادی که ممکن است برای بهبود عملکرد خود نیاز به حمایت یا مداخله بیشتری داشته باشند کمک میکند. علاوه بر این، آنها معیاری برای مقایسه عملکرد افراد یا گروههای مختلف مردم ارائه میدهند. به عنوان مثال، عملکرد دانشآموز در یک آزمون ممکن است بر اساس نمرات برش به یکی از چندین دسته از قبیل پایه، ماهر یا پیشرفته طبقهبندی شود. تعیین نمرههای برش در آزمونهای پرکاربرد در زمینههای آموزشی مستلزم مشارکت سیاستگذاران، مربیان، متخصصان سنجش و دیگران در یک فرآیند قضاوتی چندمرحلهای است (زیکی و پری، بی.تا.). بنابراین نمره برش نشاندهنده مقدار آستانهای است که پذيرش و عدم پذيرش در آزمون را مشخص ميكند. بدين صورت كه هر مقدار بيشتر از نمره برش، به معناي قبولي در آزمون و هر مقدار کمتر از نمره برش به معناي عدم قبولي در آزمون در نظر گرفته میشود. لذا تعیین دقیق نمره برش این اطمینان را به وجود میآورد که تصمیمات اتخاذ شده بر اساس نتایج آزمون منصفانه و عینی هستند.
مقدار در رگرسیون چندگانه به عنوان یک آمار خلاصه ارزشمند عمل میکند که میتواند در تصمیمگیری در حوزه آزمون آموزشی کمک کند. در این مطالعه خاص مقدار 988/0 برای حاصل شد که نشاندهنده مناسب بودن مدل رگرسیون خطی چندگانه برای مجموعه داده است. در نتیجه مربیان و کارشناسان ارزیابی میتوانند قضاوت آگاهانه در مورد گنجاندن متغیرها در ارزیابیهای خود و همچنین روشهای مناسب اندازهگیری انجام دهند که به نوبه خود، ایجاد نمرات برش و سایر معیارهای ارزیابی را امکانپذیر میکند که با ارزش بالای این آماره در مطالعه فعلی این پیش نیازها برآورده میشود. در نتیجه با توجه به معنادار بودن مدل () و بالا بودن مقدار ضرایب گرامر (142/4)، شنیداری (523/3)، درکمطلب (141/4) دریافتیم که دانش و درک قوی از اصول گرامری، مهارتهای شنیداری قوی، مهارتهای خواندن قوی میتوانند تأثیر مثبتی بر نمره آزمون داشته باشد.
از آنجایی که روشهاي تعيين استاندارد بايد به گونهاي طراحي شوند كه اثرات مقايسه اجتماعي بر تصميمات اتخاذ شده را به حداقل برسانند و تأثيرات برخي از اطلاعات را به حداكثر برسانند (برك، 1986). لذا ایده اصلی نویسندگان از استفاده از معیار هارویچ به جای روشهای سنتی آنگوف و بوکمارک، افزایش اعتبار آزمون و عدم سوء استفاده از سؤالهای آزمون بود. در این مقاله، چگونگی استفاده از روش هارویچ برای تعیین مناسبترین نمره برش آزمون تولیمو بررسی شد و به نتایج قابلقبولی دست یافتیم.
شاخص هارویچ یک رویکرد ساده و انعطافپذیر برای تصمیمگیری در سناریوهایی که شامل نتایج متعدد و سطوح مختلف خوش بینی یا بدبینی هستند، ارائه میدهد که به عنوان ابزاری برای تعیین نمره برش برای اقدامات یا انتخابهای خاص عمل میکند. روش هارویچ با استفاده از وزنهای دلخواه برای بهترین و بدترین سناریو، از یک رویکرد میانگین وزنی استفاده میکند که بهترین حالت و بدترین سناریو را برای رسیدن به یک تصمیم ترکیب میکند که میتواند منجر به ذهنیت و سوگیری در فرآیند تصمیمگیری شود.
پس از تعیین نمره برش، اعتبارسنجی مدل بررسی و خطای استاندارد و خطای طبقهبندی به دست آورده میشوند. در این مرحله میتوان اثربخشی نمره برش در تحقق هدف ارزیابی را بررسی نمود که شامل تجزیه و تحلیل عملکرد افرادی باشد که در آزمون شرکت کردهاند چه آنهایی که نمره حد نصاب تعیین شده را کسب کرده و چه آنهایی که کسب نکردهاند. همچنین لازم است تأثیر بالقوه نمره برش بر جمعیت مورد ارزیابی در نظر گرفته شود. بنابراین ارزیابی تصمیم برای اطمینان از منصفانه، معتبر و قابل اعتماد بودن آن یکی از گامهای اصلی در تصمیمگیری است.
ضریب هارویچ بر اساس مدل خوشبینی هارویچ، طیفی از مقادیر را برای داورهای سختگیر، متوسطگیر و آسانگیر ارائه میدهد. در این مطالعه به منظور دستیابی به نتایج بهینه از دو استراتژی خالص و ترکیبی استفاده شد. برای تعیین نمره برش در استراتژی خالص تنها از نمره کل استفاده شد و در استراتژی ترکیبی از نمرههای مربوط به بخشهای مختلف آزمون استفاده گردید.
در روش اول یعنی استراتژی خالص هارویچ، نمره برش بهینه برای داوطلبان آزمون تولیمو برابر 372 و در روش دوم بر اساس میانگین هر سه نوع ضریب تقریباً برابر 481 به دست آمد بدینمعنی که در صورت استفاده از این رویکرد، تنها داوطلبانی صلاحیت ورود به دور بالاتر را خوهند داشت که حداقل نمره 481 را کسب کرده باشند. همچنین در استراتژی ترکیبی، نمره برش بهینه برای هر چهار روش به ترتیب برابر 349، 469، 384 و 494 به دست آمد.
به علاوه از خطای استاندارد و خطای طبقهبندی دادههای آزمون برای ارزیابی نمرههای برش به دست آمده از استراتژیهای خالص و ترکیبی، استفاده شد (به جدول شماره 7 نگاه کنید).
با توجه به نتایج اعتبارسنجی متقابل (جدول شماره 8) و مقادیر خطاهای به دست آمده (جدول شماره 7) نتیجه گرفته شد که نمره برش حاصل از استراتژی ترکیبی منجر به نتایج دقیقتری میشود به طوری که خطای طبقهبندی این استراتژی برابر صفر شده است. ولی از سوی دیگر با توجه به اعتبار استراتژی خالص و نیز خطاهای ناچیز آن از روش مربوط به استراتژی خالص هم میتوان برای تعیین حد تسلط در هر یک از بخشهای آزمون استفاده کرد.
از آنجایی که نتایج ارزیابی و اعتبار مدلها رضایتبخش بودند و نیز هدف ما تعیین نمره برشی بین 480 و 500 بود لذا اینگونه میتوان گفت که در صورت استفاده از نمره کل، میانگین مقادیر شاخص هارویچ به ازای ضرایب خوشبینی مختلف منجر به نمره برش 481 میشود و در صورت معنیدار بودن مدل رگرسیون خطی و بالا بودن مقدار با به کارگیری نتایج شاخص هارویچ در رگرسیون چندگانه و با در نظر گرفتن ضريب خوشبيني بالا () از نمره برش 494 به عنوان حد نصاب قبولی میتوان استفاده کرد.
تاکنون از روشهای تصمیمگیری چندمعیاره از جمله هارویچ برای تعیین نمره برش در حوزه آموزش استفاده نشده است و نتایج به دست آمده حاکی از آن است که روش هارویچ ابزار مفیدی برای تعیین نمره برش برای آزمونی مانند آزمون تولیمو را فراهم میکند. بر اساس یافتههای این پژوهش ميتوان نتيجه گرفت که روش هارویچ و رویکرد رگرسیون چندگانه میتوانند بهعنوان روشی جدید و قابل اعتماد برای تعیین نمرات برش در آزمونهای آموزشی مورد استفاده قرار گیرند به طوري كه به عنوان جایگزینی برای روشهای سنتی تعیین نمره برش از جمله آنگوف و بوکمارک معرفی شوند. چرا که با استفاده از معیار هارویچ لزومی به تجزیه و تحلیل سؤالها توسط چندین داور نیست و از لحاظ هزینه و زمان بسیار به صرفهتر است. تنها ذهنیتی که در روش هارویچ وجود دارد تعیین ضریب خوشبینی است. ضریب خوشبینی (α) یک پارامتر ذهنی است که بسته به ترجیحات تصمیمگیرنده میتواند متفاوت باشد. بدینصورت که معیار هارویچ به تصمیمگیرندگان این امکان را میدهد تا سطح خوشبینی یا بدبینی را بسته به ترجیحات ریسک خود در بازه بین 0 و 1 تنظیم کنند.
در واقع با استفاده از این روش میتوان خطرات و پاداشهای ناشی از نمرههای برش مختلف را سنجید و در نهایت به تصمیمی رسید که منصفانه و سازگار باشد و بدینترتیب خطرات احتمالی فاش شدن سؤالهای آزمون از بین میرود و اعتبار آزمون افزایش مییابد. بنابراین استفاده از این رویکردها برای بهبود دقت نمرات برش در سایر ارزشیابیهای آموزشی نیز میتواند مفید واقع شود و سازمانهای ارزیابی آموزش میتوانند از روش هارویچ و رویکرد رگرسیون چندگانه برای ایجاد نمرههای برش منصفانه و دقیق برای آزمونها و يا روش هارويچ اصلاح شده استفاده کنند. تحقیقات بیشتر میتواند کاربرد این رویکرد را در سایر انواع آزمونهای آموزشی بررسی کند تا تعمیمپذیری و کاربرد آن در زمینههای مختلف مشخص شود.
در این مطالعه در مورد اهمیت داشتن یک نمره برش کاملاً تعریف شده به منظور اطمینان از انصاف و ثبات در آزمون بحث شد. همچنین روشهای تصمیمگیری تحت عدم قطعیت و به طور ویژه روش هارویچ که یک تکنیک تصمیمگیری برای ایجاد تعادل ریسک و پاداش است معرفی شد. در این پژوهش روش هارویچ برای تعیین نمره برش آزمون تولیمو به کار گرفته شد و نتیجه حاصل با سناریوی فعلی که در آن حدنصاب قبولی 480 یا 500 است مقایسه شد.
تقدير و تشکر
بدینوسیله از سازمان سنجش آموزش کشور به خاطر همکاری در اجرای پژوهش حاضر که برگرفته از رساله دکتری با عنوان " مقایسه نمرات برش آزمونهای ملاک مرجع در الگوریتمهای یادگیری عمیق و روشهای منتخب مورد مطالعه : آزمون تولیمو" و همچنین از نشریه علمی – پژوهشی آموزش و ارزشیابی دانشگاه آزاد اسلامی واحد تبریز برای قبول داوری مقاله سپاسگزاری میشود.
منابع References
Association, A. E. R. (2018). Standards for educational and psychological testing: American Educational Research Association.
Berk, R. A. (1986). A consumer’s guide to setting performance standards on criterion-referenced tests. Review of Educational research,56(1): 137-172
Black, W., & Babin, B. J. (2019). Multivariate data analysis: Its approach, evolution, and impact. In The Great Facilitator: Reflections on the Contributions of Joseph F. Hair, Jr. to Marketing and Business Research, pp.121-130: Springer.
Brandon, P. R. (2004). Conclusions about frequently studied modified Angoff standard-setting topics. Applied Measurement in Education, 17(1):59-88.
Dimitrov, D. M. (2022). The Response Vector for Mastery Method of Standard Setting. Educational and Psychological Measurement,82(4): 719-746.
Field, A. (2013). Discovering statistics using IBM SPSS statistics: sage.
Gaspars-Wieloch, H. (2014). Modifications of the Hurwicz’s decision rule. Central European Journal of Operations Research,22, 779-794.
Grabovsky, I., & Wainer, H.(2017). The cut-score operating function: A new tool to aid in standard setting. Journal of Educational and Behavioral Statistics,42(3): 251-263.
Han, J., Pei, J., & Kamber, M. (2011). Data mining: concepts and techniques: Elsevier.
Hurwicz, L. (1952). A criterion for decision making under uncertainty. Retrieved from
ION, P. V. (2012). Methods and techniques underlying the decision - effective management tools. Paper presented at the proceedings of the international scientific conference eco-trend, târgu jiu, romania.
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning (Vol. 112): Springer.
Kim, B., Kim, J., & Yi, G. (2017). Analysis of clustering evaluation considering features of item response data using data mining technique for setting cut-off scores. Symmetry, 9(5): 62.
Lane, A. S., Roberts, C., & Khanna, P. (2020). Do We Know Who the Person With the Borderline Score is, in Standard-Setting and Decision-Making. Health Professions Education,6(4): 617-625.
Lin, J. (2006). The bookmark procedure for setting cut-scores and finalizing performance standards: Strengths and weaknesses. Alberta journal of educational research, 52(1).
McKinney, W. (2010). Data structures for statistical computing in python. Paper presented at the Proceedings of the 9th Python in Science Conference.
Montgomery, D. C., Peck, E. A., & Vining, G. G. (2021). Introduction to linear regression analysis: John Wiley & Sons.
Pažek, K., & Rozman, Č. (2009). Decision making under conditions of uncertainty in agriculture: a case study of oil crops. Poljoprivreda, 15(1): 45-50.
Pérez, D. E., Hernández, J. G., García, M. J., & Hernández, G. J. (2015). Hurwicz method modified and the amplitude model (TAM). Delener et al.(ed) GBATA2015 reading book. GBATA, Peniche, 559-566.
Render, B., & Stair Jr, R. M. (2016). Quantitative Analysis for Management, 12e: Pearson Education India.
Ricker, K. L. (2006). Setting cut-scores: A critical review of the Angoff and modified Angoff methods. Alberta journal of educational research, 52(1).
Ross, S. M. (2013). Simulation: Academic Press.
Taherdoost, H., & Madanchian, M.(2023).Multi-Criteria Decision Making (MCDM) Methods and Concepts. Encyclopedia, 3(1): 77-87.
Torfi, A. (202). Practical Linear Algebra for Machine Learning: Instill AI.
Wang, J., Liu, J., DiStefano, C., Pan, G., Gao, R., & Tang, J. (2021). Utilizing deep learning and oversampling methods to identify children’s emotional and behavioral risk. Journal of Psychoeducational Assessment, 39(2): 227-241.
Wang, N. (2003). Use of the Rasch IRT model in standard setting: An item‐mapping method. Journal of Educational Measurement, 40(3): 231-253.
Zieky, M., & Perie, M. A Primer on Setting Cut Scores on Tests of Educational Achievement.Retrieved from report
Zahed babelan, A., & karimianpour, G. (2020). The Relationship between Academic Optimism and Buoyance, the Mediator Role of Academic Self-efficacy, Educational and Scholastic studies, 9(1): 149-170. [In Persian]
[1] - مقاله حاضر برگرفته از رساله دکتری مریم پارساییان دانشجوی دوره دکتری رشته سنجش و اندازه گیری دانشگاه تهران میباشد.
[2] - دانشجوی دکتری سنجش و اندازهگیری، دانشکدة روانشناسی و علوم تربیتی، دانشگاه تهران، تهران، ایران.
[3] - دانشیار، دانشکدة روانشناسی و علوم تربیتی، دانشگاه تهران، تهران، ایران.
* - نویسنده مسئول: khodaie@ut.ac.ir
[4] - استادیار ، دانشکده روانشناسی و علوم تربیتی ، دانشگاه خوارزمی، تهران، ایران.
[5] - دانشیار، دانشکدة روانشناسی و علوم تربیتی، دانشگاه تهران، تهران، ایران.
[6] - استادیار، سازمان سنجش آموزش کشور، تهران، ایران.
[7] 1- Measurement error
[8] 2- Standard Error
[9] 3- Classification error
[10] 4- Berk
[11] 5- Lane, Roberts, & Khanna
[12] 6- Grabovsky, & Wainer
[13] 1- Zieky, & Perie
[14] 2- Taherdoost & Madanchian
[15] 3- Angoff
[16] 4- Bookmark
[17] 1- Brandon
[18] 2- Rating
[19] 3- Kim
[20] 4- Dimitrov
[21] 5- Lewis, Mitzel, and Green
[22] 6- Lin
[23] 7- Response Propability
[24] 8- Ordered Item Booklet
[25] 9- Wang
[26] 1- Item Response Theory (IRT)
[27] 1- Drift
[28] 2- Ricker
[29] 1- Pérez
[30] 2- Probabilistic modeling
[31] 3- Decision tree
[32] 4- Monte Carlo simulation
[33] 5- Multiple Criteria Decision Making (MCDM)
[34] 6- Han
[35] 7- Ross
[36] 1- Maximax
[37] 2- Minimax
[38] 3- Savage
[39] 4- Laplace
[40] 5- Hurwicz
[41] 1- Savage Minimax Regret Criterion
[42] 2- Render
[43] 3- Pažek, & Rozman
[44] 4- Leonid Hurwicz
[45] 1- Ion
[46] 2- Gaspars-Wieloch
[47] 1- Pure strategy
[48] 2- Combined strategy
[49] 3- K-fold cross-validation
[50] 1- Python
[51] 2- Mckinney
[52] 3- Torfi
[53] 4- Wang
[54] 5- Field
[55] 6- Mahalanobis Distance
[56] 1- Black & Babin
[57] 2- Durbin Watson Statistic
[58] 3- Montgomery
[59] 4- Variance inflation factor
[60] 5- James