ما هو قياس النتيجة؟

عندما يقوم مطورو الاختبار بالإبلاغ عن درجات الاختبار للمستخدمين النهائيين (مديري المدارس أو المعلمين أو أولياء الأمور أو المتقدمين للاختبار أنفسهم أو غيرهم من مستخدمي الدرجات المحتملين) ، من المهم أن يكون معنى الدرجات العددية المبلغ عنها واضحا وسهل الاستخدام. إذا لم يكن كذلك ، فما الهدف من درجات الاختبار؟

يمكن أن تأتي درجات الاختبار بالعديد من النكهات المختلفة.

على سبيل المثال ، يتم الإبلاغ عن الدرجات في بعض الاختبارات من حيث العدد الصحيح أو النسبة المئوية الصحيحة. ويكون هذا الإبلاغ مفيدا في الحالات التي يخضع فيها كل متقدم للاختبار لنفس الاختبار تماما، كما في حالة الاختبارات الخطية ذات الشكل الثابت.

ومع ذلك ، فإن تقييمات Avant STAMP (STAndards القائمة على Measurement of Proficiency) تستخدم مناهج تطوير القياس النفسي والاختبار الأكثر حداثة وليست اختبارات خطية. جميع اختبارات STAMP Reading and Listen قابلة للتكيف مع الكمبيوتر ، مما يعني أن صعوبة الاختبار تتكيف في الوقت الفعلي مع القدرة اللغوية المقدرة لكل متقدم للاختبار. ينتج عن هذا قياس أكثر دقة للكفاءة اللغوية للمتقدمين للاختبار ويوفر تجربة ممتعة للمتقدمين للاختبار أكثر مما هو الحال عادة مع الاختبار الخطي ، حيث لن يصادف المتقدمون للاختبار عددا كبيرا من العناصر أقل أو أعلى بكثير من مستوى كفاءتهم الفعلي. لا يمكن تجميع الاختبار القوي هذا ونشره إلا عن طريق تقنية القياس النفسي المسماة نظرية استجابة العنصر (IRT). في IRT ، يرتبط كل عنصر اختبار (يعرف أيضا باسم سؤال الاختبار) بمستوى الصعوبة المقاس علميا الخاص به. في حالة STAMP ، يتم حساب مستوى صعوبة كل عنصر في الاختبار من خلال تحليل IRT لاستجابات المئات (وفي كثير من الحالات ، الآلاف) من المتقدمين للاختبار التمثيليين. يتيح لنا ذلك معايرة العناصر من حيث صعوبتها والتأكد من استخدام أفضل العناصر فقط في كل اختبار STAMP.     

تستخدم خوارزمية تسجيل الطوابع أيضا معلومات صعوبة العنصر هذه من أجل حساب مستوى الطوابع النهائي لكل متقدم للاختبار ، بناء على العناصر التي حاولوها أثناء الاختبار ، واستجابتهم لكل عنصر ، والقدرة التي يحتاج المتقدمون للاختبار إلى إثباتها من أجل التسجيل في كل مستوى من مستويات الطوابع (يتم تحديد الأخير من خلال عملية تسمى الإعداد القياسي).  لذلك، وبالنظر إلى الطبيعة التكيفية لتقييمات الطوابع وبالنظر إلى أن كل بند له مستوى معين من الصعوبة الإحصائية المرتبطة به، فإن الإبلاغ عن درجات الطوابع من حيث الرقم الصحيح (على سبيل المثال، 23 من 30) أو النسبة المئوية الصحيحة (76.6٪) ليس ذا مغزى ولا مناسب.

كما سنناقش قريبا ، تستخدم نظرية الاستجابة للعناصر (IRT) ، التي تشكل الأساس الإحصائي لتطوير وتسجيل اختبارات Avant STAMP ، مقياس درجات ليس بديهيا جدا للمستخدمين النهائيين لاختبارات STAMP. على سبيل المثال ، يحتوي مقياس IRT على قيم سالبة وإيجابية. إن إخبار المتقدم للاختبار في تقرير درجاته بأن إجادته للقراءة في اختبار STAMP 4S الألماني هي -1.4 لن يكون مفيدا وسينتهك متطلبات الدرجات الواضحة وسهلة الاستخدام التي تمت مناقشتها أعلاه. لهذا السبب ، من الضروري تحويل قيم درجات STAMP المستندة إلى IRT إلى مقياس درجات أكثر وضوحا وسهولة في التفسير. المقياس هو في الأساس مجموعة من قيم القياس المحتملة ويتعين على مطوري الاختبار تحديد النقاط المرجعية لمقياس النتيجة قبل الإبلاغ عن الدرجات.

فهم النقاط المرجعية للمقياس

ثلاثة مقاييس من المحتمل أن يكون القراء على دراية بها هي مقاييس درجة الحرارة المئوية والفهرنهايت وكلفن. على الرغم من أن الثلاثة هي مقاييس درجة الحرارة ، إلا أن نقاطها المرجعية وتفسيرها تختلف اختلافا كبيرا. يمكن أن ينطبق الشيء نفسه على المقاييس المختلفة المستخدمة للإبلاغ عن درجات إجادة اللغة.

في مقياس سلزيوس ، تشير درجة 0 درجة مئوية إلى نقطة القياس التي يتجمد عندها الماء عند مستوى سطح البحر ، في حين أن الحد الأدنى لقيمة القياس الممكنة على مقياس سلزيوس هو -273.15 درجة مئوية ، وهي النقطة التي لا يوجد فيها نشاط جزيئي على الإطلاق في المادة. ومع ذلك ، على مقياس فهرنهايت ، فإن نقطة القياس التي يتجمد عندها الماء عند مستوى سطح البحر هي 32 درجة فهرنهايت ، وليس 0 درجة فهرنهايت. على مقياس فهرنهايت ، يشير – 459.67 فهرنهايت إلى الحد الأدنى لقيمة القياس الممكنة ، عندما لا يكون هناك نشاط جزيئي في مادة ما. كما نرى ، في مقياسي سلزيوس ولا فهرنهايت ، هل يعني الصفر في الواقع الغياب التام لشيء ما. إنها ببساطة نقطة مرجعية منطقية فقط فيما يتعلق بالمقياس الكامل وقيمه الممكنة التي يمكن تحقيقها.

بالنسبة إلى مقاييس درجة الحرارة، المقياس الوحيد الذي له نقطة صفر حقيقية هو مقياس كلفن. في مقياس كلفن ، تعني نقطة القياس 0 K في الواقع عدم وجود نشاط جزيئي على الإطلاق ، مع صفر يمثل الحد الأدنى من القيمة الممكنة في مقياس كلفن. في مقياس كلفن ، لذلك ، القيم السالبة غير ممكنة ، بشكل مختلف عن المقاييس المئوية والفهرنهايت (وكما سنرى بعد قليل ، مقياس IRT).  جميع مقاييس درجة الحرارة الثلاثة ليس لها حد حقيقي لقيمها القصوى ، حيث لا يوجد حد معروف لمدى سخونة شيء ما.

والآن، هل يمكننا حقا القول إن أحد المقاييس أفضل من الآخر؟ ليس حقًا. جميع المقاييس الثلاثة صالحة تماما من تلقاء نفسها وتستخدم على نطاق واسع في سياقات مختلفة ، مع اعتبار بعض المقاييس أكثر ملاءمة من قبل المستخدمين اعتمادا على سياقات محددة. ومع ذلك ، فإن الشيء الوحيد الذي يوحد هذه المقاييس الثلاثة ، والذي يجعلها مناسبة تماما للقياس الدقيق ، هو حقيقة أن المسافة بين أي نقطتي قياس في المقياس تشير إلى نفس الاختلاف في درجة الحرارة. بمعنى آخر ، الفرق في النشاط الجزيئي بين 35 درجة مئوية و 37 درجة مئوية هو بالضبط نفس الفرق بين 89 درجة مئوية و 91 درجة مئوية. هذه خاصية نعتقد في Avant أنها في صميم القياس الجيد ، وبالتأكيد خاصية نستخدمها لدرجات STAMP الخاصة بنا.

على الرغم من فائدة النظر إلى مقاييس درجة الحرارة الثلاثة المألوفة أعلاه ومعرفة مدى ملاءمتها في سياقاتها المحددة لقياس بنية مثل درجة الحرارة ، فمن المهم أن نفهم أن بعض الخصائص التي تمتلكها تجعلها غير مناسبة لقياس بنية مثل إتقان اللغة. على سبيل المثال ، قد يجد المرء أنه من المستحيل تقريبا شرح ما تعنيه الكفاءة اللغوية السلبية أو كيف يمكن لشخص ما أن يكون لديه قدرة صفرية في اللغة. حتى الشخص الذي لم يدرس أو كان على اتصال بلغة معينة من قبل سيكون لديه بعض المعرفة (وإن كان الحد الأدنى) بالكلمات المستعارة على الأقل في تلك اللغة. لا يمكن لأي اختبار إجادة لغوية أن يدعي أن شخصا ما لديه كفاءة لغوية صفرية ، لأنه سيكون من المستحيل على اختبار معين تقييم جميع السيناريوهات المحتملة التي قد يظهر فيها الشخص بعض الفهم ، حتى لو كان أساسيا جدا ، لكلمة أو عبارة في اللغة. جميع اختبارات اللغة ملزمة بالعناصر الموجودة في الاختبار وما هي قادرة على قياسه ، مما يعني أن اختبارات اللغة قد لا تحتوي على نقطة قياس صفرية ، ولكن قد يكون لها نقطة قياس دنيا ، تمثل النقطة التي لا يستطيع الاختبار تقديم أي مطالبات دونها. وينطبق الشيء نفسه على النقطة المرجعية القصوى في الاختبار. بغض النظر عن عدد العناصر التي يحتوي عليها الاختبار ، فلن يتمكن أبدا من قياس كل الكفاءة اللغوية للفرد. على هذا النحو ، فإن المقياس الصالح لاختبار الكفاءة اللغوية مثل اختبارات STAMP سيكون له حد أدنى من النقطة المرجعية (يستخدم للمتقدمين للاختبار الذين يحصلون على جميع عناصر الاختبار التي رأوها بشكل غير صحيح) ، ولا توجد نقطة مرجعية صفرية ، وسيكون له نقطة مرجعية قصوى (تستخدم للمتقدمين للاختبار الذين يجيبون على جميع عناصر الاختبار التي رأوها بشكل صحيح).

قياس IRT ودرجات الطوابع

كما ذكر أعلاه ، من المهم أن تشير الفواصل الزمنية المتساوية في المقياس المستخدم للإبلاغ عن الدرجات في اختبار الكفاءة اللغوية إلى نفس الاختلاف في الكفاءة اللغوية. تتوافق جميع المستويات من اختبار STAMP (المستويات من 1 إلى 9) مع مستويات الكفاءة في ACTFL (مبتدئ منخفض إلى مرتفع متقدم) ، كما هو موضح أدناه:

على الرغم من محاذاة مستويات الطوابع مع مستويات الكفاءة في ACTFL وعلى الرغم من فائدة مستويات الكفاءة في ACTFL للإشارة إلى المستوى العام لقدرة المتقدم للاختبار في اللغة ، فإن مستويات ACTFL نفسها لا تتوافق مع نوع الدرجات العددية التي نبحث عنها. أولا ، معنى الفرق الفاصل الزمني في مستويات ACTFL (وبالتالي STAMP) ليس هو نفسه بغض النظر عن النقطة على المقياس. على سبيل المثال ، يتطلب الأمر قدرا أكبر من القدرة اللغوية للانتقال من المستوى المتوسط العالي (مستوى الطوابع 6) إلى المستوى المنخفض المتقدم (مستوى الطوابع 7) مقارنة بالانتقال من مستوى المبتدئين (مستوى الطوابع 3) إلى المستوى المتوسط المنخفض (مستوى الطوابع 4). لهذا السبب بالذات ، يتم تصوير مستويات الكفاءة على أنها هرم مقلوب ، وليس كمربع أو مستطيل. ثانيا ، على الرغم من فائدة مستويات الكفاءة في الإشارة إلى مكان متعلم لغة معين من حيث كفاءته اللغوية ، فإن الطلاب الذين يسجلون في نفس مستوى الطوابع قد يكون لديهم في الواقع قدرات مختلفة قليلا في اللغة وربما أجابوا على أعداد مختلفة من العناصر بشكل صحيح في اختبار الطوابع ، حتى لو صادفوا نفس العناصر بالضبط من خلال خوارزمية STAMP التكيفية. لذلك ، على الرغم من الفائدة المهمة لمستويات STAMP و ACTFL في فهم الكفاءة اللغوية للمتقدمين للاختبار ، فإن هذه المستويات ليست دقيقة كما يرغب بعض المستخدمين النهائيين لدرجات الاختبار لدينا.

على سبيل المثال ، قد يكون للمدرسة عشرة مقاعد فقط في قسم مرتبة الشرف الخاصة في القراءة الفرنسية. ماذا لو وصل أربعة عشر طالبا إلى مستوى الطوابع 9 في القراءة؟ كيف يمكن للمدرسة اختيار 10 من أصل 14 طالبا لصف مرتبة الشرف؟ قد يعتبر اختيار عشرة عشوائيا حلا مقبولا ولكننا في Avant Assessment يمكننا توفير طريقة أفضل وأكثر دقة للمساعدة في هذه الحالة. كما ذكر أعلاه ، يستخدم Avant Assessment تقنية قياس إحصائية تسمى نظرية استجابة العنصر لمعايرة جميع العناصر الموجودة في أقسام القراءة والاستماع في اختبارات الطوابع (التكيفية) ، لمواءمة عدد الأسئلة التي يحصل عليها المتقدم للاختبار بشكل صحيح في مسار الاختبار المحدد الخاص به مع مستويات الطوابع وبالتالي مستويات ACTFL التي تتماشى معها ، وأخيرا ، إنتاج درجات متدرجة توفر لمستخدمي الدرجات مقياسا أكثر دقة للقدرة اللغوية لكل متقدم للاختبار مما سيكون ممكنا إذا تم الإبلاغ عن مستويات STAMP فقط.

توسيع نطاق درجات الطوابع

بمجرد معايرة جميع العناصر الموجودة في قسم معين من اختبار STAMP من خلال IRT ، يمكننا تعيين تقدير قدرة IRT (يشار إليه أيضا باسم theta في مصطلحات IRT) لكل طالب بناء على العناصر التي حصلوا عليها بشكل صحيح أو خاطئ في المسار المحدد الذي اتبعوه في كل قسم من أقسام القراءة والاستماع في اختبار STAMP الخاص بهم. بمجرد حصولنا على هذه القيمة ، يمكننا بعد ذلك قياس هذه القيمة (ومن هنا جاء المصطلح ، مقياس الدرجات) حتى نتمكن من الإبلاغ عن درجات أكثر دقة ، من أجل استكمال الإبلاغ عن مستوى الطوابع الذي تم تحقيقه. من خلال توسيع نطاق درجات IRT ، يمكننا بعد ذلك التأكد من أن جميع الدرجات المقاسة إيجابية (لا توجد قيم سلبية) وأن مستخدمي الدرجات ، مثل المدرسة الفرنسية الافتراضية أعلاه ، قادرون على تكبير كفاءة الطلاب أكثر ، حتى لو كان الطلاب قد سجلوا في نفس مستوى الطوابع.

يجب قياس كل قسم من أقسام القراءة والاستماع في كل اختبار ختم بشكل منفصل. لذلك ، لا يمكن مقارنة الدرجات المقاسة للقراءة الإسبانية مباشرة مع الدرجات المقاسة للاستماع باللغة الإسبانية ، أو مع الدرجات المقاسة للقراءة الصينية. بمعنى آخر ، فإن درجات STAMP المقاسة هي لغة وقسم محدد.

نقوم بقياس درجات IRT في أقسام القراءة أو الاستماع في كل اختبار من اختباراتنا من خلال تحويل خطي بسيط ، كما هو موضح في الصيغة أدناه:

يضمن القياس أعلاه أن جميع الدرجات الممكنة التي تم قياسها لقسم معين من اختبار STAMP هي أرقام موجبة بدون كسور عشرية ، وهي أكثر سهولة من الدرجات التي تتراوح من - 4 إلى + 4 ، والتي هي أكثر نموذجية من IRT. يضمن القياس الخطي الموضح في الصيغة أعلاه أيضا أن المسافة بين أي درجتين تم قياسهما تشير إلى نفس الاختلاف في القدرة في أي نقطة في المقياس.

تفسير الدرجات المقاسة

تخيل أن لدينا الطلاب التالية أسماؤهم ، الذين خضعوا لقسم الاستماع في اختبار STAMP 4S الياباني:

  • الطالب درجة متدرجة : 589
  • درجة الطالب ب المقاسة: 612
  • درجة الطالب C المقاسة: 677
  • درجة الطالب D المقاسة: 700

الفرق في إتقان الاستماع الياباني بين الطالب أ والطالب ب في اليابانية (23 نقطة متدرجة) هو نفس الفرق في إتقان الاستماع الياباني بين الطالب ج والطالب د (23 نقطة). إذا حقق طالبان نفس مستوى STAMP في الاستماع الياباني (على سبيل المثال ، مستوى STAMP 4 - متوسط منخفض) ، لكن أحدهما حصل على درجة متدرجة أعلى بمقدار 20 نقطة فوق الآخر ، فلدينا دعم قوي للاعتقاد بأن الطالب الحاصل على درجة أعلى من الدرجات المصنفة هو أكثر كفاءة من الطالب الحاصل على درجة أقل تحجيما. كلما زاد الفرق بين درجاتهم المقاسة ، زادت ثقتنا في أن الفرق ذو مغزى وأن الطالبين ليسا في الواقع متساويين في الكفاءة. يمكن أن تكون الدرجات المقاسة مفيدة أيضا في الحالات التي قد يبدو فيها الطالب أنه لا يحرز تقدما بعد عام من الدراسة ويكون "عالقا" في نفس مستوى الكفاءة. قد تظهر المقارنة بين درجاتهم المقاسة قبل عام واحد ودرجاتهم المقاسة من الإدارة الحالية مكاسب تدريجية صغيرة في كفاءتهم ، حتى لو لم تكن هذه الزيادات كافية لنقلهم إلى مستوى STAMP التالي.

ومع ذلك ، يجب وضع شيء واحد في الاعتبار: جميع التقييمات لها هامش معين من خطأ القياس المرتبط بدرجاتها. على سبيل المثال ، الخطأ المعياري في القياس (SEM) الذي أبلغت عنه ETS لقسم الاستماع في TOEFL iBT ، والذي يستخدم مقياس درجات يتراوح من 0 إلى 30 هو 2.38 نقطة متدرجة (خدمات الاختبارات التعليمية ، 2018). في المقابل ، بالنسبة لدرجات قسم SAT ، مع نطاق درجات من 200 إلى 800 ، فإن الخطأ القياسي في القياس هو 30 نقطة (College Board ، 2018). نظرا لأنه ليس من الممكن تقييم كل طالب في العديد من الأيام المختلفة ، وعبر مئات عناصر الاختبار ، فإن كل نتيجة اختبار هي لقطة للمستوى الذي تمكن متقدم اختبار معين من الحفاظ عليه في ذلك اليوم المحدد الذي أجرى فيه الاختبار ، وعبر العناصر المحددة التي أجابوا عليها أثناء إدارة الاختبار. بطبيعة الحال ، فإن اختبارا مثل STAMP 4S ، الذي تكون أقسام القراءة والاستماع الخاصة به متكيفة مع الكمبيوتر ، والتي تتضمن عددا كبيرا من العناصر التي تستهدف المستوى المقدر لكل متقدم للاختبار في الوقت الفعلي ، والتي تم تطويرها وفقا لمعايير نوعية وكمية صارمة ، تميل إلى أن يكون لها خطأ أصغر في القياس وتكون أكثر فعالية وكفاءة من الأقصر ، الاختبارات الخطية غير التكيفية التي لا تتبع نفس الصرامة (Schultz، Whitney، and Zickar، 2014). متوسط الخطأ المعياري في القياس للدرجات المقاسة في أقسام القراءة والاستماع في اختبارات STAMP هو 10 نقاط درجة مقاسة. يتم اشتقاق هذه الإحصائية بسهولة من نوع برنامج IRT الذي نستخدمه في Avant.

خطأ القياس المرتبط بدرجات قياس الطوابع صغير جدا نظرا للصرامة النفسية والطبيعة التكيفية لاختباراتنا. على الرغم من أننا ننصح بإجراء تحليلات درجات الاختبار بشكل أساسي بناء على مستوى STAMP الذي تم تحقيقه ، إلا أننا في Avant نقترح أنه يمكن النظر في الدرجات المقاسة في حالات محددة للغاية عندما يتم اتخاذ قرارات ذات مخاطر أعلى بناء على درجات اختبار STAMP ، مثل عندما يتم استخدام درجات STAMP لمنح أختام الدولة لمحو الأمية (SSB) أو لمنح الائتمان عن طريق الامتحان (CBE). في مثل هذه الحالات ذات المخاطر العالية ، إذا كانت درجة المتقدم للاختبار في القراءة أو الاستماع في حدود 10 نقاط أو أقل من الحد الأدنى للدرجة التي يمكن أن تؤهله إما ل SSB أو CBE ، فإن موقف Avant هو أنه يجوز للمدرسة أو المنطقة ، وفقا لتقديرها ، أن تطلب من المتقدمين للاختبار إعادة اختبار STAMP (نظرا لطبيعته التكيفية ، هناك فرصة جيدة لن يرى المتقدمون للاختبار نفس العناصر تماما كما في الإدارة السابقة). إذا كانت النتيجة المقاسة للمتقدم للاختبار في هذه الإدارة الثانية تؤدي إلى مستوى ختم يفي بمتطلبات SSB أو CBE ، فإن موقف Avant هو أنه يمكن استخدام الدرجات من هذه الإدارة الثانية بدلا من الدرجات من الإدارة الأولى.

السيناريوهان اللذان تمت مناقشتهما أعلاه هما سيناريوهان أعلى خطورة قد يكون هناك ما يبرر فيهما النظر في الهامش الصغير أو الخطأ في الاختبار (تذكر أن جميع الاختبارات لها هامش خطأ).

نوصي بأنه من المناسب عموما استخدام درجات STAMP المقاسة للاستخدامات التقليدية مثل التحليل السنوي المستمر أو نمو الطلاب ولتقييم البرنامج.

للاطلاع على جداول الدرجات المقاسة المتاحة حاليا لتقييمات الطوابع ، انقر هنا. 

مراجع: 

مجلس الكلية (2018). SAT: فهم الدرجات. تم الاسترجاع من https://collegereadiness.collegeboard.org/pdf/understanding-sat-scores.pdf

خدمات الاختبارات التعليمية (2018). موثوقية وقابلية المقارنة لدرجات TOEFL iBT. سلسلة رؤى أبحاث TOEFL (المجلد 3). تم الاسترجاع من www.ets.org/s/toefl/pdf/toefl_ibt_research_s1v3.pdf

شولتز ، كيه إس ، ويتني ، دي جي ، وزكار ، إم جي (2014). نظرية القياس في العمل. دراسات الحالة والتمارين (2nd ed.). لندن / نيويورك: روتليدج. مجلس الكلية (2018). SAT: فهم الدرجات. تم الاسترجاع من https://collegereadiness.collegeboard.org/pdf/understanding-sat-scores.pdf

خدمات الاختبارات التعليمية (2018). موثوقية وقابلية المقارنة لدرجات TOEFL iBT. سلسلة رؤى أبحاث TOEFL (المجلد 3). تم الاسترجاع من www.ets.org/s/toefl/pdf/toefl_ibt_research_s1v3.pdf

شولتز ، كيه إس ، ويتني ، دي جي ، وزكار ، إم جي (2014). نظرية القياس في العمل. دراسات الحالة والتمارين (2nd ed.). لندن / نيويورك: روتليدج.

تحديث: