ما هو قياس النتيجة؟

عندما يقوم مطورو الاختبار بالإبلاغ عن درجات الاختبار للمستخدمين النهائيين (مديري المدارس أو المعلمين أو أولياء الأمور أو المتقدمين للاختبار أنفسهم أو غيرهم من مستخدمي الدرجات المحتملين) ، من المهم أن يكون معنى الدرجات العددية المبلغ عنها واضحا وسهل الاستخدام. إذا لم يكن كذلك ، فما الهدف من درجات الاختبار؟

يمكن أن تأتي درجات الاختبار بالعديد من النكهات المختلفة.

على سبيل المثال ، يتم الإبلاغ عن الدرجات في بعض الاختبارات من حيث العدد الصحيح أو النسبة المئوية الصحيحة. ويكون هذا الإبلاغ مفيدا في الحالات التي يخضع فيها كل متقدم للاختبار لنفس الاختبار تماما، كما في حالة الاختبارات الخطية ذات الشكل الثابت.

ومع ذلك، فإن تقييمات Avant STAMP ( قياس الكفاءةالمستند إلى معايير قياس الكفاءة) تستخدم مناهج أكثر حداثة في القياس النفسي وتطوير الاختبارات، وهي ليست اختبارات خطية. فجميع اختبارات القراءة والاستماع STAMP هي اختبارات حاسوبية قابلة للتكيف مع الحاسوب، مما يعني أن صعوبة الاختبار تتكيف في الوقت الحقيقي مع القدرة اللغوية المقدرة لكل متقدم للاختبار. ويؤدي ذلك إلى قياس أكثر دقة للكفاءة اللغوية للمتقدمين للاختبار ويوفر تجربة أكثر متعة للمتقدمين للاختبار مما هو الحال عادةً مع الاختبارات الخطية، حيث لن يصادف المتقدمون للاختبار عدداً كبيراً من العناصر التي تقل أو تزيد كثيراً عن مستوى كفاءتهم الفعلية. هذا النهج القوي في تجميع الاختبار ونشره ممكن فقط من خلال تقنية القياس النفسي التي تُسمى نظرية الاستجابة للعناصر (IRT). في IRT، يرتبط كل عنصر من عناصر الاختبار (المعروف أيضاً باسم سؤال الاختبار) بمستوى الصعوبة الخاص به الذي تم قياسه علمياً. في حالة STAMP ، يتم حساب مستوى الصعوبة لكل عنصر في الاختبار من خلال تحليل IRT لإجابات المئات (وفي العديد من الحالات، الآلاف) من المتقدمين للاختبار التمثيليين. وهذا يسمح لنا بمعايرة العناصر من حيث صعوبتها والتأكد من استخدام أفضل العناصر فقط في كل اختبار STAMP .     

تستفيد خوارزمية تسجيل الدرجات STAMP أيضًا من معلومات صعوبة العناصر هذه من أجل حساب المستوى النهائي لكل متقدم للاختبار STAMP ، استنادًا إلى العناصر التي حاولوا اختبارها أثناء الاختبار، واستجابتهم لكل عنصر، والقدرة التي يحتاج المتقدمون للاختبار لإظهارها من أجل الحصول على درجة في كل مستوى من مستويات STAMP (يتم تحديد هذا الأخير من خلال عملية تسمى تحديد المعايير). لذلك، ونظراً للطبيعة التكيفية للتقييمات STAMP ونظراً لأن كل بند له مستوى إحصائي معين من الصعوبة مرتبط به، فإن الإبلاغ عن الدرجات STAMP من حيث عدد الدرجات الصحيحة(على سبيل المثال، 23 من 30) أو النسبة المئوية الصحيحة (76.6%) ليس ذا معنى ولا مناسباً.

كما سنناقش قريبًا، تستخدم نظرية الاستجابة للعناصر (IRT)، التي تشكل الأساس الإحصائي لتطوير اختباراتSTAMP Avant وتسجيلها، مقياسًا للدرجات ليس بديهيًا جدًا للمستخدمين النهائيين لاختبارات STAMP . على سبيل المثال، يحتوي مقياس IRT على قيم سلبية وإيجابية. إن إخبار متقدم للاختبار في تقرير درجاته أن إجادته للقراءة في اختبار STAMP 4S الألماني هو -1.4 لن يكون مفيدًا وسيشكل انتهاكًا لمتطلبات الدرجات الواضحة والسهلة الاستخدام التي تمت مناقشتها أعلاه. لهذا السبب، من الضروري أن يتم تحويل قيم الدرجات STAMP المستندة إلى مقياس درجات أكثر وضوحاً وسهولة في التفسير. المقياس هو في الأساس طيف من قيم القياس المحتملة، ويتعين على مطوري الاختبار تحديد النقاط المرجعية لمقياس الدرجات قبل أن يتم الإبلاغ عن الدرجات.

فهم النقاط المرجعية للمقياس

ثلاثة مقاييس من المحتمل أن يكون القراء على دراية بها هي مقاييس درجة الحرارة المئوية والفهرنهايت وكلفن. على الرغم من أن الثلاثة هي مقاييس درجة الحرارة ، إلا أن نقاطها المرجعية وتفسيرها تختلف اختلافا كبيرا. يمكن أن ينطبق الشيء نفسه على المقاييس المختلفة المستخدمة للإبلاغ عن درجات إجادة اللغة.

في مقياس سلزيوس ، تشير درجة 0 درجة مئوية إلى نقطة القياس التي يتجمد عندها الماء عند مستوى سطح البحر ، في حين أن الحد الأدنى لقيمة القياس الممكنة على مقياس سلزيوس هو -273.15 درجة مئوية ، وهي النقطة التي لا يوجد فيها نشاط جزيئي على الإطلاق في المادة. ومع ذلك ، على مقياس فهرنهايت ، فإن نقطة القياس التي يتجمد عندها الماء عند مستوى سطح البحر هي 32 درجة فهرنهايت ، وليس 0 درجة فهرنهايت. على مقياس فهرنهايت ، يشير – 459.67 فهرنهايت إلى الحد الأدنى لقيمة القياس الممكنة ، عندما لا يكون هناك نشاط جزيئي في مادة ما. كما نرى ، في مقياسي سلزيوس ولا فهرنهايت ، هل يعني الصفر في الواقع الغياب التام لشيء ما. إنها ببساطة نقطة مرجعية منطقية فقط فيما يتعلق بالمقياس الكامل وقيمه الممكنة التي يمكن تحقيقها.

بالنسبة إلى مقاييس درجة الحرارة، المقياس الوحيد الذي له نقطة صفر حقيقية هو مقياس كلفن. في مقياس كلفن ، تعني نقطة القياس 0 K في الواقع عدم وجود نشاط جزيئي على الإطلاق ، مع صفر يمثل الحد الأدنى من القيمة الممكنة في مقياس كلفن. في مقياس كلفن ، لذلك ، القيم السالبة غير ممكنة ، بشكل مختلف عن المقاييس المئوية والفهرنهايت (وكما سنرى بعد قليل ، مقياس IRT).  جميع مقاييس درجة الحرارة الثلاثة ليس لها حد حقيقي لقيمها القصوى ، حيث لا يوجد حد معروف لمدى سخونة شيء ما.

والآن، هل يمكننا القول إن أحد المقياسين أفضل من الآخر؟ في الحقيقة لا. فكل المقاييس الثلاثة صالحة تمامًا في حد ذاتها، وتستخدم على نطاق واسع في سياقات مختلفة، مع اعتبار بعض المقاييس أكثر ملاءمة من قبل المستخدمين اعتمادًا على سياقات محددة. ومع ذلك، فإن الشيء الوحيد الذي يوحد هذه المقاييس الثلاثة، والذي يجعلها مناسبة تمامًا للقياس الدقيق، هو حقيقة أن المسافة بين أي نقطتي قياس في المقياس تشير إلى نفس الفرق في درجة الحرارة. وبعبارة أخرى، فإن الفرق في النشاط الجزيئي بين 35 ℃ و37 ℃ هو بالضبط نفس الفرق بين 89 ℃ و91 ℃. هذه هي الخاصية التي نعتقد في Avant أنها في صميم القياس الجيد، وبالتأكيد هي الخاصية التي نستخدمها في درجات STAMP الخاصة بنا.

على الرغم من فائدة النظر إلى مقاييس درجة الحرارة الثلاثة المألوفة أعلاه ورؤية مدى ملاءمتها في سياقاتها المحددة لقياس بناء مثل درجة الحرارة، إلا أنه من المهم أن نفهم أن بعض الخصائص التي تمتلكها تجعلها غير ملائمة لقياس بناء مثل الكفاءة اللغوية. على سبيل المثال، قد يجد المرء أنه من المستحيل تقريبًا تفسير معنى الكفاءة اللغوية السلبية أو كيف يمكن لشخص ما أن تكون قدرته في لغة ما صفرية؛ فحتى الشخص الذي لم يدرس أو يتواصل مع لغة معينة من قبل سيكون لديه بعض المعرفة (وإن كانت بالحد الأدنى) على الأقل بكلمات مستعارة في تلك اللغة. لا يمكن لأي اختبار كفاءة لغوية أن يدّعي أن شخصًا ما لا يمتلك أي كفاءة لغوية على الإطلاق، لأنه سيكون من المستحيل على اختبار معين تقييم جميع السيناريوهات الممكنة التي قد يُظهر فيها الشخص بعضًا من الفهم، ولو كان أساسيًا جدًا، لكلمة أو عبارة في اللغة. جميع الاختبارات اللغوية مقيدة بالعناصر الموجودة في الاختبار وما هي قادرة على قياسه، مما يعني أن الاختبارات اللغوية قد لا يكون لها نقطة قياس صفرية، بل قد يكون لها نقطة قياس دنيا، تمثل النقطة التي لا يستطيع الاختبار دونها تقديم أي مطالبات. وينطبق الأمر نفسه على النقطة المرجعية القصوى في الاختبار؛ فمهما كان عدد البنود التي يحتويها الاختبار، لن يكون قادراً أبداً على قياس كل الكفاءة اللغوية للفرد. وعليه، فإن أي مقياس صالح لاختبار الكفاءة اللغوية مثل اختبارات STAMP سيكون له نقطة مرجعية دنيا (تُستخدم للمتقدمين للاختبار الذين يجيبون على جميع بنود الاختبار التي رأوها بشكل خاطئ)، ولن يكون له نقطة مرجعية صفرية، وسيكون له نقطة مرجعية قصوى (تُستخدم للمتقدمين للاختبار الذين يجيبون على جميع بنود الاختبار التي رأوها بشكل صحيح).

مقياس IRT و STAMP الدرجات

كما هو مذكور أعلاه، من المهم أن تشير الفواصل الزمنية المتساوية في المقياس المستخدم للإبلاغ عن الدرجات في اختبار الكفاءة اللغوية إلى نفس الفرق في الكفاءة اللغوية. تتماشى جميع المستويات من اختبار STAMP (المستويات من 1 إلى 9) مع مستويات الكفاءة اللغوية في اختبار ACTFL (من المستوى المبتدئ المنخفض إلى المستوى المتقدم العالي)، كما هو موضح أدناه:

على الرغم من توافق مستويات STAMP مع مستويات الكفاءة في ACTFL وعلى الرغم من فائدة مستويات الكفاءة في ACTFL في الإشارة إلى المستوى العام لقدرة المتقدم للاختبار في اللغة، إلا أن مستويات ACTFL نفسها لا تتوافق مع نوع الدرجات المقياسية العددية التي نبحث عنها. أولاً، إن معنى الفرق بين الفترات الزمنية في مستويات ACTFL (وبالتالي STAMP) ليس هو نفسه بغض النظر عن النقطة على المقياس. على سبيل المثال، يتطلب الانتقال من المستوى المتوسط العالي (STAMP المستوى 6) إلى المستوى المنخفض المتقدم (STAMP المستوى 7) قدرًا أكبر من القدرة اللغوية مقارنة بالانتقال من المستوى العالي للمبتدئين (STAMP المستوى 3) إلى المستوى المتوسط المنخفض (STAMP المستوى 4). ولهذا السبب بالذات، تم تصوير مستويات الكفاءة على شكل هرم مقلوب، وليس على شكل مربع أو مستطيل. ثانيًا، على الرغم من فائدة مستويات الكفاءة في الإشارة إلى المكان الذي يقف فيه متعلم لغة معين من حيث كفاءته اللغوية، إلا أن الطلاب الذين حصلوا على نفس المستوى STAMP قد يكون لديهم في الواقع قدرات مختلفة قليلاً في اللغة وربما أجابوا على أعداد مختلفة من العناصر بشكل صحيح في اختبار STAMP ، حتى لو صادف أنهم قد شاهدوا نفس العناصر تمامًا من خلال خوارزمية التكيف STAMP . لذلك، وعلى الرغم من الفائدة المهمة لمستويات STAMP ومستويات ACTFL في فهم الكفاءة اللغوية للمتقدمين للاختبار، إلا أن هذه المستويات ليست دقيقة كما يرغب بعض المستخدمين النهائيين لدرجات اختبارنا.

على سبيل المثال، قد يكون لدى مدرسة ما عشرة مقاعد فقط في قسم خاص مع مرتبة الشرف في مادة القراءة الفرنسية. ماذا لو كان أربعة عشر طالبًا من الطلاب قد وصلوا إلى المستوى STAMP 9 في القراءة؟ كيف يمكن للمدرسة أن تختار 10 طلاب من أصل 14 طالبًا في صف المتفوقين؟ قد يُعتبر اختيار العشرة عشوائيًا حلًا مقبولاً ولكننا في Avant التقييم يمكننا تقديم طريقة أفضل وأكثر دقة للمساعدة في هذه الحالة. كما ذُكر أعلاه، يستخدم تقييم Avant تقنية قياس إحصائية تسمى نظرية الاستجابة للعناصر لمعايرة جميع العناصر في قسمي القراءة والاستماع في اختبارات STAMP (التكيفي)، لمواءمة عدد الأسئلة التي يجيب عليها المتقدم للاختبار بشكل صحيح في مسار الاختبار الخاص به مع مستويات STAMP وبالتالي مستويات ACTFL التي يتوافق معها، وأخيراً، إنتاج درجات مقياس تزود مستخدمي الدرجات بمقياس أكثر دقة للقدرة اللغوية لكل متقدم للاختبار مما كان سيكون ممكناً إذا تم الإبلاغ عن مستويات STAMP فقط.

تحجيم STAMP الدرجات

بمجرد أن تتم معايرة جميع العناصر في قسم معين من اختبار STAMP من خلال اختبار IRT، يمكننا تعيين تقدير قدرة IRT (يُشار إليه أيضًا باسم ثيتا في مصطلحات اختبار IRT) لكل طالب بناءً على العناصر التي حصل عليها بشكل صحيح أو خاطئ في المسار المحدد الذي اتبعه في كل قسم من أقسام القراءة والاستماع في اختبار STAMP . وبمجرد أن نحصل على هذه القيمة، يمكننا بعد ذلك قياس هذه القيمة (ومن هنا جاء مصطلح قياس الدرجات) حتى نتمكن من الإبلاغ عن درجات أكثر دقة، من أجل استكمال الإبلاغ عن المستوى STAMP الذي تم تحقيقه. من خلال تحجيم درجات اختبار IRT، يمكننا بعد ذلك ضمان أن تكون جميع الدرجات المقيسة موجبة (لا توجد قيم سلبية) وأن مستخدمي الدرجات، مثل المدرسة الفرنسية الافتراضية أعلاه، قادرون على تكبير المزيد من درجات كفاءة الطلاب، حتى لو حصل الطلاب على نفس المستوى STAMP .

يجب قياس كل قسم من أقسام القراءة والاستماع في كل اختبار STAMP بشكل منفصل. لذلك، لا يمكن مقارنة الدرجات المقيسة للقراءة باللغة الإسبانية مباشرةً مع الدرجات المقيسة للاستماع باللغة الإسبانية، أو مع الدرجات المقيسة للقراءة باللغة الصينية. وبعبارة أخرى، فإن الدرجات المقياسية STAMP هي درجات خاصة باللغة والقسم.

نقوم بقياس درجات IRT في أقسام القراءة أو الاستماع في كل اختبار من اختباراتنا من خلال تحويل خطي بسيط ، كما هو موضح في الصيغة أدناه:

يضمن المقياس أعلاه أن جميع الدرجات المقيسة الممكنة لقسم معين من اختبار STAMP هي أرقام موجبة بدون كسور عشرية، وهي أكثر بديهية من الدرجات التي تتراوح بين - 4 و+ 4، والتي تعتبر أكثر شيوعًا في اختبار IRT. كما يضمن القياس الخطي الموضح في الصيغة أعلاه أن المسافة بين أي درجتين مقياسين تشير إلى نفس الفرق في القدرة عند أي نقطة في المقياس.

تفسير الدرجات المقاسة

تخيل أن لدينا الطلاب التالية أسماؤهم، الذين خضعوا لقسم الاستماع في اختبار اللغة اليابانية STAMP 4S:

  • الطالب درجة متدرجة : 589
  • درجة الطالب ب المقاسة: 612
  • درجة الطالب C المقاسة: 677
  • درجة الطالب D المقاسة: 700

إن الفرق في إجادة الاستماع اليابانية بين الطالب (أ) والطالب (ب) في اللغة اليابانية (23 نقطة مقياس) هو نفس الفرق في إجادة الاستماع اليابانية بين الطالب (ج) والطالب (د) (23 نقطة). إذا حقق اثنان من الطلاب نفس المستوى STAMP في الاستماع الياباني(على سبيل المثال، المستوى STAMP المستوى 4 - المستوى المتوسط المنخفض)، ولكن أحدهما حصل على درجة مقياس أعلى من الآخر بمقدار 20 نقطة، فلدينا دعم قوي للاعتقاد بأن الطالب صاحب الدرجة الأعلى في المقياس أكثر إتقانًا من الطالب صاحب الدرجة الأقل في المقياس. وكلما كان الفرق بين درجاتهما المقياسية أكبر، زادت ثقتنا في أن الفرق ذو مغزى وأن الطالبين ليسا متساويين في الكفاءة بالفعل. يمكن أن تكون الدرجات المقياسية مفيدة أيضًا في الحالات التي قد يبدو فيها أن الطالب لا يحرز تقدمًا بعد عام من الدراسة ويكون "عالقًا" في نفس مستوى الكفاءة. قد تُظهر المقارنة بين درجاتهم المقيسة قبل عام واحد ودرجاتهم المقيسة من الإدارة الحالية مكاسب إضافية صغيرة في كفاءتهم، حتى لو لم تكن هذه الزيادات كافية لنقلهم إلى المستوى التالي STAMP .

ومع ذلك، يجب أن نضع في اعتبارنا أمرًا واحدًا: جميع التقييمات لها هامش معين من الخطأ في القياس مرتبط بدرجاتها. على سبيل المثال، الخطأ المعياري للقياس (SEM) الذي أبلغت عنه خدمات الاختبارات التعليمية لقسم الاستماع في اختبار TOEFL iBT، والذي يستخدم مقياس درجات يتراوح بين 0 - 30 هو 2.38 نقطة (خدمات الاختبارات التعليمية، 2018). وبالمقابل، بالنسبة لدرجات قسم اختبار SAT، الذي يتراوح نطاق درجاته بين 200 و800، فإن الخطأ المعياري للقياس هو 30 نقطة (مجلس الكلية، 2018). وبما أنه من غير المجدي تقييم كل طالب في عدة أيام مختلفة، وعبر مئات من عناصر الاختبار، فإن كل نتيجة اختبار هي لقطة للمستوى الذي استطاع المتقدم للاختبار الحفاظ عليه في ذلك اليوم المحدد الذي أجرى فيه الاختبار، وعبر العناصر المحددة التي أجاب عنها خلال إدارته للاختبار. وبطبيعة الحال، فإن اختباراً مثل STAMP 4S، الذي يكون قسمي القراءة والاستماع فيه متكيفين مع الحاسوب، والذي يتضمن عدداً كبيراً من العناصر التي تستهدف المستوى التقديري لكل متقدم للاختبار في الوقت الحقيقي، والذي تم تطويره وفقاً لمعايير نوعية وكمية صارمة، سوف يكون خطأ القياس فيه أقل، ويكون أكثر فعالية وكفاءة من الاختبارات الخطية الأقصر غير المتكيفة التي لا تتبع نفس الدقة (شولتز، ويتني، وزيكار، 2014).إن متوسط الخطأ المعياري للقياس للدرجات المقيسة في قسمي القراءة والاستماع في اختبارات STAMP هو 10 نقاط مقيسة. يمكن اشتقاق هذه الإحصائية بسهولة من نوع برنامج اختبار IRT الذي نستخدمه في Avant.

إن خطأ القياس المرتبط بالدرجات المتدرجة STAMP صغير جدًا بالنظر إلى الدقة السيكومترية والطبيعة التكيفية لاختباراتنا. على الرغم من أننا ننصح بأن يتم إجراء تحليلات درجات الاختبار في المقام الأول على أساس المستوى STAMP الذي تم تحقيقه، إلا أننا في Avant نقترح أن الدرجات المقياس قد تؤخذ بعين الاعتبار في حالات محددة للغاية عندما يتم اتخاذ قرارات ذات حصص أعلى بناءً على درجات الاختبار STAMP ، مثل عندما تُستخدم الدرجات STAMP لمنح أختام الدولة لمحو الأمية (SSB) أو لمنح الاعتماد عن طريق الامتحان (CBE). في مثل هذه الحالات ذات المخاطر الأعلى، إذا كانت درجة المتقدم للاختبار في القراءة أو الاستماع في حدود 10 نقاط أو أقل من الحد الأدنى للدرجة التي يمكن أن تؤهله للحصول على شهادة ثنائية القراءة والكتابة أو شهادة الاعتماد عن طريق الامتحان (CBE)، فإن موقف Avantهو أنه يجوز للمدرسة أو المنطقة، حسب تقديرها، أن تطلب من المتقدمين للاختبار إعادة إجراء الاختبار STAMP (نظرًا لطبيعته التكيفية، هناك فرصة جيدة ألا يرى المتقدمون للاختبار نفس العناصر تمامًا كما في الإدارة السابقة). إذا كانت درجة المتقدم للاختبار في هذه الإدارة الثانية تؤدي إلى مستوى STAMP يفي بمتطلبات أي من اختباري SSB أو CBE، فإن موقف Avantهو أنه يمكن استخدام الدرجات من هذه الإدارة الثانية بدلاً من الدرجات من الإدارة الأولى.

السيناريوهان اللذان تمت مناقشتهما أعلاه هما سيناريوهان أعلى خطورة قد يكون هناك ما يبرر فيهما النظر في الهامش الصغير أو الخطأ في الاختبار (تذكر أن جميع الاختبارات لها هامش خطأ).

نوصي بأنه من المناسب عمومًا استخدام الدرجات المقننة STAMP للاستخدامات التقليدية مثل التحليل السنوي المستمر أو نمو الطلاب وتقييم البرامج.

للاطلاع على جداول الدرجات المتدرجة المتاحة حاليًا لتقييمات STAMP ، انقر هنا.

مراجع: 

مجلس الكلية (2018). SAT: فهم الدرجات. تم الاسترجاع من https://collegereadiness.collegeboard.org/pdf/understanding-sat-scores.pdf

خدمات الاختبارات التعليمية (2018). موثوقية وقابلية المقارنة لدرجات TOEFL iBT. سلسلة رؤى أبحاث TOEFL (المجلد 3). تم الاسترجاع من www.ets.org/s/toefl/pdf/toefl_ibt_research_s1v3.pdf

شولتز ، كيه إس ، ويتني ، دي جي ، وزكار ، إم جي (2014). نظرية القياس في العمل. دراسات الحالة والتمارين (2nd ed.). لندن / نيويورك: روتليدج. مجلس الكلية (2018). SAT: فهم الدرجات. تم الاسترجاع من https://collegereadiness.collegeboard.org/pdf/understanding-sat-scores.pdf

خدمات الاختبارات التعليمية (2018). موثوقية وقابلية المقارنة لدرجات TOEFL iBT. سلسلة رؤى أبحاث TOEFL (المجلد 3). تم الاسترجاع من www.ets.org/s/toefl/pdf/toefl_ibt_research_s1v3.pdf

شولتز ، كيه إس ، ويتني ، دي جي ، وزكار ، إم جي (2014). نظرية القياس في العمل. دراسات الحالة والتمارين (2nd ed.). لندن / نيويورك: روتليدج.

تحديث: