تجريدي

يتضمن اختباري STAMP 4S و STAMP WS ضمن عائلة تقييمات STAMP (قياس الكفاءة المستند إلى المعايير) قسمًا للكتابة وقسمًا للمحادثة. أحد الأدلة الحاسمة على صحة الدرجات في هذه الأقسام، بالنظر إلى الاستخدامات والتفسيرات المقصودة منها، يأتي من مدى إمكانية إثبات أن الدرجات موثوقة ودقيقة.

نعرض في هذه الورقة البحثية نتائج تحليل حديث أُجري مؤخرًا على التقييمات في قسمي الكتابة والمحادثة في خمس لغات تمثيلية من لغات STAMP 4S (العربية والإسبانية والفرنسية والصينية المبسطة والروسية) وثلاث لغات تمثيلية من لغات STAMP WS (الأمهرية والكريولية الهايتية والفيتنامية).

تُظهر النتائج، استنادًا إلى تحليل أكثر من 23,000 إجابة من إجابات الممتحنين في هذه اللغات الثماني، مستوى عالٍ من الدقة والموثوقية في تسجيل الدرجات لكل من قسمي الكتابة والمحادثة في اختبار STAMP، مما يوفر دعمًا قويًا لصحة الدرجات من هذين القسمين بالنظر إلى التفسيرات والاستخدامات المقصودة.

قسمي الكتابة والتحدث في STAMP

قسمي الكتابة والمحادثة في اختبار STAMP تُقيّم عائلة اختبارات STAMP (القياس القائم على المعايير للكفاءة اللغوية) الكفاءة اللغوية في العالم الحقيقي، وهي متوافقة مع إرشادات الكفاءة الصادرة عن ACTFL. اختبار STAMP 4S هو اختبار من أربع مهارات لقياس الكفاءة اللغوية، وهو معتمد من قبل المجلس الأمريكي للتعليم (ACE)، ومتوفر في وقت كتابة هذا التقرير ب 14 لغة. كما أن اختبار STAMP WS، المعتمد أيضاً من قبل المجلس الأمريكي للتعليم (ACE)، هو اختبار للكفاءة اللغوية في المهارتين الإنتاجيتين للكتابة والمحادثة، وهو متوفر في وقت كتابة هذا التقرير ب 24 لغة. هناك عاملان مهمان في تقييم مدى صحة درجات اختبار ما، بالنظر إلى ما يهدف الاختبار إلى قياسه والاستخدامات المقصودة من درجات الاختبار، وهما موثوقية ودقة درجات الاختبار.

سنقوم في هذه الورقة البحثية القصيرة بمناقشة وفحص موثوقية ودقة تقييمات قسمي الكتابة والمحادثة في اختبار STAMP، حيث يجب على المقيّمين البشريين المدربين تعيين مستوى STAMP بين 0 (لا إتقان) و8 (متقدم-متوسط) للإنتاج اللغوي للممتحنين.

في كل قسم من قسمي الكتابة والمحادثة في اختبار STAMP، يتم إعطاء الممتحنين ثلاثة مطالبات قائمة على سيناريوهات واقعية يجب عليهم الإجابة عليها. ويُطلب من الممتحنين الكتابة قدر الإمكان و"إظهار" مهاراتهم اللغوية بأفضل ما لديهم من قدرات.

يتم تقييم إجابة الممتحن على كل من المطالبات الثلاثة في القسم من قبل مقيّمين معتمدين Avant ، الذين يجب أن يجتازوا برنامج تدريب واعتماد شامل وصارم حتى يُسمح لهم بتقييم استجابات STAMP. بعد أن يبدأ هؤلاء المقيّمون في تقييم إجابات STAMP الحقيقية والعملية في الكتابة والمحادثة في STAMP، يراقب Avant ومديرو المقيّمين التابعون لها عن كثب أداء كل مقيّم من خلال مقاييس نوعية وكمية لضمان جودة تقييماتنا والتأكد من أن كل مقيّم من مقيّمي Avant يقيّمون وفقًا للمعايير التي وضعتها الشركة.

في 80% من الوقت، يتم تقييم استجابة المحادثة أو الكتابة بواسطة مقيِّم واحد Avant . وتصبح الدرجة/مستوى العلامة/مستوى العلامة المميزة التي تم تعيينها لتلك الإجابة من قبل المُقيِّم هي الدرجة الرسمية لتلك الإجابة في النظام. في 20٪ من المرات، يتم تقييم الإجابة من قبل اثنين على الأقل من مقيمي Avant . عندما يتفق المقيمان على درجة STAMP، تصبح هذه الدرجة هي الدرجة الرسمية المعينة لتلك الإجابة. في حالة عدم اتفاق المقيّمين الاثنين، يتم إحضار مدير مقيّمين Avant لتقييم الإجابة. ويصبح التقييم الذي يقدمه مدير المقيّمين هو التقييم الرسمي الذي تم تعيينه لتلك الإجابة. يتم تقييم كل إجابة بشكل مستقل تمامًا عن استجابة الممتحن للإجابتين الأخريين. عند تقييم إجابة معيّنة، لا يستطيع المُقيِّمون الوصول إلى أي معلومات تتعلق بالممتحَن، أو درجاته على إجاباته الأخرى لتلك المهارة، أو الدرجة التي منحها أي مُقيِّم آخر لتلك الإجابة، وكل ذلك يزيد من صحة التقييم لكل إجابة.

تُحسب درجة STAMP النهائية للممتحَن في قسم الكتابة أو قسم المحادثة بناءً على مستوى STAMP المحدد الذي حصل عليه لكل من المطالبات الثلاث التي أجاب عليها. ويصبح مستوى STAMP الرسمي الممنوح للقسم هو أعلى مستوى كفاءة تمكن الممتحن من الحفاظ عليه (أي إثباته في حالتين على الأقل) في إجاباته الثلاث.

مخطط إجراءات تسجيل درجات الدقة STAMP.
الشكل 1. قواعد النظام للتوصل إلى المستوى النهائي للممتحن في قسمي الكتابة والمحادثة

كما هو موضح في الشكل 1، إذا حصل الممتحن على درجة مبتدئ-متوسط عن إجابته الأولى، ودرجة مبتدئ-عالي عن إجابته الثانية، ودرجة مبتدئ-عالي عن إجابته الثالثة، يصبح مستوى ممتحنه الرسمي في هذا القسم هو درجة مبتدئ-عالي (مبتدئ-عالي) لأن هذا هو أعلى مستوى من الكفاءة تمكن من الحفاظ عليه في مرتين على الأقل. وبدلاً من ذلك، إذا تم منحه درجة متوسطة-منخفضة عن إجابته الأولى، ودرجة مبتدئ-عالية عن إجابته الثانية، ودرجة متوسطة-متوسطة عن إجابته الثالثة، يصبح مستوى ممتحنه النهائي في هذا القسم هو متوسط-منخفض، وهو أعلى مستوى تمكن من الحفاظ عليه في حالتين على الأقل (الأولى والثالثة في هذه الحالة).

إنّ استخدام ثلاثة مطالبات مستقلة في قسم الكتابة وثلاثة مطالبات مستقلة في قسم المحادثة في امتحان "ستامب" له ميزتان رئيسيتان. الميزة الأولى هي أنه يسمح بتقييم الممتحَنين في مواضيع مختلفة، مما يدعم الفرضية القائلة بأنّ مستوى الكفاءة الممنوحة في نهاية القسم سوف يُعمّم على سيناريوهات أخرى في العالم الحقيقي. الميزة الثانية هي أنه، إلى جانب منهجية التقييم الموصوفة أعلاه، يساعد على تقليل تأثير أي تحيز محتمل في التقييم من قبل أي مقيّم فردي Avant .

نوجه انتباهنا الآن إلى تعريف الموثوقية والدقة.

موثوقيه

يمكن تعريف الموثوقية بأنها "اتساق القياس" (باكمان وبالمر، 1996). ببساطة، هي ببساطة المدى الذي يمكن الوثوق به (الاعتماد عليه) في بقاء الدرجات في اختبار معين على حالها إذا خضع الممتحَن لهذا الاختبار مرة أخرى في مناسبات مختلفة أو إذا خضع لأشكال مختلفة من الاختبار، بافتراض أن كفاءة الممتحَن في ما يقيسه الاختبار لم تتغير في هذه الأثناء.

على سبيل المثال، إذا تقدم ممتحن لامتحان الكفاءة اللغوية اليوم وحصل على علامة متوسط-منخفض ثم حصل على علامة متوسط-مرتفع في نفس الامتحان غدا، يمكننا أن نفترض، شريطة أن معرفة الممتحن باللغة وحالته العقلية، أن الامتحان قد لا يكون موثوقا به بشكل كبير. على نفس المنوال ، إذا أتاحت منظمة اختبارا بأشكال متوازية مختلفة (عادة ما يتم إجراؤه لزيادة أمان الاختبار) ولكن حصل الممتحن على درجة متقدم-منخفض في نموذج ثم متوسط متوسط في نموذج آخر ، يمكننا أن نفترض مرة أخرى أنه قد يكون هناك نقص في الاتساق في القياس ، وبالتالي مشكلة عدم الموثوقية ، مع هذا الاختبار.

أحد العوامل التي تُسهم في موثوقية الاختبار هو الطريقة التي يتم بها تسجيل درجات الاختبار. في اختبار STAMP، يتألف قسمي القراءة والاستماع من أسئلة متعددة الاختيارات ويتم تسجيل إجابات الممتحن تلقائياً بواسطة نظام محوسب. وهذا يعني أنه إذا قدم الممتحَن نفس الإجابة على نفس العناصر في مناسبات مختلفة، فسوف يحصل دائماً على نفس الدرجة.

من ناحية أخرى، يتم تقييم قسمي الكتابة والمحادثة في اختبار STAMP من قبل مقيّمين بشريين. لذا، من الممكن أن يحصل المُمتحَن على درجة مختلفة لنفس الإجابة بالضبط، اعتماداً على الشخص الذي يقوم بتقييم إجابة المُمتحَن. وبالطبع، كلما كان المقيّمون مدربين تدريباً جيداً، كلما قل توقعنا أن تختلف الدرجات بسبب الاختلافات في التساهل أو الصرامة أو أي تحيز محتمل من جانب المقيّمين.

دقة

يتوقع الممتحنون أن تعتمد درجاتهم في الاختبار فقط على مدى امتلاكهم أو عدم امتلاكهم للبنية التي يقيسها الاختبار (في حالة اختبار STAMP، الكفاءة في كل مجال من مجالات اللغة). وتتعلق الدقة بمدى دقة الدرجة الممنوحة لإجابة الممتحن في وصف قدرته في تلك البُنية بشكل صحيح. على هذا النحو، إذا قدم أحد الممتحنين إجابة في المحادثة بمستوى متوسط-عالي لكن المقيّمين اللذين حددا مستوى لتلك الإجابة حددوا مستوى متوسط-منخفض، يمكننا القول أن هذه الدرجة غير دقيقة. إذا قام المقيِّمان الآخران بتقييم نفس الإجابة بعد شهرين من ذلك وقاموا بتعيين مستوى متوسط-منخفض أيضًا، فستكون الدرجات غير دقيقة مرة أخرى، على الرغم من كونها موثوقة (لم تتغير من مناسبة إلى أخرى أو من مقيِّم إلى آخر).

يصف الشكل 2 الفرق بين الموثوقية والدقة. بطبيعة الحال ، نود أن تكون الاختبارات موثوقة ودقيقة. يوفر استيفاء هذين الشرطين دعما قويا لصحة درجات الاختبار والاستخدامات المقصودة منها.

صورة متقدمة مع تسمية توضيحية
مخطط محسّن دقيق مقابل مخطط محسّن موثوق

الشكل 2: الموثوقية والدقة (المصدر: Matrix Education)

الإحصاءات المستخدمة عادة لتقييم موثوقية ودقة الدرجات من قبل المقيمين

عندما تُسجّل استجابات الممتحَنين في الامتحان من قبل مقيّمين بشريين، كما في حالة اختبار STAMP، من المهم التأكد من أن الدرجات تعكس جودة الاستجابة نفسها، وبالتالي لا تتأثر (أو تتأثر بالحد الأدنى فقط) بخصائص المقيّم (أو المقيّمين) الذي يقيّم تلك الاستجابة. وبعبارة أخرى، يجب أن تعتمد الدرجة فقط على مقدار البنية التي يقيسها الاختبار التي قد يُظهرها مقيّم معين في استجابته وليس على مدى تساهل أو صرامة أو تحيز المُقيّم.

غالبا ما يتم تقديم الإحصائيات من قبل مقدمي اختبارات اللغة لإظهار مدى تأثر العلامات التي يمنحها المقيمون البشريون لإجابات الممتحنين بمن يحدث في التصنيف. في كثير من الأحيان في أدبيات اختبار اللغة ، يتم توفير هذه الإحصائيات من خلال مقارنة التصنيفات التي سيعطيها اثنان من المقيمين المنفصلين لنفس المقال. من المفترض أنه من المرغوب فيه للغاية أن يقوم أي مقيمين بتعيين نفس الدرجة قدر الإمكان لنفس المقال ، مما يدل على أن عملية التصنيف موثوقة للغاية.

ومع ذلك، وكما رأينا أعلاه، يجب أن تكون الموثوقية مصحوبة بالدقة وينبغي أيضًا التحقق من هذه الأخيرة. ففي نهاية المطاف، قد يقوم مقيمان عشوائيان بتعيين نفس الدرجة لمقال ما ولكن قد يكون كلاهما مخطئًا. في اختبار متطور وجيد الدرجات، يكون السيناريو المثالي هو عندما يتفق المقيّمون بشكل كبير مع بعضهم البعض ويصادف أن يكونوا على صواب (دقيق) في الدرجات التي يحددونها للإجابات.

من المهم أن نفهم أنه ليس من المجدي أن نتوقع دائما اتفاقا مثاليا بين اثنين من المقيمين البشريين. على الرغم من كل التدريب الذي قد يكون كل منهم قد مر به وكل التجارب والخبرات التي قد يتمتع بها كل واحد فيما يتعلق بالبناء الذي يتم تقييمه (في حالتنا ، إتقان اللغة) ، حتى البشر المؤهلين تأهيلا عاليا يختلفون في بعض الأحيان. الأطباء يفعلون ذلك. المهندسين يفعلون ذلك. العلماء يفعلون ذلك. لذلك ، فإن الفكرة هي السعي إلى تحقيق أعلى مستوى ممكن من الاتفاق ، والذي يثبت أنه يمكن الدفاع عنه بالنظر إلى استخدامات وتفسيرات الدرجات من هذا الاختبار.

فيما يلي المقاييس الإحصائية التي نجريها في الموقع الإلكتروني Avant Assessment على اختبار STAMP من أجل تقييم جودة التصنيف الذي يقدمه فريقنا من المقيّمين البشريين. في حين أن العديد من الشركات قد تبلغ فقط عن الاتفاق الدقيق والمتقارب، فإننا نقوم بتقييم المقيّمين لدينا على مقاييس إضافية أيضًا، نظرًا لأن أي مقياس محدد يمكن أن يوفر معلومات جزئية فقط فيما يتعلق بجودة المقيّمين. وكلما زاد عدد المقاييس المتضمنة، زادت قدرتنا على تثليث النتائج والتوصل إلى قرار قاطع. المقاييس التي سنبلغ عنها في هذه الورقة هي:

الاتفاق الدقيق:

يتم الإبلاغ عن هذا المقياس كنسبة مئوية تشير إلى النسبة المئوية للأوقات التي يكون فيها المستوى الممنوح لإجابة معينة من قبل المقيّم 1 هو نفس المستوى الذي منحه المقيّم 2. على سبيل المثال، إذا منح المقيّم 1 المستوى 5 للإجابة من قبل المقيّم 1، ومنح المقيّم 2 أيضًا المستوى 5 لنفس الإجابة، فسيتم اعتبار ذلك حالة اتفاق تام. يقترح Feldt وBrennan (1989) أنه عند استخدام مقيّمين اثنين، يجب أن يكون هناك اتفاق تام بنسبة 80% على الأقل، مع اعتبار 70% مقبولة للاستخدام العملي.

بالضبط + الاتفاقية المجاورة:

يتم الإبلاغ عن هذا المقياس كنسبة مئوية تشير إلى النسبة المئوية للمرات التي يكون فيها المستوى الممنوح لإجابة معينة من قبل المقيّم 1 إما مطابقًا أو مجاورًا للمستوى الممنوح من قبل المقيّم 2. على سبيل المثال، يكون المستوى 5 من مصمم التقييم 5 مجاورًا لكل من المستوى 4 والمستوى 6 من مصمم التقييم 2. ولذلك، إذا قام المقيّم 1 بتعيين المستوى 4 من STAMP لإجابة ما وقام المقيّم 2 بتعيين المستوى 5 من STAMP لتلك الإجابة، فسيتم احتساب ذلك في هذا المقياس، نظرًا لأن هذين المستويين متجاوران. يقترح غراهام وآخرون (2012) أنه عندما يحتوي مقياس التصنيف على أكثر من 5-7 مستويات تصنيف، كما هو الحال مع مقياس STAMP، يجب أن يكون الاتفاق الدقيق + المتجاور قريبًا من 90%.

كابا مرجح تربيعي (QWK)

يقيس مقياس كوهين كابا، أو 𝜿، الموثوقية بين مقيّمين اثنين من خلال الأخذ في الاعتبار إمكانية حدوث اتفاق بالصدفة. على سبيل المثال، بما أن مقياس STAMP العددي في الكتابة والمحادثة هو مقياس من 9 درجات، من المستوى 0 إلى المستوى 8، فهناك احتمال بنسبة 11.11% أن يتفق مقيمان على درجة ما بشكل تام عن طريق الصدفة. في Avant ، بالإضافة إلى أخذ هذا الاتفاق بالصدفة في الاعتبار، نستخدم أوزانًا تربيعية عند حساب الكابا، مما يعني أنه يتم تعيين عقوبة أعلى للدرجات البعيدة عن بعضها البعض. وبعبارة أخرى، فإن ملاحظة الفرق بين المستوى 3 والمستوى 7 بين تقييمين لنفس الاستجابة يكون أكثر إشكالية من ملاحظة الفرق بين المستوى 3 والمستوى 4. يوصي ويليامسون وآخرون (2012) بضرورة أن تكون قيمة QWK >= 0.70، ويشير فلايس (2003) إلى أن القيم التي تزيد عن 0.75 تظهر اتفاقًا ممتازًا يتجاوز الصدفة لمعظم الأغراض. تشير قيمة QWK التي تبلغ 0 إلى اتفاق ببساطة على مستوى الصدفة بين مجموعتين من التصنيفات بينما تشير القيمة 1 إلى اتفاق تام.

متوسط الفرق الموحد (SMD)

This measure shows the extent to which two raters may be using a rating scale in a similar way. It shows the difference of the mean of two sets of scores (i.e., Rater 1 vs. Rater 2) standardized by the pooled standard deviation of those two sets. Ideally, neither rater should prefer or avoid awarding levels at a certain point of a rating scale (for example, avoid giving either STAMP 0s or STAMP 8s). In other words, both raters should make equal use of the rating scale (STAMP 0 – STAMP 8) and the scores awarded should be dependent only on the level of proficiency shown in the response itself. It is recommended that the value for this measure should be <= 0.15 (Williamson et al., 2012), ensuring that the distribution of both sets of scores is acceptably similar.

ارتباط ترتيب رتبة سبيرمان (ρ)

يشير هذا المقياس إلى قوة الارتباط بين متغيرين، وهما في هذه الحالة مستوى مصنف التقييم الذي عينه المقيم 1 ومستوى مصنف التقييم الذي عينه المقيم 2. من المتوقع، إذا كان فريق المقيّمين مدربين تدريبًا جيدًا ويفهمون بوضوح نموذج التقييم، أنه كلما قام المقيّم 1 بتعيين مستوى كفاءة عالٍ لإجابة ما، فإن المقيّم 2 سيعين أيضًا مستوى عالٍ. وبعبارة أخرى، نتوقع أن تتحرك مجموعتا الدرجات معًا (صعودًا أو هبوطًا) إذا كان المقيّمون يقيّمون بالفعل نفس البناء. نستخدم معامل ارتباط الرتبة لسبيرمان بدلًا من ارتباط بيرسون - عزم الضرب لأن الأول مفضل عندما تكون التصنيفات ترتيبية كما في حالة مستويات الكفاءة في STAMP. ويُعتبر معامل الارتباط الذي يبلغ 0.80 أو أعلى قويًا في مختلف المجالات (أكوغلو، 2018).

2 مستويات الطوابع على حدة

يشير هذا المقياس، معبراً عنه كنسبة مئوية، إلى النسبة المئوية للمرات التي لوحظ فيها أن هناك تقييمين لنفس الإجابة على نفس المستوى (على سبيل المثال، يمنح المقيّم 1 المستوى 4 من مستوى STAMP للإجابة ويمنح المقيّم 2 المستوى 6 من مستوى STAMP).

موثوقية ودقة الدرجات من قبل Avant المقيّمين عبر لغات مختلفة

نوجه انتباهنا الآن إلى جودة التصنيفات، في ضوء الإحصائيات أعلاه، لقسمي الكتابة والمحادثة في STAMP 4S و STAMP WS عبر عدة لغات تمثيلية. نقدم أدناه نتائج تستند إلى مجموعتين مختلفتين من المقارنات:

راتر 1 مقابل راتر 2

نحن نقارن مستوى STAMP الذي منحه المقيّم 1 بمستوى STAMP الذي منحه المقيّم 2 عبر عدد كبير من الردود في تلك اللغة التي تم تقييمها من قبل مقيّمين اثنين على الأقل. يوفر هذا دعمًا لموثوقية التصنيفات التي يقدمها مقيّمان تم تعيينهما عشوائيًا Avant . كما ذكرنا سابقًا، يمكن لمقيّمين اثنين أن يمنحا نفس مستوى التقييم لمقال ما ويمكن أن يكون كلاهما غير صحيح في تقييمهما مقارنة بالتقييم الفعلي الذي كان ينبغي أن يكون عليه ذلك الرد. ولهذا السبب، فإننا لا نقوم بتضمين مقاييس الاتفاق الدقيق بين المقيّم 1 والمقيّم 2. بدلاً من ذلك، نركز بدلاً من ذلك على الاتفاق الدقيق + الاتفاق المتجاور ونقوم أيضًا بالإبلاغ عن مقاييس الدقة بين الدرجة التي منحها المقيّم 1 (الذي قام بالتقييم المنفرد بنسبة 80% من الوقت) والدرجات الرسمية (انظر أدناه).

راتر 1 مقابل النتيجة الرسمية

من أجل تقييم دقة المستويات التي أسندها المقيّمون Avant للردود، ننظر إلى عدد كبير من الحالات التي تم فيها تسجيل استجابة ما من قبل مقيّمين اثنين أو أكثر. ثم نقارن الدرجة الرسمية التي تم تعيينها لتلك الإجابة في النظام (وهي مشتقة من التقييمات الفردية لتلك الإجابة، كما سبق شرحه) بالدرجة التي تم تعيينها من قبل المقيِّم 1 فقط. يوفر لنا هذا مؤشرًا على مدى دقة تقييم الاستجابة عندما يقوم مقيِّم واحد فقط Avant بتقييم استجابة ما (وهو ما يحدث بنسبة 80% من الوقت).

يوضح الجدولان 1 و2 المقاييس الإحصائية لقسمي الكتابة والمحادثة لخمس لغات تمثيلية من STAMP 4S.

الجدول 1. إحصائيات موثوقية المقيّمين ودقة المقيّمين لقسم الكتابة لخمس لغات تمثيلية من STAMP لغات 4S.
جدول دقة الختم 2
الجدول 2. إحصاءات موثوقية ودقة المقيّمين لقسم المحادثة لخمسة مقيّمين تمثيليين في STAMP

يوضح الجدولان 3 و 4 المقاييس الإحصائية لقسمي الكتابة والمحادثة لثلاث لغات
تمثيلية STAMP WS.

جدول دقة الختم 3.
الجدول 3. إحصائيات موثوقية ودقة المقيّمين لقسم الكتابة لثلاث لغات تمثيلية من لغات STAMP WS.
جدول دقة الختم 4
الجدول 4. إحصائيات موثوقية ودقة المقيّمين لقسم المحادثة لثلاث لغات تمثيلية من لغات STAMP WS.

مناقشة

يعد المستوى العالي من الموثوقية والدقة أمرا أساسيا لصحة درجات الاختبار والاستخدامات المقصودة منها. لكن ما يعتبر مقبولا في الحد الأدنى من حيث الموثوقية والدقة يعتمد على المجال المحدد (الطب، القانون، الرياضة، الطب الشرعي، اختبار اللغة، إلخ)، وكذلك على عواقب منح مستوى غير دقيق لمجموعة إجابات ممتحن معين، وعلى مقياس التقييم نفسه. على سبيل المثال ، يميل الاتفاق إلى أن يكون أقل كلما زاد عدد الفئات المتاحة في مقياس التصنيف. بمعنى آخر ، يمكن توقع المزيد من الخلاف بين أي مقيمين إذا كان يجب عليهم تعيين واحد من عشرة مستويات محتملة للاستجابة مما لو كان يجب عليهم تعيين واحد من أربعة مستويات ممكنة فقط.

تُظهر الإحصاءات الواردة أعلاه لقسمي الكتابة والمحادثة في كل من STAMP 4S و STAMP WS مستوى عالٍ من الموثوقية (درجات المُقيِّم 1 مقابل درجات المُقيِّم 2) والدقة (المُقيِّم 1 مقابل الدرجات الرسمية). من بين اللغات الثماني التي تم تقييمها، فإن الموثوقية التي تظهرها درجة الدقة + الاتفاق الدقيق + التجاور بين المقيّم 1 والمقيّم 2 تكون دائمًا في الحد الأدنى (وغالبًا ما تكون أعلى بكثير) بنسبة 96.78% للكتابة و96.07% للمحادثة. بالإضافة إلى ذلك، نادرًا ما لوحظت الحالات التي كان فيها اختلاف التقييمات من قبل مقيّمين اثنين عن بعضهما البعض بأكثر من مستويين من مستويات STAMP. إن مستوى الدقة لجميع اللغات الثماني، الذي يظهر من خلال إحصائيات الاتفاق الدقيق بين درجة المقيّم 1 والدرجة الرسمية لكل إجابة كان دائمًا عند حد أدنى 83.66% (ولكن غالبًا ما يكون أعلى بكثير) للكتابة و80.19% للمحادثة، مع وجود اتفاق دقيق + اتفاق متجاور دائمًا عند حد أدنى 98.62% للكتابة و98.13% للمحادثة. تُظهر قيم الكابا المرجحة التربيعية (QWK) مستوى عالٍ جدًا من الاتفاق بين كل من المقيّمين 1 والمقيّمين 2 وبين المقيّمين 1 والمقيّمين 2، بينما تبين أن الارتباط بين درجات المقيّمين 1 والمقيّمين 2، وكذلك بين درجات المقيّمين 1 والمقيّمين الرسميين مرتفع جدًا. أخيرًا، تُظهر معاملات متوسط الفروق المعيارية (SMD) أن مقياس STAMP يُستخدم بطريقة متشابهة جدًا من قبل Avant المقيّمين.

توفر الإحصاءات أعلاه دليلاً على الجودة العالية لبرنامج اختيار المقيّمين وتدريبهم في Avant التقييم ومنهجيتنا في تحديد المقيّمين التشغيليين الذين قد يحتاجون إلى استبعادهم مؤقتًا من مجموعة المقيّمين وإعطائهم تدريبًا موجهًا. يُظهر أنه عندما يختلف أي مقيِّمين اثنين في مستوى مصحِّحَين في مستوى مصحِّح الاختبار الذي تم تعيينه للإجابة، نادرًا ما يكون الاختلاف أكثر من مستوى واحد من مستويات مصحِّح الاختبار، حيث يقوم كلا المقيِّمين بتعيين نفس المستوى بالضبط في الغالبية العظمى من الحالات. وبالإضافة إلى حقيقة أن الدرجة النهائية الرسمية النهائية للممتحن في قسم الكتابة أو المحادثة في اختبار STAMP تستند إلى درجات STAMP الفردية في ثلاثة مطالبات مستقلة، فإن النتائج الواردة هنا تقدم دليلاً قويًا على أن الدرجة النهائية للممتحن في قسمي الكتابة والمحادثة في اختبار STAMP يمكن الوثوق بها لتكون تمثيلًا موثوقًا ودقيقًا لمستوى إتقان اللغة في هذين المجالين.

مراجع

أكوغلو، ه. (2018). دليل المستخدم لمعاملات الارتباط. المجلة التركية لطب الطوارئ، 18(3)، 91-93.

Bachman, L. F., & Palmer, A. S. (1996). اختبار اللغة في الممارسة العملية: تصميم وتطوير اختبارات لغوية مفيدة (المجلد 1). مطبعة جامعة أكسفورد.

Feldt, L. S., & Brennan, R. (1989). الموثوقية. في R. L. Linn (Ed.)، القياس التربوي (الطبعة الثالثة، ص 105-146). نيويورك: Macmillan.

Fleiss, J. L., Levin, B., & Paik, M. C. (2003). الطرق الإحصائية للمعدلات والنسب. 3rd ed. Wiley.

Graham, M., Milanowski, A., & Miller, J. (2012). قياس وتعزيز الاتفاق بين المراجعين
تقييمات أداء المعلم ومدير المدرسة.

مصفوفة التعليم (2022). المهارات العملية للفيزياء الجزء 2: صحة التجارب وموثوقيتها ودقتها. تم الاسترجاع في 11 أغسطس 2022 (انقر هنا للذهاب إلى المصدر).

Williamson, D. M., Xi, X., & Breyer, F. J. (2012). إطار عمل لتقييم واستخدام التسجيل الآلي
. القياس التربوي: القضايا والممارسة، 31(1)، 2-13.

تحديث: