الموثوقية والدقة | Avant التقييم

نظره عامه

الدرجات الدقيقة والموثوقة ضرورية في اختبار الكفاءة اللغوية. إن قسمي القراءة والاستماع في اختبار STAMP متعدد الاختيارات، مما يسمح بتسجيل الدرجات تلقائيًا. يسمح قسمي الكتابة والاستماع بإجابات مفتوحة، وهو ما يتطلب مقيّمًا بشريًا لتسجيل الدرجات.

التسجيل التلقائي

تصنيف الإنسان

ولهذا السبب، يلتزم الموقع الإلكتروني Avant بالتأكد من أن دقة مقيمينا عالية قدر الإمكان.

وقد وجد تحليل أجري مؤخرًا لـ 23000 رد على 23000 رد لتقييمات الكتابة والمحادثة لخمس لغات من لغات STAMP 4S (العربية والإسبانية والفرنسية والصينية المبسطة والروسية) وثلاث لغات من لغات STAMP WS (الأمهرية والكريولية الهايتية والفيتنامية) أن مقيمي Avantأظهروا دقة وموثوقية عالية في تسجيل الدرجات، مما يجعلها مناسبة تمامًا للغرض المقصود منها.

كيفية تقييم الكفاءة في الكتابة والمحادثة

فحصت الدراسة قسمي الكتابة والمحادثة في اختبار STAMP، وتم تسجيلها من قبل مقيّمين مدربين باستخدام مستويات من صفر (لا إتقان) إلى 8 ( متقدم-متوسط).

يستجيب المتقدمون للاختبار لثلاثة مطالبات من العالم الحقيقي، ويعرضون مهاراتهم. يقوم المصححون المعتمدون بتسجيل كل إجابة بشكل مستقل، مدعومين بتدريب صارم ومراقبة مستمرة لضمان الاتساق.

بالنسبة ل 80% من الإجابات، تكون درجة مقيم واحد هي الدرجة الرسمية. بالنسبة لنسبة ال 20% المتبقية، يقوم مقيمان على الأقل بتسجيل الإجابة، مع وجود مدير لحل الخلافات. يعمل المصححون بشكل مستقل، مما يضمن نتائج غير متحيزة. تعكس الدرجة النهائية للكتابة أو المحادثة أعلى مستوى تم إظهاره بشكل متسق عبر مطالبتين من المطالبات الثلاث.

يوضح الرسم البياني أدناه هذه العملية:

الشكل 1. قواعد النظام للتوصل إلى المستوى النهائي للممتحن في قسمي الكتابة والمحادثة

مخطط إجراءات تسجيل درجات الدقة STAMP. — الشكل 1. قواعد النظام للتوصل إلى المستوى النهائي للممتحن في قسمي الكتابة والمحادثة

كما هو موضح في الشكل 1، يتم تحديد المستوى الرسمي للممتحن من خلال أعلى مستوى يمكن أن يظهره الممتحن في إجابتين على الأقل من أصل ثلاث إجابات. على سبيل المثال، إذا حصل الممتحن على مستوى متوسط-متوسط في إجابته الأولى، ومستوى متوسط-عالي في إجابته الثانية، ومستوى متوسط-عالي في إجابته الثالثة، فإن مستوى اختباره النهائي هو المستوى الثالث (متوسط-عالي). وبدلاً من ذلك، إذا حصل على مستوى متوسط-منخفض للإجابة الأولى، ومستوى مبتدئ-عالي للإجابة الثانية، ومستوى متوسط-متوسط للإجابة الثالثة، فإن مستواه النهائي هو متوسط-منخفض، لأنه أعلى مستوى حصل عليه مرتين (في الإجابات الأولى والثالثة).

استخدام ثلاث مطالبات مستقلة في كل من قسمي الكتابة والتحدث في STAMP له فائدتان رئيسيتان:

تغطية أوسع للمواضيع: يضمن تقييم الممتحنين عبر مواضيع مختلفة أن مستوى الكفاءة الممنوحة من المرجح أن يتم تعميمه على مواقف واقعية أخرى.
الحد من تحيز المقيّمين: إلى جانب طريقة تسجيل الدرجات، يساعد استخدام مطالبات متعددة على تقليل التحيز المحتمل للتقييم من المقيّمين الفرديين.

بعد ذلك، سنناقش تعريفات الموثوقية والدقة.

الموثوقية مقابل الدقة

الشكل 2: الفرق بين الموثوقية والدقة. من الناحية المثالية، يجب أن تكون الاختبارات موثوقة ودقيقة في آنٍ واحد، حيث يضمن ذلك صحة الدرجات والاستخدام المقصود منها.

موثوقيه

تشير الموثوقية إلى اتساق القياس (باكمان وبالمر، 1996). وبعبارات بسيطة، فهي تعني مدى ثقتنا في أن درجات الاختبار ستبقى كما هي إذا أجرى الممتحَن الاختبار مرة أخرى في أوقات مختلفة أو إذا أجرى نسخاً مختلفة من الاختبار، بافتراض أن كفاءته لم تتغير.

على سبيل المثال، إذا حصل المُمتحَن على درجة متوسطة-منخفضة اليوم ودرجة متوسطة-متوسطة غداً دون أي تغيير في معرفته أو حالته الذهنية، فهذا يشير إلى أن الاختبار قد لا يكون موثوقاً للغاية. وبالمثل، إذا حصل المُمتحَن على درجة متقدم-متوسط-منخفض في نسخة من الاختبار، ودرجة متوسط-متوسط في نسخة أخرى، فهذا يشير إلى عدم وجود اتساق، مما يشير إلى وجود مشكلة في موثوقية الاختبار.

أحد العوامل التي تساهم في موثوقية الاختبار هو كيفية تسجيل درجاته. في اختبار STAMP، يتكون قسمي القراءة والاستماع من أسئلة متعددة الخيارات يتم تسجيلها تلقائياً بواسطة الحاسوب. وهذا يضمن أنه إذا قدم الممتحن نفس الإجابات في مناسبات مختلفة، فسوف يحصل دائماً على نفس الدرجة.

ومع ذلك، يتم تقييم قسمي الكتابة والمحادثة بواسطة مقيّمين بشريين. وهذا يعني أن الدرجات يمكن أن تختلف اعتمادًا على من يقوم بتقييم الإجابة. مع وجود مقيّمين مدربين تدريبًا جيدًا، نتوقع أن تكون الاختلافات في الدرجات ضئيلة، مما يقلل من تأثير التساهل أو التشدد أو التحيز المحتمل.

دقة

يتوقع الممتحنون أن تعكس درجاتهم فقط كفاءتهم في البنية التي يتم قياسها (في STAMP، الكفاءة في كل مجال من مجالات اللغة).

تشير الدقة إلى مدى تمثيل الدرجة الممنوحة للقدرة الحقيقية للممتحن. على سبيل المثال، إذا قدم الممتحن إجابة في المحادثة بمستوى متوسط-عالي ولكنه حصل على درجة متوسطة-منخفضة من مُصنَّفين اثنين، فإن الدرجة الممنوحة غير دقيقة. وحتى إذا قام مقيِّمان آخران بتعيين درجة متوسطة-منخفضة بعد شهرين، تظل الدرجة غير دقيقة، على الرغم من أنها موثوقة (لأنها ثابتة بين المُقيِّمين ومع مرور الوقت).

تقييم موثوقية ودقة درجات المقيّمين

عندما يتم تسجيل الإجابات من قبل مقيِّمين بشريين، كما في حالة STAMP، من المهم التأكد من أن الدرجات تعكس جودة الإجابة نفسها، وليس خصائص المُقيِّم. وبعبارة أخرى، يجب أن تعتمد الدرجات فقط على الكفاءة التي أظهرها الممتحن، وليس على تساهل المقيّم أو صرامته أو تحيزه.

غالبًا ما يستخدم مقدمو اختبارات اللغة الإحصاءات لإظهار مدى اختلاف الدرجات بناءً على المُقيّم. عادةً ما يتضمن ذلك مقارنة التقييمات من مقيّمين منفصلين على نفس الإجابة. من الناحية المثالية، يجب أن يتفق المقيّمون على أكبر قدر ممكن من الدرجات، مما يشير إلى عملية تسجيل درجات موثوقة.

ومع ذلك، يجب أن تكون الموثوقية مصحوبة أيضًا بالدقة. قد يقوم مقيمان بتعيين نفس الدرجة، ولكن قد يكون كلاهما غير صحيح. في أي اختبار مطور جيداً، يكون الهدف هو أن يتفق المقيّمون على أن يكونوا دقيقين في تقييمهم بشكل متسق.

الاتفاق التام بين المقيّمين البشريين ليس واقعيًا دائمًا. على الرغم من التدريب والخبرة، قد يختلف حتى المقيّمون المؤهلون في بعض الأحيان - تمامًا مثل الأطباء أو المهندسين أو العلماء. الهدف هو تحقيق اتفاق عالٍ يمكن الدفاع عنه بالنظر إلى الاستخدام المقصود من الدرجات.

فيما يلي المقاييس الإحصائية التي نستخدمها في Avant تقييم لتقييم جودة التقييمات التي يقدمها مقيّمونا. بينما تقوم العديد من الشركات بالإبلاغ عن الاتفاق الدقيق والمتقارب فقط، فإننا نقوم بتقييم مقاييس إضافية للحصول على رؤية شاملة لجودة التقييم. تشمل المقاييس الواردة في هذه الورقة ما يلي:

الاتفاق الدقيق:

يتم الإبلاغ عن هذا المقياس كنسبة مئوية تشير إلى النسبة المئوية للأوقات التي يكون فيها المستوى الممنوح لإجابة معينة من قبل المقيّم 1 هو نفس المستوى الذي منحه المقيّم 2. على سبيل المثال، إذا منح المقيّم 1 المستوى 5 للإجابة من قبل المقيّم 1، ومنح المقيّم 2 أيضًا المستوى 5 لنفس الإجابة، فسيتم اعتبار ذلك حالة اتفاق تام. يقترح Feldt وBrennan (1989) أنه عند استخدام مقيّمين اثنين، يجب أن يكون هناك اتفاق تام بنسبة 80% على الأقل، مع اعتبار 70% مقبولة للاستخدام العملي.

يتم الإبلاغ عن هذا المقياس كنسبة مئوية توضح عدد المقيّمين 1 والمقيّم 2 اللذين قاما بتعيين نفس المستوى للإجابة عبر مجموعة البيانات بأكملها. على سبيل المثال، إذا قام كلا المقيّمين بتعيين المستوى 5 من STAMP لنفس الإجابة، فإن ذلك يعتبر حالة اتفاق تام. وفقًا ل Feldt and Brennan (1989)، يجب أن يكون الاتفاق التام 80% على الأقل، مع اعتبار 70% مقبولاً للاستخدام العملي.

بالضبط + الاتفاقية المجاورة:

يتم الإبلاغ عن هذا المقياس كنسبة مئوية توضح عدد المرات التي قام فيها المقيّم 1 والمقيّم 2 بتعيين نفس المستوى أو مستوى مجاور للإجابة عبر مجموعة البيانات بأكملها.

على سبيل المثال، المستوى 5 من STAMP مجاور للمستوى 4 والمستوى 6. إذا قام المقيِّم 1 بتعيين المستوى 4 وقام المقيِّم 2 بتعيين المستوى 5، فإن هذا المقياس يُحتسب في هذا المقياس لأن المستويات متجاورة. وفقًا لغراهام وآخرون (2012)، عندما يحتوي مقياس التقييم على أكثر من 5-7 مستويات، كما هو الحال مع مقياس STAMP، يجب أن يكون الاتفاق الدقيق + المتجاور قريبًا من 90%.

كابا مرجح تربيعي (QWK)

يقيس مقياس كوهين كابا (𝜅) الموثوقية بين مقيّمين اثنين مع الأخذ في الاعتبار إمكانية الاتفاق بالصدفة. على سبيل المثال، مع مقياس STAMP المكون من 9 نقاط (من المستوى 0 إلى المستوى 8)، هناك فرصة بنسبة 11.11% أن يتفق مقيمان على درجة ما بمحض الصدفة. في Avant، نستخدم أيضًا أوزانًا تربيعية عند حساب الكابا، مما يعني أنه يتم إعطاء عقوبات أعلى للتباينات الأكبر بين الدرجات. على سبيل المثال، يعتبر الفرق بين المستوى 3 والمستوى 7 من STAMP أكثر إشكالية من الفرق بين المستوى 3 والمستوى 4.

يوصي ويليامسون وآخرون (2012) بأن تكون قيمة كابا الموزونة تربيعيًا (QWK ) ≥ 0.70، بينما يشير فلايس (2003) إلى أن القيم التي تزيد عن 0.75 تشير إلى اتفاق ممتاز يتجاوز الصدفة. وتعني قيمة QWK التي تساوي 0 أن الاتفاق محض صدفة، بينما تشير القيمة 1 إلى اتفاق تام.

متوسط الفرق الموحد (SMD)

يوضح هذا المقياس مدى تشابه استخدام مقيّمين اثنين لمقياس تقييم. وهو يقارن الفرق في متوسط مجموعتين من الدرجات (المقيّم 1 مقابل المقيّم 2)، مع توحيدها حسب الانحراف المعياري المجمع لتلك الدرجات. من الناحية المثالية، يجب ألا يفضل أي من المقيّمين أو يتجنب مستويات معينة على المقياس (على سبيل المثال، تجنب الدرجة 0 أو الدرجة 8). وبعبارة أخرى، يجب أن يستخدم كلا المقيِّمين النطاق الكامل للمقياس(STAMP 0 - STAMP 8)، مع إعطاء درجات تعكس الكفاءة التي تظهر في الاستجابة. القيمة الموصى بها لهذا المقياس هي ≤ 0.15 (Williamson et al., 2012)، مما يشير إلى أن توزيعات مجموعتي الدرجات متشابهة بشكل مقبول.

ارتباط ترتيب رتبة سبيرمان (ρ)

يشير هذا المقياس إلى قوة الارتباط بين متغيرين: مستوى STAMP الذي تم تعيينه من قبل المقيِّم 1 والمستوى الذي تم تعيينه من قبل المقيِّم 2. إذا كان المقيّمون مدربون جيدًا ويفهمون قاعدة التقييم، فإننا نتوقع أن يقوم كلا المقيّمين بتعيين مستويات متشابهة - مما يعني أن الدرجات يجب أن تتحرك معًا. وبعبارة أخرى، عندما يقوم المقيِّم 1 بتعيين مستوى عالٍ، ينبغي أن يقوم المقيِّم 2 بتعيين مستوى عالٍ أيضًا، مما يعكس تقييمًا متسقًا لنفس البناء.

نستخدم معامل ارتباط الرتب لسبيرمان بدلاً من معامل بيرسون لأن معامل سبيرمان هو الأنسب للبيانات الترتيبية، مثل مستويات الكفاءة في برنامج STAMP. ويُعتبر معامل الارتباط الذي يبلغ 0.80 أو أعلى قويًا في معظم المجالات (أكوغلو، 2018).

2 مستويات الطوابع على حدة

يُظهر هذا المقياس، الذي يتم التعبير عنه كنسبة مئوية، عدد المرات التي يختلف فيها تقييمان لنفس الإجابة بمقدار مستويين من مستويات STAMP (على سبيل المثال، يعيّن المقيّم 1 المستوى 4 من STAMP ويحدد المقيّم 2 المستوى 6 من STAMP).

رسم بياني عام

مخطط دقة نقاط STAMP: — رسم بياني يوضح الدقة العالية لمقيمي Avant لقسمي الكتابة والمحادثة.

إحصائيات النقاط التفصيلية

نركز الآن على جودة تصنيفات قسمي الكتابة والمحادثة في STAMP 4S و STAMP WS، مع الأخذ في الاعتبار الإحصائيات المذكورة أعلاه عبر عدة لغات تمثيلية. فيما يلي، نعرض النتائج بناءً على مجموعتين مختلفتين من المقارنات:

راتر 1 مقابل راتر 2

نقارن مستوى STAMP الذي منحه المقيّم 1 بالمستوى الذي منحه المقيّم 2 عبر العديد من الردود التي تم تقييمها من قبل مقيّمين اثنين على الأقل. تدعم هذه المقارنة موثوقية التقييمات من مقيِّمين اثنين تم تعيينهما عشوائيًا Avant عشوائيًا. كما ذكرنا سابقًا، قد يتفق مقيمان على درجة ما، ولكن قد يكون كلاهما غير صحيح. لذلك، لا نقوم بتضمين مقاييس الاتفاق الدقيق بين المقيّمين 1 والمقيّمين 2. بدلاً من ذلك، نركز بدلاً من ذلك على الاتفاق الدقيق + الاتفاق المتجاور ونبلغ عن مقاييس الدقة التي تقارن الدرجات من المقيّم 1 (الذي يقيم منفردًا بنسبة 80% من الوقت) مع الدرجات الرسمية.

راتر 1 مقابل النتيجة الرسمية

لتقييم دقة المستويات التي حددها المقيّمونAvant ، نقوم بتحليل الحالات التي تم فيها تقييم استجابة ما من قبل مقيّمين اثنين أو أكثر. نقارن الدرجة الرسمية (المستمدة من جميع التقييمات الفردية) بالدرجة التي منحها المقيّم 1 وحده. يساعد ذلك في الإشارة إلى مدى دقة تقييم الاستجابة عند مشاركة مقيِّم واحد فقط، وهو ما يحدث في 80% من الوقت.

يعرض الجدولان 1 و2 المقاييس الإحصائية لقسمي الكتابة والمحادثة لخمس لغات تمثيلية من STAMP 4S.

الجدول 1 - دقة درجة الكتابة (STAMP)

التدبير	العربية	الإسبانية	الفرنسية	الصينية المبسطة	الروسية
عدد الردود في مجموعة البيانات	n = 3,703	n = 4,758	n = 4,785	n = 4,766	n = 3,536
الاتفاق التام (المقيّم 1 مقابل النتيجة الرسمية)	84.8%	84.15%	83.66%	88.46%	92.17%
اتفاق تام + اتفاق متقارب (المقيّم 1 مقابل النتيجة الرسمية)	96.78% (98.62%)	99.09% (99.79%)	99.22% (99.79%)	99.79% (99.91%)	99.71% (99.88%)
الوزن الرباعي كابا (QWK) (المقيّم 1 مقابل النتيجة الرسمية)	0.93 (0.96)	0.91 (0.95)	0.91 (0.95)	0.95 (0.96)	0.95 (0.97)
المتوسط المعياري للفرق (SMD) (مقيم 1 مقابل مقيم 2)	0.00 (0.01)	0.00 (0.00)	0.00 (0.00)	0.00 (0.00)	0.00 (0.00)
الارتباط بين الرتبة والرتبة لسبيرمان (R) (مقيم 1 مقابل النتيجة الرسمية)	0.94 (0.96)	0.90 (0.95)	0.91 (0.95)	0.95 (0.97)	0.94 (0.97)
2 مستويات STAMP منفصلة (مقيم 1 مقابل مقيم 2)	2.80% (1.24%)	0.90% (0.20%)	0.77% (0.20%)	0.00% (0.00%)	0.28% (0.11%)

الجدول 1. إحصائيات موثوقية ودقة المقيّمين لقسم الكتابة لخمس لغات تمثيلية من لغات STAMP 4S.

الجدول 2 - دقة درجة التحدث (STAMP)

التدبير	العربية	الإسبانية	الفرنسية	الصينية المبسطة	الروسية
عدد الردود في مجموعة البيانات	n = 3,363	n = 4,078	n = 4,530	n = 4,651	n = 3,392
الاتفاق التام (المقيّم 1 مقابل النتيجة الرسمية)	84.96%	80.37%	80.19%	82.24%	88.30%
اتفاق تام + اتفاق متقارب (المقيّم 1 مقابل النتيجة الرسمية)	96.07% (98.13%)	98.13% (99.29%)	98.54% (99.47%)	99.31% (99.76%)	98.99% (99.94%)
الوزن الرباعي كابا (QWK) (المقيّم 1 مقابل النتيجة الرسمية)	0.92 (0.95)	0.92 (0.96)	0.91 (0.95)	0.94 (0.95)	0.92 (0.96)
المتوسط المعياري للفرق (SMD) (مقيم 1 مقابل مقيم 2)	-0.02 (0.01)	0.00 (0.00)	-0.01 (0.02)	0.00 (0.00)	-0.01 (-0.01)
الارتباط بين الرتبة والرتبة لسبيرمان (R) (مقيم 1 مقابل النتيجة الرسمية)	0.93 (0.96)	0.91 (0.95)	0.92 (0.95)	0.94 (0.96)	0.91 (0.95)
2 مستويات STAMP منفصلة (مقيم 1 مقابل مقيم 2)	3.27% (1.42%)	1.74% (0.00%)	1.39% (0.00%)	0.00% (0.00%)	1.01% (0.00%)

الجدول 2. إحصاءات موثوقية ودقة المقيّمين لقسم المحادثة لخمسة مقيّمين تمثيليين في STAMP

يوضح الجدولان 3 و 4 المقاييس الإحصائية لقسمي الكتابة والمحادثة لثلاث لغات
تمثيلية STAMP WS.

الجدول 3 دقة درجة الكتابة (STAMP WS)

التدبير	الأمهرية	هايتي	الفيتنامية
عدد الردود في مجموعة البيانات	n = 209	n = 125	n = 1,542
الاتفاق التام (المقيّم 1 مقابل النتيجة الرسمية)	95.79%	94.69%	94.38%
اتفاق تام + اتفاق متقارب (المقيّم 1 مقابل المقيّم 2 / المقيّم 1 مقابل النتيجة الرسمية)	99.52% (100%)	97.60% (100%)	98.57% (99.02%)
المعدل الرباعي المرجح لكابا (QWK) (المعدل 1 مقابل المعدل 2 / المعدل 1 مقابل النتيجة الرسمية)	0.98 (0.99)	0.97 (0.99)	0.96 (0.97)
المتوسط المعياري للفرق (SMD) (مقيم 1 مقابل مقيم 2 / مقيم 1 مقابل النتيجة الرسمية)	-0.01 (0.00)	0.02 (-0.02)	-0.01 (0.01)
الارتباط بين الرتبة والرتبة لسبيرمان (R) (مقيّم 1 مقابل مقيّم 2 / مقيّم 1 مقابل النتيجة الرسمية)	0.98 (0.99)	0.97 (0.99)	0.97 (0.98)
2 مستويات STAMP منفصلة (المقيّم 1 مقابل المقيّم 2 / المقيّم 1 مقابل النتيجة الرسمية)	0.00% (0.00%)	2.40% (0.00%)	0.00% (0.00%)

الجدول 3. إحصائيات موثوقية ودقة المقيّمين لقسم الكتابة لثلاث لغات تمثيلية من لغات STAMP WS.

جدول دقة الختم 3. — الجدول 3. إحصائيات موثوقية ودقة المقيّمين لقسم الكتابة لثلاث لغات تمثيلية من لغات STAMP WS.

الجدول 4 دقة درجة التحدث (STAMP WS)

التدبير	الأمهرية	هايتي	الفيتنامية
عدد الردود في مجموعة البيانات	n = 225	n = 132	n = 1,180
الاتفاق التام (المقيّم 1 مقابل النتيجة الرسمية)	96.21%	97.91%	97.01%
اتفاق تام + اتفاق متقارب (المقيّم 1 مقابل المقيّم 2 / المقيّم 1 مقابل النتيجة الرسمية)	100% (100%)	100% (100%)	99.83% (99.83%)
المعدل الرباعي المرجح لكابا (QWK) (المعدل 1 مقابل المعدل 2 / المعدل 1 مقابل النتيجة الرسمية)	0.99 (0.99)	0.99 (0.99)	0.99 (0.98)
المتوسط المعياري للفرق (SMD) (مقيم 1 مقابل مقيم 2 / مقيم 1 مقابل النتيجة الرسمية)	0.00 (0.00)	0.00 (0.00)	0.00 (0.01)
الارتباط بين الرتبة والرتبة لسبيرمان (R) (مقيّم 1 مقابل مقيّم 2 / مقيّم 1 مقابل النتيجة الرسمية)	0.99 (0.99)	0.99 (0.99)	0.98 (0.99)
2 مستويات STAMP منفصلة (مقيم 1 مقابل مقيم 2 / مقيم 1 مقابل النتيجة الرسمية)	0.00% (0.00%)	0.00% (0.00%)	0.00% (0.00%)

الجدول 4. إحصائيات موثوقية ودقة المقيّمين لقسم المحادثة لثلاث لغات تمثيلية من لغات STAMP WS.

جدول دقة الختم 4 — الجدول 4. إحصائيات موثوقية ودقة المقيّمين لقسم المحادثة لثلاث لغات تمثيلية من لغات STAMP WS.

مناقشة

يعد المستوى العالي من الموثوقية والدقة أمرا أساسيا لصحة درجات الاختبار والاستخدامات المقصودة منها. لكن ما يعتبر مقبولا في الحد الأدنى من حيث الموثوقية والدقة يعتمد على المجال المحدد (الطب، القانون، الرياضة، الطب الشرعي، اختبار اللغة، إلخ)، وكذلك على عواقب منح مستوى غير دقيق لمجموعة إجابات ممتحن معين، وعلى مقياس التقييم نفسه. على سبيل المثال ، يميل الاتفاق إلى أن يكون أقل كلما زاد عدد الفئات المتاحة في مقياس التصنيف. بمعنى آخر ، يمكن توقع المزيد من الخلاف بين أي مقيمين إذا كان يجب عليهم تعيين واحد من عشرة مستويات محتملة للاستجابة مما لو كان يجب عليهم تعيين واحد من أربعة مستويات ممكنة فقط.

تُظهر الإحصائيات الواردة أعلاه لقسمي الكتابة والمحادثة في كل من STAMP 4S و STAMP WS مستوى عالٍ من الموثوقية (درجات المقيّم 1 مقابل درجات المقيّم 2) والدقة (درجات المقيّم 1 مقابل الدرجات الرسمية).

من بين اللغات الثماني التي تم تقييمها، كانت الموثوقية التي أظهرها الاتفاق الدقيق + التجاور بين المقيّم 1 والمقيّم 2 دائمًا في الحد الأدنى (وغالبًا ما تكون أعلى بكثير) بنسبة 96.78% للكتابة و96.07% للمحادثة.

بالإضافة إلى ذلك، نادرًا ما لوحظت الحالات التي كان فيها اختلاف التقييمات من قبل مقيّمين اثنين عن بعضهما البعض بأكثر من مستويين من مستويات STAMP. إن مستوى الدقة لجميع اللغات الثماني، الذي يظهر من خلال إحصائيات الاتفاق الدقيق بين درجة المقيّم 1 والدرجة الرسمية لكل إجابة كان دائمًا عند حد أدنى 83.66% (ولكن غالبًا ما يكون أعلى بكثير) للكتابة و80.19% للمحادثة، مع وجود اتفاق دقيق + اتفاق متجاور دائمًا عند حد أدنى 98.62% للكتابة و98.13% للمحادثة. تُظهر قيم الكابا المرجحة التربيعية (QWK) مستوى عالٍ جدًا من الاتفاق بين كل من المقيّمين 1 والمقيّمين 2 وبين المقيّمين 1 والمقيّمين 2، بينما تبين أن الارتباط بين درجات المقيّمين 1 والمقيّمين 2، وكذلك بين درجات المقيّمين 1 والمقيّمين الرسميين مرتفع جدًا. أخيرًا، تُظهر معاملات متوسط الفروق المعيارية (SMD) أن مقياس STAMP يُستخدم بطريقة متشابهة جدًا من قبل Avant المقيّمين.

تقدم الإحصائيات أعلاه دليلاً على الجودة العالية لبرنامج اختيار المقيّمين وتدريبهم في Avant التقييم ومنهجيتنا في تحديد المقيّمين التشغيليين الذين قد يحتاجون إلى استبعادهم مؤقتًا من مجموعة المقيّمين وإعطائهم تدريبًا موجهًا. يُظهر أنه عندما يختلف أي مقيِّمين اثنين في مستوى مصحِّحَين في مستوى مصحِّح الاختبار الذي تم تعيينه للإجابة، نادرًا ما يكون الاختلاف أكثر من مستوى واحد من مستويات مصحِّح الاختبار، حيث يقوم كلا المقيِّمين بتعيين نفس المستوى بالضبط في الغالبية العظمى من الحالات. بالإضافة إلى حقيقة أن الدرجة النهائية الرسمية النهائية للممتحن في قسم الكتابة أو المحادثة من STAMP تستند إلى درجات STAMP الفردية في ثلاثة مطالبات مستقلة.

تقدم النتائج الواردة هنا دليلاً قوياً على أنه يمكن الوثوق بالدرجة النهائية التي حصل عليها الممتحن في قسمي الكتابة والمحادثة في اختبار STAMP لتكون تمثيلاً موثوقاً ودقيقاً لمستوى إتقان اللغة في هذين المجالين.

مراجع

أكوغلو، ه. (2018). دليل المستخدم لمعاملات الارتباط. المجلة التركية لطب الطوارئ، 18(3)، 91-93.

Bachman, L. F., & Palmer, A. S. (1996). اختبار اللغة في الممارسة العملية: تصميم وتطوير اختبارات لغوية مفيدة (المجلد 1). مطبعة جامعة أكسفورد.

Feldt, L. S., & Brennan, R. (1989). الموثوقية. في R. L. Linn (Ed.)، القياس التربوي (الطبعة الثالثة، ص 105-146). نيويورك: Macmillan.

Fleiss, J. L., Levin, B., & Paik, M. C. (2003). الطرق الإحصائية للمعدلات والنسب. 3rd ed. Wiley.

Graham, M., Milanowski, A., & Miller, J. (2012). قياس وتعزيز الاتفاق بين المراجعين
تقييمات أداء المعلم ومدير المدرسة.

مصفوفة التعليم (2022). المهارات العملية للفيزياء الجزء 2: صحة التجارب وموثوقيتها ودقتها. تم الاسترجاع في 11 أغسطس 2022 (انقر هنا للذهاب إلى المصدر).

Williamson, D. M., Xi, X., & Breyer, F. J. (2012). إطار عمل لتقييم واستخدام التسجيل الآلي
. القياس التربوي: القضايا والممارسة، 31(1)، 2-13.

تحديث: فبراير 2025