初中英语口语测试信度的概化理论应用研究

时间：2022-09-03 13:17:12 阅读：次来源：网络整理

查阅相关文献，我们发现，关于初中英语口语测试的研究并不算少，但在评分标准信度方面，现有研究大多采用传统的经典测量理论。本研究采用实验法，编制了英语口语测试的评分标准，并以65名初二学生为样本获得其英语口语测试成绩，应用概化理论对该评分标准及评分者信度等进行分析。首先，查找文献，依据相关理论编制符合新课程标准要求的英语口语测试评分标准；...

关于义务教育阶段英语学习对青少年发展的重要性，我国新课程标准有非常详尽的阐述，并且提出了“通过英语学习，培养学生的英语语言的综合应用能力，促进心智发展，提高人文素养”的总目标。为了实现这一目标，新课程标准对于英语教学评价也给出了指导意见：“终结性的评价应采取口试、笔试和听力相结合的形式，全面考察学生的综合语言运用能力。”

然而，教学实践中，受评分标准的可信度、操作的复杂性、考试的成本较高等影响，一直以来，义务教育阶段英语口语测试的普及程度远不如纸笔测试，这必然会影响学生语言综合能力的全面发展。查阅相关文献，我们发现，关于初中英语口语测试的研究并不算少，但在评分标准信度方面，现有研究大多采用传统的经典测量理论。英语口语测试是一种行为观察测量，对评分者的依赖性较强，而且评分标准的科学性、评委的数量、试题的形式以及彼此之间的交互作用都会给测试结果带来一定的误差，这些误差用传统的经典测量理论是无法有效评估的。概化理论在解决这类以行为观察为主要评估方式的测试的信度问题方面，有着经典测量理论所无法比拟的优势。

概化理论（Generalizability Theory）是一种评估行为测量信度的统计学理论。这种理论的提出，源于人们认识到传统的经典测量理论没有对造成误差的各种来源进行区分，从而给出的测量结果过于粗糙。不同于经典测量理论，概化理论可以将测量中的系统误差和非系统误差加以区分并对各个变量分别估计。相对于经典测量理论对平行测验中假设上的苛刻要求，概化理论仅假设平行测验是从相同的全域中随机抽样即可。此外，概化理论还对“常模参照”决策和“标准参照”决策加以区分，这也是仅以“等级顺序”进行决策的经典测量理论所无法实现的。

本研究采用实验法，编制了英语口语测试的评分标准，并以65名初二学生为样本获得其英语口语测试成绩，应用概化理论对该评分标准及评分者信度等进行分析。研究的目的在于，分析英语口语测试中误差的各种来源，从而为有效控制误差来源，提高英语口语测试的信度提供实证参考，同时也为改进评分标准和测试环境提供量化参考。

二、研究方法

（一）研究步骤

本研究主要有以下几个步骤：

首先，查找文献学英语，依据相关理论编制符合新课程标准要求的英语口语测试评分标准；

其次，根据新课程标准规定的初二学生应该掌握的话题英语口语评分标准表格，设计口语测试试题，并确定口语测试的形式；

再次，寻找样本进行施测；

最后，使用Brennan R L的mGENOVA软件，对数据进行分析处理并撰写报告。

（二）研究工具

托福口语评分对照表_英语标准口语_英语口语评分标准表格

1.口语测试评分标准

英语口语测试评分标准由研究者自行编制，编制依据主要是新课程标准对综合语言运用能力的要求以及Bachmann的语言交际能力模型。评分标准以知识应用、口语技能、表现力为一级指标，其下分设15个二级指标，每个二级指标分设三个等级，目的在于分别考查学生对语言知识的应用能力、英语口语的基本技能以及英语口语应用中的策略能力，最后以三个一级指标合成的总成绩来衡量学生的英语口语综合应用能力。

2.口语测试形式

口语测试的形式有即兴演讲、角色扮演、小组讨论等。在不影响测试结果的同时，研究者还需要考虑操作的简便性。综合考虑后，本研究选择了即兴演讲的形式。整个测试分成三个环节：第一环节为学生自我介绍英语口语评分标准表格，时间约1分钟；第二环节为学生即兴演讲，时间约3分钟；第三环节为问答阶段，即评委根据学生的自我介绍及演讲内容提出相关问题，学生回答，时间为1分钟。由于即兴演讲和问答都是现场抽题，现场回答，学生不能提前准备英语口语评分标准表格，因此，学生能否说得对，说得好，更多与他们平时的积累有关。因此，这种测试方式可以考察学生的口语综合应用能力。

3.测试对象和评委的选择

本研究从山东省济南市几所中学抽取了65名初二学生，女生人数略多于男生。评委有三人，均是有着多年教学经验的中学英语教师。

4.研究设计

根据我们的假设，知识应用、口语技能、表现力三个指标考察的能力是既有相关关系但又有区别的三种能力或特质，符合多元概化理论的应用条件。我们将学生在这三个指标上表现出来的英语口语综合应用能力作为测量目标（p），将对英语口语评估有较大影响的评估者因素（r）作为评估侧面，并假定评估者（r）随机取样于容量无限的评估者全域初中英语口语测试信度的概化理论应用研究，被试（p）也随机取样于容量无限的被试总体英语，这样就形成了多维度的单侧面p·×r·完全随机设计。

三、研究结果

（一）评分标准有较好的信度学英语，评委则是测试中误差的主要来源之一

概化理论的优势在于，它可以根据不同的误差来源对测量分数进行具体分解，并通过方差分析的方法，深入考察误差来源对测量信度的影响程度。通过分析我们发现，本次测试中，研究者自编的评分标准有较好的信度，三名评委的评分误差则较大。

表1为每位评委对每个一级指标给出的平均分，及三位评委对于每个一级指标给出的总平均分。表2为三位评委对所有选手打分的总平均分。我们发现，三个一级指标的总平均分比较接近，而三位评委打分的总平均分差异较大英语口语评分标准表格，评委2的平均分比评委1高出了16分。