托福 口语 和写作如何评分?
托福独立写作主要从三个维度来考察考生的作文:我的托福口语机器到底怎么评?托福口语机器评分的背景Rater的系统中,对于托福口语测评是何以科学、公正以及客观地对考生们进行评价的呢?在托福口语测试中,机器会针对各位同学的语法呈现,比如:...
在准备托福写作考试的过程中,有一个名词E-rater相信大家都会觉得陌生又熟悉。其实就是一个参与写和读的系统。为了帮助大家更好的了解这个系统,艾伦老师今天就为大家讲解一下这个神秘的E-rater。
考生参加托福考试后英语培训,作文部分(综合写作和独立写作)将由ETS培训的老师和E-rater批改(以下为官网截图,截图来源:/toefl/ibt/scores/ ).
在批改过程中,老师和机器各自独立打分英语,彼此并不知道对方的分数。人类和机器的分数都在 0 到 5 之间英语口语测试软件打分,系统最终会对这两个分数进行加权。并且为了保持评分的公平有效,人工给分和机器给分的误差不能超过1分(比如人工给3分,机器给分是正常的) 4分,如果人工给2分,机器给4分(这是异常分数),如果两者的分数超过1分,则由ETS专业评分员重新打分。
E-rater利用计算机数据功能,在一定程度上匹配考生写作文本的相关信息,同时结合ETS以往的写作数据库,进一步审核学生的写作质量。它主要使用计算机语言学中的自然语言处理(NLP)方法。
事实上,ETS 最擅长捕捉考生的语言使用情况。E-rater系统会将考生作文的语言与数据库中不同分值文章的语言进行比对,从而判断考生作文的语言质量。
同时,E-rater还会通过考生对逻辑连接词的使用,粗略判断考生整篇文章的逻辑衔接情况。例如,就像手机唱歌软件“唱吧”一样,E-rater所做的就是将考生的作文与数据库中的文章进行比对,然后给出系统评判的分数。的
在上图中,可以看到系统对候选人的文章进行了不同的色块标注,每个色块代表文章的不同组成部分。例如托福 口语 和写作如何评分?,开头的黄色表示背景信息,红色表示论文陈述;中间蓝色代表主题句,绿色代表辅助信息;最后的橙色意味着结论
托福独立写作主要从三个维度考察考生的作文:
发展
组织
语言使用
E-rater看不懂文章内容,如何实现精准评分?
这部分主要要求候选人的文章开发内容丰富,但是E-rater无法看懂候选人文章内容的表达,所以主要评价候选人文章的The Length of Discourse Element(话语元素的长度) . 也就是说,话语元素的长度主要从以下两个方面进行评估:
1.平均句子长度
也就是说,如果整篇文章的句子都很短,那么考生的思维内容会很简单,无法有效地表达自己的想法。托福推荐的托福作文平均句长应该在15-20字左右。
2.正文段落的句数
在发展的中期阶段,句子太少意味着候选人无话可说,无法有效地表达自己。
也就是说学英语,如果两个人通过文字聊天,如果有话要对对方说,那么双方说的句子肯定不会很短,内容也不会太少。比如两个人发“嗯”、“哈哈”、“哦”、“呵呵”等,基本都是尴尬的聊天。
当然,E-rater也会检测与题目相关的语言内容,确保考生不跑题。因此,在托福独立写作中紧跟话题,不断使用与话题相关的词汇是非常重要的。
这部分要求考生合理组织段落,同时注意文章内容的逻辑联系。E-rater虽然看不懂候选人的文章,但还是可以很聪明的从两个角度进行评估:
1.语篇元素的数量
话语元素的数量,即合理的切分。E-rater会检测考生文章中是否出现了Thesis Statement、Main Ideas、Supporting Ideas、Conclusion等。通常建议考生的文章分成4-5个自然段落。
2.过渡的使用
逻辑连接词的使用,机器检测考生句子之间的逻辑连接词,从而判断文章逻辑是否存在,是否合理。
这是E-rater最擅长的。主要对考生的语言表达进行数据分析,匹配以往数据库的语言数据,对考生文章质量进行审核。在语言层面,E-rater会从以下四个方面进行审核:
1)从Grammar的角度复习考生文章中的Fragments(句子片段)和主谓一致(Subject-verb agreement);
2)从Usage的角度审阅考生文章中的Missing or Extra Article(错冠词)、Preposition Error(错误介词)、Wrong Part of Speech(词性错误);
3)从Mechanics的角度,审查候选人文章中的Spelling(单词拼写)、Missing Comma(逗号缺失)等;
4)从Style的角度,审查考生文章中的Repetition of Words(词汇重复)、Short Sentences(短句使用过多)、Passive Voice(被动语态使用过多等)。
00. 我的托福口语机考如何?
最近,Alan先生收到了很多学生关于托福新政后如何进行口语Speech Rater的咨询。首先我们来看一下ETS官方公布的数据,最新版托福口语机器打分系统Speech Rater与人工打分的相关系数为0.81。
说实话,官方干脆把这样一个统计系数摆在我们面前,对于考生或者托福资深老师来说,没有任何意义。这个系数是高是低,什么取值范围值得我们参考,根本没有可比性。
为此,阿伦老师采访了多位ETS资深语评老师,获得了ETS口语机考最新最手工的干货。
01. 托福口语机器评分背景
这段话来自ETS的官方报告:
随着世界各地越来越多的年轻学生学习 英语 英语作为外语,为年轻语言学生设计的标准化语言测试(如托福考试)。变得越来越流行。鉴于这种快速增长的趋势,更好地了解年轻学习者的语言发展模式和语言表现的语言特征已成为语言学教师的需要。根据两位 口语 评估学者 Bailey & Heritage 2014 年的一项研究,语言发展模式和语言表现对于为创建语言评估提供方向和指导至关重要。ETS 随后系统地进行了实证研究:检查 英语 的进展
02. 托福口语 流利
流畅度
什么是流利度?
Lennon (2000) 指出流利度“可以通过语速以及诸如充满和未充满的停顿、错误的开始、犹豫、延长的音节、回溯和重复等不流畅标记来衡量,既可以通过印象主义也可以通过工具来衡量”(第 25 页)
简而言之,流利度有几个衡量维度:
流畅度也可以细分为三个方面进行深入分析:
Breakdown fluency:连续语音中连续语音的停顿特征;
Speed fluency:言语传递的速度(Ginther et al., 2010);
修复流畅性:言语中出现的自我纠正和重复或重新表述的次数(Iwashita、Brown、McNamara 和 O'Hagan,2008 年)
在ETS目前采用的Speech Rater机考系统中,托福口语考试如何科学、公正、客观地进行评估?
根据 ETS 最近的一项研究,自 1996 年以来,语言学学者(Ginther et al., 2010; Towell, Hawkins, & Bazergui, 1996)开始使用平均跑分长度这个指标来评估考生,以评估托福考试的流畅度,通俗地说,就是你在托福考试中所有的“嗯”、“呃”、“嗯”、“嗯”、“嗯”(填充停顿)都会被统计,当频率达到一定程度时,它将被视为弱流利度。另一个是沉默的停顿。如果在整个口语答题过程中出现较长的停顿,系统会自动将你的口语归类为弱流利度。
托福口语考试的不同任务,考生的语言和认知能力不同,所以我们在设计口语独立口语任务和口语综合口语任务设计时,在本研究中,YLS 和成人学习者的流利水平在计算机评估两项任务的效果表现中表现出相对稳定的水平。
因此,我们可以得出一个客观的结论,即在口语流畅度方面,考生在口语独立任务和口语综合任务的流畅度偏差较小。
03.托福口语语法
语法语法
什么是语法?
1999年以来,在第二语言习得理论(Norris & Ortega, 2009; Skehan & Foster, 1999; Wigglesworth & Elder, 2010)中,与语言测试相关的语法研究主要集中在两个方面:
语法准确性
格兰纳复杂性
对于语法准确性,最新的研究报告给出了两个标准维度:
全局准确性(Global Accuracy),学习者语言中的任何语法错误(Grammatical Errors)都会被考虑在内;
Specific Types of Error,语言学研究者 Brown 在 2015 年详细描述过:Verb tense
对于语法复杂度,最新的研究报告(McNamara, & Elder, 2001)的结果,表示为
在托福口语考试中,机器会呈现每个学生的语法,比如:
04.阿伦先生读语言学
今天艾伦老师要给同学们介绍一位语言学大师,一位专注于语篇分析的大师:Zelig Harris
泽利格哈里斯 (1909/10~1992/5)
他是美国著名的语言学家和数学句法学家。“话语分析”一词最早由他于1952年提出。哈里斯的学术贡献体现在他将“分布关系逻辑”作为结构语言学的基本方法,建立了一套严格的描述技术语言,对美国描述性语言学做出了重大贡献。“结构语言学方法论”被认为标志着一个新时期的诞生。
维度一:话语结构
哈里斯指出,由于语言不是由任意无序的句子组成,而是以连贯语篇的形式有条不紊地组合在一起英语口语测试软件打分,语篇分析的基本任务是找到句子关系之间的形式对等,并将这些分布结构概括为语法解释话语的生成过程。由于形式关系的限制,对等结构的研究无法解释意义之间的关系。但是,他是第一个指出话语分析的重要方向的人。
维度二:话语功能
话语研究人员随后将他们的视野从形式扩展到功能、意义和使用。其中,功能主义的核心是语言观。语言功能观认为语言是具有潜在意义的社会符号。符号学理论和功能主义颠覆了文本意义的本质英语口语测试软件打分,强调情境语境。从功能语言的角度看,语篇分析在一定意义上可以归结为符号学分析。功能语法和社会符号学理论的结合导致了多模态话语分析,它将文本的边界扩展到各种类型的符号,如图形、图像和超文本。
维度三:话语与社会的关系
这一维度引入了人类学和社会学的原理英语口语测试软件打分,将语言视为社会行为和社会事实,将话语分析扩展到人类学和社会学分析的范围。这个维度包括四个分支,一个是面向人类学的社会语言学;另一个是互动社会语言学;三是会话分析;四是社会语言变异分析。
猜你喜欢
发表评论
评论列表