“裸考”你能轻松通过吗? AI标注“翻车”引发关注

时间:2023-07-14 12:40:10 阅读:

但同时,也有不少家长吐槽智能评分系统,像英语跟读App的评分系统,有时候即使拥有英语专业八级水平的人,测试得分也只有80分。此次AI阅卷系统“翻车”的导火索是一位美国历史系教授的儿子在进行历史考试的时候只得到了50%的分数,而她对儿子的答案进行评测后,觉得孩子的回答基本没有问题。...

开学季伊始,美国一个号称服务2万所学校的AI评分系统遭到质疑。 学生只要利用系统漏洞,输入相应的关键词,即使关键词不相关,也能轻松获得高分。

随着人工智能的发展,很多教育类APP都应用了智能评分系统。 评分系统对试卷进行快速评分并及时给出分数,受到很多老师和学生的欢迎。 但与此同时,也有不少家长对智能评分系统有所抱怨,比如英语阅读App的评分系统。 有时即使是英语专业八级的人也只能考到80分。

除了智能评分系统应用于英语口语之外,人工智能也应用于评卷。 不过,这种智能阅卷系统也不时出现“翻车”的现象。 据报道英语,在学年第一季,一个号称为美国2万所学校服务的AI评分系统遭到质疑。 学生利用“裸考”的漏洞,可以轻松通过。 学生之所以钻空子,是因为系统只用关键词来评分。 学生只要输入相应的关键词,即使几个关键词之间没有关系,也能顺利通过考试,甚至获得高分。

评分前需设定评判标准

“自动评价评分系统一般需要先设定评价标准,然后根据设定的标准设计合适的评价算法和模型。” 天津大学智能与计算系教授、博士生导师熊德毅介绍,比如口语评价和打分,需要机器来判断人的发音是否标准、句子是否重音等。朗读是否正确,朗读的句子是否连贯流畅,连续部分是否准确等。

AI阅卷系统涉及到语言和文字的评价,涵盖语法、语义等多个方面,会大量使用自然语言处理技术。

“自然语言处理技术是人工智能的一个重要分支,它研究利用计算机对自然语言进行智能处理。基础自然语言处理技术主要围绕不同层面的语言,包括音素(语言发音模式)、词法(如何单词和字母组成单词、单词的形态变化)、词汇(单词之间的关系)、语法(单词如何形成句子)、语义(语言表达相应的含义)、语用(不同语境下的语义解释)7个级别,文本(如何将句子组合成段落)。” 熊德毅强调,这些基本的自然语言处理技术往往应用于多种下游自然语言处理任务(如机器翻译、对话、问答、文档摘要等),自动评分中的语言和写作评价通常涉及这7个级别的若干层。

自动评价指标的设计方法有很多种,通常根据不同的评价类型选择合适的方法。 “比如,评分系统想要自动评判翻译题,可以要求老师提前写出一些参考翻译答案,然后将学生的答案与参考答案进行比较,计算出它们的相似度作为评价学生答案质量指数。” 熊德毅举例说,机器翻译常用的评价指标BLEU,是根据参考译文和机器翻译之间的N-gram(N-gram)的匹配程度来计算相似度的。

一个词是一元的,两个相连的词是二元的,还有三个和四个。 如果答案中存在与参考答案中的单词一致的单词英语口语水平测试,则将给出一元分数。 同样,可以计算二元、三元和四元评级。 研究人员为不同的要素设定不同的权重,然后将分数综合成一个客观值。 得分越高,说明两者的相似度越高。

不同AI评分系统的结果差异很大

AI评分系统“翻车”的导火索是美国历史教授的儿子历史考试只考了50%。 她评价完儿子的回答后,觉得孩子的回答基本不好。 问题。

同样的答案,为什么人类评价和机器评价有这么大的差异?

英语口语水平测试_口语英语水平测试怎么考_英语口语水平测试题

“这是基于AI算法的自动评价最大的挑战:如何与人类评价保持一致。应对这一挑战有很多问题需要解决。例如英语口语水平测试,如何制定合适的评价标准、如何自动评价主观题必须有适当的评价标准和规范;比如如何应对不断变化的语言,语言多样性是自然语言处理技术的主要挑战之一“裸考”你能轻松通过吗? AI标注“翻车”引发关注,语言自动评价和自动处理必须面对多样性的挑战;比如如何应对设计综合评价指标,虽然目前指标多种多样,但综合考虑语言和写作各个方面的指标很少,例如作文自动评分可能会考虑用词是否合理(词汇)、句子是否流畅(语法),段落组织是否正确。一致性(章节),内容是否具有描述性(语义、语用)等。” 熊德毅表示,上述BLEU只考虑了词形的严格匹配,并没有考虑词的形态变化、语义相似度、译文的语法合理性等因素。

“所遵循的评估规则和评估的出发点不同,对应的算法模型也不同,所以最终的结果也会有很大差异。” 熊德义说道。

因此,仅使用一种评价方法显然是不全面的,这也解释了当孩子的母亲试图在答案中添加“财富、商队、中国、印度”等问题的关键词时,即使关键词有他们之间没有联系,她也得了满分。 “也许这个人工智能评分系统只使用简单的关键词匹配,所以会有‘关键词沙拉’也能逃脱惩罚的情况。” 熊德义解释道。

另外,口语的人工考核与机器考核存在较大差异。 “近年来,虽然在深度学习技术的推动下,语音识别的性能得到了显着提升,但在空旷、嘈杂的环境下,识别率会下降很多。” 熊德毅解释说,如果机器“听到”了错误的一个词英语,然后机器对其进行评价,就会形成错误传播,即上游系统的错误会导致下一个系统的错误,而错误又会导致下一个系统的错误。会增加错误。 错误越多,就越离谱英语口语水平测试,评价结果也会有很大差异。

“目前设计评价指标的方法有很多,也有很多改进的方法,比如计算召回率的同时计算准确率等。此外,还有评价指标,即评价的评价,看看哪个评估指标更完整,更符合人类的评估。” 熊德毅感叹,很多时候,从技术角度来看,自动评估的难度和相应的自然语言处理任务的难度是一样的,比如用机器评估翻译的质量,类似于生成翻译的难度对于机器而言,判断机器生成的文档摘要的质量与机器生成摘要的难度类似。

可与人工评估相结合,使系统更加智能

“传统的自动评价指标通常是基于符号计算的,现在深度学习等人工智能技术越来越多地应用于评价工具中。” 熊德毅介绍,利用深度学习,可以将语言符号映射为实数的稠密向量。 语义空间,使用语义向量来计算相似度。 即使说出的单词与计算机最初学习的单词不同,只要语义一致,机器就可以做出准确的评估。 因此,基于深度学习的自动评估可以在一定程度上应对语言多样性的挑战。 然而深度学习也有一个问题,那就是需要大量的数据供机器学习。

基于自监督学习的预训练语言模型近年来在语言表示学习方面取得了突破性进展。 “OpenAI 的预训练语言模型 GPT-3 在 5000 亿单词的海量语料库上训练了具有 1750 亿个参数的神经网络。通过学习互联网上大量各种语言的文本英语口语水平测试,GPT-3 已经形成了强大的语言表达能力,可以执行多种任务,比如自动翻译、故事生成、常识推理、问答等,甚至可以进行加减运算,比如它的两位数加法并且减法准确率达到100%,五位数加减法的正确率接近10%。” 不过熊德毅介绍,如此庞大的神经网络如果用单精度浮点数存储的话,需要700G的存储空间,模型的训练一次需要花费460万美元。 因此,尽管GPT-3具有良好的零样本和小样本学习能力,但其高昂的成本使其远未普及。

然而英语,人工智能作为评分、评价的“老师”,有着人工智能无法比拟的优势。 例如,AI自动评分系统比手动评分更快。 老师不可能一次性记住所有选择题的答案。 需要不断地检查标准答案,这是非常耗时的。 自动评分系统大大提高了老师的工作效率; 此外,自动评审系统更加合理,不受外界条件干扰,不会因疲劳等原因造成误判。 即使在复杂的干扰环境下,仍能得到正确的结果; AI阅卷系统还可以直接分析评分后的学业情况,统计考试数据、错题数据等教材,帮助教师减负增效,帮助学生提高学习效率。

“合理客观化主观题可以降低自动评分的难度。” 熊德毅表示,虽然对于无法客观化的主观题很难设定综合评价标准,但针对某一方面设定评价标准还是可行的,比如判断单词语法、句子语法,目前准确率相当高。 ,而且这种技术可以从实验室走向产品应用。

还可以引入人工评价,对AI评分系统的评分进行审核和修正。 通过这样的反复修正,将会积累大量的评价训练数据,让机器评分更加智能。

“利用自然语言处理等人工智能技术进一步完善主观智能评分系统,将是未来教育领域非常重要的课题。” 熊德毅表示,未来的AI自动阅卷系统一定会变得越来越“聪明”。 与教育的结合也将越来越紧密。 (记者陈曦)

猜你喜欢

北京18所高校试点英语口语测试 测试体验者说好

明年的试点考试结束后,各试点高校还将用考生的成绩数据与四、六级成绩进行对比分析,研究英语口语能力与笔试成绩之间的相关性与预测性,查找教与学中存在的问题,最终目的是提高学生英语口语交际能力,改变“哑巴英语”现状。早在今年初市教委公布的2013年高教工作要点中,就提出要重点开展大学公共英语教学模式改革,探索建立有利于大学生英语应用能力提高的新测评机制。大学英语应用能力口语测试的形式与内容...

中国教育在线

公共基础课程学业水平考试主要包括语文、数学、英语和信息技术基础四门课程,语文、数学和英语3门科目分设合格性考试和等级性考试,其中合格性考试为学生必考,等级性考试为学生选考。此外,将口语测试正式纳入学业水平考试,是中职校英语学业水平考的最大突破。...

免费在线练习英语口语网站.doc

文档介绍:随着世界经济大发展,各国之间的交流也越来越频繁,英语口语也受到空前的重视,许多培训机构适时推出免费在线练****英语口语的网站,以方便广大英语学****者学****英语口语,由于免费在线练****英语口语模式的诸多优点,使得免费在线练****英语口语的网站受到广大在职白领的青睐。青少儿课程:采用剑桥国际英语教程等知名教材,在提高英语应用英语的同时,保障英语学****成绩的提高。...

英语口语能力测试活动方案.doc 2页

:经过一学期的口语训练,我校学生已基本实现了由听到说的重要转变。为进一步提升我校学生口语能力,激发全体学生学习口语的热情,教育处拟在本学期第六周举办一次旨在测试学生口语水平的活动,望各位老师认真准备,积极配合。:本次活动以班级为单位,利用英语课时间对全班学生进行一次口语综合能力的测试。如英文歌曲、律动、舞蹈等,评委依照选手表现作好记录,为下一次英语口语大赛做准备。...

面试英语口语能力测试“技巧”

面试英语口语水平测试「技巧篇」面试英语口语水平测试面试英语口语水平测试的主要目的就是让面试求职者,可以在自己的实践学习中,找到面试中应该改进地方,现在还存在的差别,目前水平与提升的空间。面试英语口语水平测试选择订制式的.【面试英语口语水平测试「技巧篇」】相关文章:面试英语口语水平测试技巧08-31...

浅谈初中英语口语考试的重要性.doc

为了从根本上改变我国中学英语教学现状,大面积提高中学英语教学质量,把英语口语测试带入课堂,对提高英语教学水平至关重要英语是基础教育阶段的重要学科之一。三、初中英语口语测试题型以及形式1.口试测试的题型口语测试的主要目的之一就是检测学生的口头交际能力,检测其在真实且有意义的交际语境中运用语言的实际能力。...

雅思口语在线

0分;英语单词量很小、仅了解较简单的语法结构并且使用有限,英语基础薄弱;计划就读国内国际班、国际校或计划去英语为母语的国家留学;期望提升英语语言能力的所有学员。5分;英语单词量很小、仅了解较简单的语法结构并且使用有限,英语基础薄弱;计划就读国内国际班、国际校或计划去英语为母语的国家留学;期望提升英语语言能力的所有学员。...
02考研复试英语听力二mp5 链接 考研复试公共外语怎么考?...

发表评论

评论列表