“裸考”你能轻松通过吗？ AI标注“翻车”引发关注

时间：2024-05-15 04:11:49 阅读：次来源：网络整理

但同时，也有不少家长吐槽智能评分系统，像英语跟读App的评分系统，有时候即使拥有英语专业八级水平的人，测试得分也只有80分。此次AI阅卷系统“翻车”的导火索是一位美国历史系教授的儿子在进行历史考试的时候只得到了50%的分数，而她对儿子的答案进行评测后，觉得孩子的回答基本没有问题。...

学年伊始，美国一个号称服务2万所学校的AI评分系统遭到质疑。学生利用系统漏洞零基础口语英语，输入相应的关键词，即使关键词并不相关，也能轻松获得高分。

随着人工智能的发展，很多教育类APP都应用了智能评分系统。该评分系统可以快速评分并及时发布分数“裸考”你能轻松通过吗？ AI标注“翻车”引发关注，受到了很多老师和学生的欢迎。但与此同时，很多家长对智能评分系统有所抱怨，比如英语阅读应用程序的评分系统。有时，即使英语专业八级的人也只能考到80分。

除了应用于英语口语智能评分系统外，人工智能也应用于评卷中。不过，这种智能阅卷系统也时不时出现“翻车”现象。据报道，学年伊始，一个号称为美国2万所学校提供服务的AI评分系统遭到质疑。学生利用其漏洞，轻松通过“裸考”。学生之所以利用这个漏洞，是因为系统只根据关键词评分。学生只要输入相应的关键词，即使几个关键词之间没有关系，也能顺利通过考试，甚至获得高分。

评分前需设定判断标准

“自动化评估评分系统一般需要先设定评估标准英语培训，然后根据设定的标准设计合适的评估算法和模型。” 天津大学智能与计算系教授、博士生导师熊德毅表示，比如口语测评、评分，都需要机器来判断一个人的发音是否标准、读的句子的重音是否正确。、句子朗读是否连贯流畅、连读部分是否准确等。

AI评分系统涉及语言和文本的评价，涵盖语法、语义等多个方面零基础口语英语，并将大量运用自然语言处理技术。

“自然语言处理技术是人工智能的一个重要分支，它研究利用计算机对自然语言进行智能处理。基础自然语言处理技术主要针对不同层次的语言，包括音素（语言的发音模式）、词法（单词、字母如何构成单词、单词的形态变化）、词汇（单词之间的关系）、语法（单词如何构成句子）、语义（语言表达的对应含义）、语用（不同语境下的语义解释）、七章节的级别（句子如何组合成段落）。” 熊德毅强调，这些基础的自然语言处理技术往往应用于多种下游自然语言处理任务（如机器翻译、对话、问答、文档摘要等）。自动评分中的语言和文本评估通常会涉及到这七个级别中的几个级别。

自动评价指标的设计方法有很多种，通常根据不同的评价类型选择合适的方法。 “比如，评分系统想要自动评判翻译题，老师可以提前写出多个参考翻译答案，然后将学生的答案与参考答案进行比较，计算出它们的相似度，作为翻译质量的评价指标。学生的回答。” 熊德毅举例说，机器翻译常用的评价指标BLEU，是根据参考译文和机器翻译之间的N-gram（N-gram）匹配来计算相似度的。

一个词是一元词，两个相连的词是二元词，还有三元词和四元词。如果答案中的单词与参考答案中的单词一致，则将给出一元组分数。同样，可以计算二元评分、三元评分、四元评分。研究人员为不同的要素设定不同的权重，然后将分数组合成一个客观值。分数越高，说明两者的相似度越高。

不同AI评分系统的结果差异很大

AI评分系统“颠覆”的触发因素是美国历史教授的儿子在历史考试中只得到了50%的分数。她评估儿子的答案后，觉得孩子的答案基本没什么用。问题。

同样的答案，为什么人类评价和机器评价差别这么大？

零基础口语英语_英语口语基础英语_口语英语基础知识

“这是基于AI算法的自动评估面临的最大挑战：如何与人工评估保持一致。应对这一挑战需要解决很多问题。例如，如何制定合适的评估标准，必须有如何应对不断变化的语言多样性是自然语言处理技术面临的主要挑战之一。多样性的挑战；比如如何设计一个综合评价指标，虽然目前指标多种多样，但综合考虑语言和写作各个方面的指标很少。比如论文的自动评分可能会考虑措辞是否合理（词汇）。、句子是否流畅（句法）、段落组织是否良好。组织（章节）、内容是否与主题相关（语义、语用）等。”熊德毅表示，上述BLEU只考虑了词形的严格匹配，并没有考虑词的形态变化、语义相似性、翻译的语法合理性等因素。

“所遵循的评估规则、评估的出发点不同，对应的算法模型也不同，所以最终的结果也会有很大差异。” 熊德义说道。

因此，仅使用一种评价方法显然是不完整的，这就解释了为什么当孩子的母亲试图在答案中添加“财富、商队、中国、印度”等问题中的关键词时英语，即使这些关键词是有的他们之间没有联系，她得了满分。 “也许这个AI评分系统只使用简单的关键词匹配，所以会出现‘关键词沙拉’能通过的情况。” 熊德义解释道。

此外，口语的人工评估和机器评估之间存在重大差异。 “虽然近年来在深度学习技术的推动下，语音识别性能得到了显着提升，但在开放环境和噪声环境下，这个识别率会下降很多。” 熊德毅解释说，如果机器“听到”了错误的单词，当机器评估时，就会形成错误传播，即上游系统的错误会导致下一个系统的错误。错误会累积起来，错误越多，评估结果就越离谱。

“目前设计评价指标的方法有很多，也有很多改进的方法，比如一边计算召回率，一边计算准确率。另外，还有评价指标，就是评价评价，看哪个评价的指标更完整，更符合人类评价。” 熊德毅感叹，很多时候，自动评估的难度和相应的自然语言处理任务的难度从技术层面来说是一样的，比如用机器来评估翻译的质量。与使用机器生成翻译的难度类似学英语，使用机器判断文档摘要质量的难度与使用机器生成摘要的难度类似。

可与人工评估相结合，使系统更加智能

“传统的自动评价指标通常是基于符号计算的。现在深度学习等人工智能技术越来越多地应用于评价工具中。” 熊德毅介绍，利用深度学习，可以将语言符号映射到真实的稠密向量。语义空间，使用语义向量来计算相似度。即使说出的单词与计算机最初学到的单词不同，只要语义一致，机器就可以做出准确的评估。因此，基于深度学习的自动评估可以在一定程度上应对语言多样性的挑战。然而深度学习也存在一个问题，就是需要大量的数据让机器学习。

基于自监督学习的预训练语言模型近年来在语言表示学习方面取得了突破性进展。 “OpenAI 的预训练语言模型 GPT-3 在包含 5000 亿个单词的海量语料库上训练了一个具有 1750 亿个参数的神经网络。通过在互联网上学习大量各种语言的文本，GPT-3形成了强大的语言表示能力，可以执行多种任务，例如自动翻译、故事生成、常识推理、问答、等等，甚至可以进行加法和减法运算。比如它的两位数加减法准确率达到100%，五位数加减法。该方法的准确率接近10%。 ”熊德毅表示，这么大的神经网络如果用单精度浮点数存储的话，需要700G的存储空间，训练一个模型就要花费460万美元。因此，即使GPT-3有更好的零-样本和小样本学习能力，其高昂的成本使其距离普及还很远。

然而，人工智能作为评分、评价的“老师”，有着人类无法比拟的优势。例如，AI自动评分系统比手动评分更快。教师不可能一次性记住所有选择题的答案。他们需要不断地检查标准答案，这是非常耗时的。自动评分系统帮助教师大大提高效率；此外，自动评分系统更加合理，不会受到外界条件干扰零基础口语英语，不会因疲劳等原因造成误判。即使在复杂的干扰环境下，仍能得到正确的结果； AI评分系统还可以在评分后直接进行学业分析零基础口语英语，并编制考试数据、错题数据等教材，帮助教师减负增效，帮助学生提高学习效率。

“合理客观化主观题，可以降低自动评分的难度。” 熊德义表示，虽然对于无法客观化的主观问题很难设定综合评价标准，但在某一方面设定评价标准还是可行的。比如词法、句子语法的评价，目前准确率还是相当高的。此类技术可以从实验室转移到产品应用。

还可以引入人工评价，对AI评分系统的分数进行审核和修正。通过这样的反复修正，积累了大量的评价训练数据，使得机器评分更加智能。

“利用自然语言处理等人工智能技术进一步完善主观智能评分系统，将是未来教育领域非常重要的课题。” 熊德毅表示，未来的AI自动阅卷系统肯定会越来越“聪明”，人工智能与教育的结合也将越来越紧密。（记者陈曦）