口语评分——英语学习中的机器学习算法

时间：2024-05-06 09:25:49 阅读：次来源：网络整理

目前比较流行的口语学习类软件，都会给用户提供单词级别的评分反馈，但事实上，口语评分的内部实现是在比单词更小的单位——音标上进行的。而音标就不同了，标准的英语国际音标只有48个符号，因而我们只要对每个音标符号收集数据，就可以进行模型的训练了。...

中国有数亿英语学习者，移动互联网已成为该行业新的爆发点。口语学习应用程序为学习者提供了更轻松的环境和低成本的投资。一方面鼓励用户“大声说出来”，另一方面为他们提供有效的评分反馈，指出具体的发音错误，帮助他们进行有针对性的训练。

有道口语大师就是这样一个产品。这款号称最有趣的英语学习APP是由有道词典、有道翻译机的制作团队打造的。上线一个多月，已吸引超过100万用户。除了广受好评的先进口语训练系统和游戏化的萌宠元素设计外英语培训，产品如何利用机器学习方法自动进行口语评分也是用户非常关心的问题。

下面有道口语达人的技术团队就简单介绍一下口语评分的原理，解决大家的困惑。

评价标准是什么？

所谓口语评分，具体来说，就是给出某个句子，让用户发音，然后按照一定的标准进行评分。一般来说，评分方法主要有两大类：一是与特定发音进行比较，与给定发音越接近，得分越高；二是与特定发音进行比较，越接近给定发音，得分越高；第二，采用通用标准来评估用户的发音，即只要用户读得正确、地道，就可以获得高分。我们认为第二种方法更准确、更合理，因为同一个句子不可能只有一种正确的发音，给定的“标准”发音并不能保证是最标准的。发音被夸大或读/漏，这会导致基于相似性的评分在许多情况下出现偏差。因此，我们的介绍将重点关注第二种评分方法并解释其中所使用的技术。

从音标到文字

图1 有道口语大师阅读题示例

目前比较流行的口语学习软件都会为用户提供单词级别的评分反馈，但实际上，口语评分的内部实现是基于音标，而音标是比单词更小的单位。正如我们之前提到的英语口语跟读训练软件，口语分数是通过将用户的发音与通用标准进行比较来评估的。这个“通用”标准是通过训练数千个标准发音数据得到的英语口语跟读训练软件，而音标就是我们训练和比较的单位。为什么选择音标而不是文字？首先，对于任何机器学习算法来说，拥有足够的训练样本至关重要；其次，英语有数十万个单词。如果我们选择单词作为评分单位，我们需要对每个单词进行评估，收集足够的样本，这是非常困难的。音标不同。标准的英语国际音标只有48个符号。因此，我们只需要收集每个音标的数据来训练模型。

力对齐

英语口语跟读训练软件_口语跟读英语训练软件哪个好_口语跟读是什么意思

接下来的问题就变成了：我们如何将一个完整的句子划分为音标级别的数据？我们这里通常使用的是强制对齐技术。强制对齐是指在给定音频和文本的情况下确定每个单词（音素）的开始和结束位置的过程。如下图所示：我们给定一个波形和音频对应的文字。她穿着一套深色西装，全年都浸在油腻的洗衣水中。通过强制对齐英语口语跟读训练软件，我们可以得到每个音素（也就是我们通常所说的音标英语口语跟读训练软件，使用的符号与标准国际音标略有不同）在原始音频中的位置。

图2 强制对齐

实现强制音频对齐最常用的方法是维特比解码，它是一种动态编程算法。简单来说，我们将音频分成短帧（我们称之为样本）。帧的长度通常在5到10ms之间，因为我们认为在这么短的时间内，音频的各方面特性基本上不会发生变化。我们从音频的每个样本中提取特征，然后计算与标准音标特征的相似度。 Bi(Ot)用于表示第t个样本与第i个音标模型之间的相似度。我们用δt(i)来表示当前音频在采样t时刻到达音标i的最大概率δt(i)。然后我们可以利用公式从第t个样本（i）计算第t+1时间δt+1的结果。解码过程中，t从0开始不断增加英语培训，直到音频结束，最终得到每个音标i对应的δN(i)。

强制对齐是语音识别的一种特殊、简化的情况。由于其简单性，强制对齐通常具有较高的准确率（音素级别的准确率可以达到90%，词级别的准确率可以达到95%以上）。利用强制对齐口语评分——英语学习中的机器学习算法，我们可以对采集到的标准发音数据进行处理：根据音频及其对应的文本进行强制对齐，得到每个音标对应的片段；从每个音标采集的样本中提取特征并进行训练。通过对大量数据进行强制对齐，我们获得每个音标的模型，该模型将在后续评分过程中使用。

语音识别

有了音标的模型，评分过程就不难想到了。我们还将用户的发音一一划分为音标，然后将每一段与对应的音标模型进行比较。如果该片段的特征与我们在标准发音数据上训练的特征非常相似，则该用户的发音是真实且准确的；否则，用户可能会读错该注音符号。我们将单词的每个音标的分数组合起来得到一个单词的分数，然后将每个单词的分数相加得到整个句子的分数。同时，通过每个音标的分数，我们也可以很容易地知道用户可能念错了哪些单词，并将这些信息进一步反馈给用户（如图1所示）。

强制对齐可以达到很高的准确度，但这必须满足一个前提：我们给出的文本和音频必须匹配。具体来说，如果用户将I am a school发音为I was a school，那么我们在处理was对应的音频片段时，会错误地将其与am对应的音标模型进行比较，这可能会导致后面的a和student无法被识别。对齐到正确的位置，从而影响评分的准确性。为了避免这种情况，我们通常在执行强制对齐之前添加一个语音识别步骤学英语，即首先确定用户实际读到的是什么句子，然后使用结果来执行强制对齐。对于上面的例子，我们使用was对应的音标模型来与was的音频片段进行比较，那么下面的两个词仍然可以得到正确的切分结果。同时，根据语音识别的结果，我们还可以找到一些用户读错的单词数据（am->was）并反馈给用户。

1.本文为芥末堆原创文章。转载请点击芥末堆内容合作了解详情。未经授权禁止以任何形式转载。违反者将被起诉；

2、芥末堆不接受任何形式通过公关费、交通费等方式发布虚假文章，只为读者呈现有价值的内容；

3、如果您也从事教育工作，希望得到芥末堆的报道，请填写信息并告诉我们。