微软推出语音评估功能:构建于Azure云,赋能口语口语教学
5月中旬,在2020微软Build开发者大会上,微软上线了语音评测功能,该功能基于Azure语音服务Speech-to-text(语音转文本)构建。实际上,微软语音评测不是一个具体的产品,而是基于Azure云构建的一种能力。...
近年来,随着人工智能技术的不断成熟和企业数字化转型步伐的加快,人工智能的触角逐渐渗透到各个场景,让人类的生产和生活更加智能化。 在听觉方面,智能语音技术已成为各大科技公司攻克的重要领域。
微软作为老牌科技巨头,多年来一直深耕语音合成技术和语音识别技术。 向全球合作伙伴开放和实施技术能力,提供多种智能语音解决方案。
5月中旬,在2020 Microsoft Build开发者大会上,微软推出了语音评测功能,该功能基于Azure语音服务Speech-to-text(语音转文本)。 用户可以上传文本和音频来评估说话者语音的准确性、流畅性和完整性。 在教育领域,尤其是口语学习中,由于其识别准确率高,准专家打分一致性高,可以使口语学习的教与学更加高效便捷。
近日,微软亚太研发集团智能语音团队接受雷锋网等媒体在线采访,详细介绍了微软智能语音评测技术的优势和应用场景。
微软亚太研发集团云计算与人工智能事业部产品总监丁丙功、微软亚太研发集团云计算与人工智能事业部高级产品经理马丽莎参与了本次采访。
语音评估的四个维度
微软亚太研发集团云计算与人工智能事业部高级产品经理马丽莎表示,目前语音评估市场需求主要考虑四个维度:
专业的。
即时的。
稳定。
可定制性。
出于专业性,微软语音评估中的每种语言均从超过10万小时的母语大数据中学习当地语言的纯正口音和发音,从文章-句子-单词-音素,针对各个年龄段的多个维度进行准确评分。 每个环节都经过层层评估英语口语在线测评软件,建议专家组给出的评分高度一致。
玛丽莎提到英语,发音评估的专业考虑是与母语专家评估的一致性。 业界常用皮尔逊相关系数来反映两个序列之间线性相关程度的统计量。 范围在-1到1之间,1表示完全相关学英语,-1表示完全相反,0表示无序且不相关。 值越大,相关性越高。 微软语音评测的一致性达到了0.75,接近母语者的水平。
在实时性方面,微软语音评估支持音频上传流,即边读边处理,读完后立即反馈评估结果。
在稳定性方面,微软语音评估基于NLP模型构建模糊匹配文本。 对垂直领域特定场景下的错误具有良好的容忍度。 漏读、错读、重读均不影响评分的有效性和准确性。
在可定制性方面,ASR基础模型结合微软在语音领域的综合技术能力,可以实现个性化的评分标准,可以适应口音、噪声环境、年龄段等。
据了解,除了支持英语评测外,微软语音评测还可扩展支持全球40多个国家和地区的语言评测。 被教育解决方案合作伙伴、APP开发商以及语言学校、培训中心、教育机构广泛使用。 、考场各种语言学习、口语练习和考试场景的开发。
最大的技术难点在于多点平衡
教育领域言语能力评估的主要受众包括教师和学生。 通常广泛应用于教师评价、作业练习和语言学习场景。 那么,教育用户在口语学习方面存在哪些痛点呢? 语音评估最大的技术难点是什么?
对此,玛丽萨表示,对于学生来说英语口语在线测评软件,他们的痛点在于学习非母语口语。 在学生学习新语言的过程中,如何及时准确地反馈学生的发音,让学生随时随地更方便地联系,对于提高口语学习的效果至关重要。
对于学校和教育机构来说,其痛点在于教师资源有限,如何将现有的优质教师资源拓展成稳定的教学体系。 因此,教师不仅需要有能力模拟母语专家的评分,还需要学习教师的评价方法,以便教师能够利用评价为学生提供线上线下一对多的高效指导和帮助。
这些教育用户的痛点对语音评估技术提出了更高的要求。 Marisa认为,语音评估最大的技术难点在于语音识别技术本身。 首先是对多种语言的理解和识别。 不同的评分场景,包括嘈杂的环境和不同年龄段学生的发音英语口语在线测评软件英语培训,都需要进一步优化。
二是在包容性和鲁棒性之间取得平衡(注:鲁棒性,一个技术术语,可以理解为鲁棒性或抗退化性)。 模型要做得好、识别得好,还要能够动态、实时地构建,能够高实时地调用大模型。 这些要求的总和使得它变得更加困难。
“我们在语音评测方面的基础储备非常扎实,所以我们可以在各个方面做得更好,全面地呈现给用户。因此,我们不是在一点上挣扎,而是在多点之间进行平衡。”
据悉微软推出语音评估功能:构建于Azure云,赋能口语口语教学,其正在积极探索数字化转型和新教育模式的未来,也是微软语音评价功能的客户之一。 好未来人工智能科学家胡翔宇表示:
“如何快速有效地针对不同学生进行口语评估,是我们线上线下英语教学遇到的重大挑战。微软智能语音服务为内部和我们的合作伙伴提供了强大的实时语音评估能力。根据我们的测试,微软语音服务的发音评估功能更适应我们的广播环境,一致性更高,更接近专家的评估结果。”
基于Azure云的能力:算法、数据、算力
微软亚太研发集团云计算与人工智能事业部产品总监丁丙功表示,一般来说,我们看AI技术主要看三个方面:算法、数据、算力。 从这三个方面来看,微软的语音评测功能有其独特的优势。
事实上,微软语音评估并不是一个具体的产品,而是构建在Azure云上的一项功能。 即以微软Azure为平台,微软在人工智能领域30年的研究成果将向合作伙伴、独立软件开发商、系统集成商开放,为他们提供超越认知服务的能力,从而进一步做出适合的方案各自的领域。
“可以打个比方,如果说微软云是一个平台,那么认知服务就是平台中为用户提供智能的部分。就像人有眼睛、耳朵、思想一样,认知服务就是为人们提供智能的部分。 “想要使用微软Azure云的用户,获得这些能力的用户将获得扩展能力。”丁丙功说道。
“授人以鱼不如授人以渔。 我们提供这样的能力或工具后,可以方便合作伙伴基于垂直领域的丰富场景定制或开发相应的解决方案和产品。 他们可以直接访问此类功能。 无需从头开始进行任何人工智能研究。”
据了解,目前微软的语音评测API接口和参数丰富,支持多个并发通话,实时率较高。 如果第三方想要调用该API,在早期评估阶段是免费的。 进入集成开发阶段后英语口语在线测评软件,将根据标准Speech-To-Text(语音转文本)服务的价格按照评估音频的长度进行计费。
此外,丁丙功还提到,微软Azure拥有独立的微软教育团队,专门提供教育领域不同的解决方案。 除了语音评测之外,Azure云在教育领域还有很多已经落地的应用。
玛丽莎认为,当前全球教育行业正在经历数字化转型,疫情的到来加速了教育行业的数字化、在线化进程。 通过人工智能、云计算进一步赋能教育行业,为学生提供多元化、个性化的服务,打造更加智慧的生态环境。
微软深耕智能语音技术多年,推出了多款大家耳熟能详的语音产品,比如微软Cortana、微软小冰、Skype等,此次推出语音评测功能也是一次“赞助”移动。 在语音评测市场,BAT、科大讯飞等科技巨头竞相布局。 微软这匹“黑马”的加入,势必会让语音评测战场上的争夺更加激烈。 (雷锋网雷锋网)
猜你喜欢
发表评论
评论列表