文本转语音概述

时间:2023-09-17 13:31:33 阅读:

文本转语音可让应用程序、工具或设备将文本转换为类似于人类的合成语音。文本转语音包括以下功能:关于神经网络文本转语音功能的详细信息的标记语言,用于对文本转语音输出进行自定义。若要开始使用文本转语音,请参阅快速入门。上提供了文本转语音的示例代码。这些示例涵盖了大多数流行编程语言形式的文本转语音转换:使用文本转语音功能时,将按照转换为语音的每个字符(包括标点)付费。...

本文内容

本概述介绍了语音服务的文本转语音功能的优点和功能,该服务是 Azure AI 服务的一部分。

文本转语音允许应用程序、工具或设备将文本转换为类似人类的合成语音。 文本转语音功能也称为语音合成。 使用现成的、预先生成的类人神经声音,或根据您的产品或品牌创建独特的神经自定义声音。 有关支持的声音、语言和区域设置的完整列表,请参阅语音服务的语言和声音支持。

核心功能

文本转语音包括以下功能:

功能总结演示

预先生成的神经网络声音(在定价页面上称为“神经网络”)

高度自然、现成的演讲。 创建 Azure 帐户和语音服务订阅,然后使用语音 SDK 或访问语音工作室门户并选择预生成的神经语音即可开始。 请参阅定价详情。

查看语音库以确定适合您业务需求的语音。

神经自定义声音(在定价页面上称为“神经自定义”)

易于使用的自助服务,可创建自然的品牌声音并限制访问以实现负责任的使用。 创建 Azure 帐户和语音服务订阅(使用 S0 层)并申请使用神经网络自定义功能。 获得访问权限后,请访问 Speech Studio 门户并选择“自定义声音”即可开始。 请参阅定价详情。

查看演讲示例。

有关神经文本转语音功能的更多信息

Azure 上语音的文本转语音功能已全面升级为神经文本转语音引擎。 该引擎使用深度神经网络使计算机声音与人类录音几乎无法区分。 神经网络文本转语音可提供清晰的发音,并显着减轻用户与人工智能系统交互时的听力疲劳。

口语中的重音和语调模式称为韵律。 传统的文本转语音系统将韵律分解为单独的语言分析和声学预测步骤,这些步骤由独立的模型控制。 这可能会导致语音合成混乱和语气不一致。

以下是有关语音服务中的神经文本转语音功能的详细信息,以及它们如何克服传统文本转语音系统的局限性:

有关平台神经声音的完整列表英语在线转换语音免费英语,请参阅语音服务的语言和声音支持。

使用 SSML 微调文本转语音输出:语音合成标记语言 (SSML) 是一种基于 XML 的标记语言,用于自定义文本转语音输出。 使用 SSML英语在线转换语音免费,您可以调整音调、添加停顿、改进发音、更改语速、调整音量以及将多个语音归属于单个文档。

您可以使用 SSML 定义自己的词典或切换到不同的说话风格。 使用多语言语音并通过 SSML 调整口语。 要微调场景的语音输出,请参阅使用语音合成标记语言改进合成和使用音频内容创建工具进行语音合成。

视觉素 - 视觉素是在语音中观察到的关键手势,包括在产生特定音素时嘴唇、下巴和舌头的位置。 视觉元素与语音和音素密切相关。

可以使用语音 SDK 中的体素事件生成面部动画数据。 这些数据用于创建用于唇读交流、教育、娱乐和客户服务的面部动画。 Visuales 目前仅支持 en-US(美式英语)神经网络声音。

评论

语音转换英语软件下载_语音转换在线英语免费软件_英语在线转换语音免费

我们计划在 2024 年淘汰传统/标准语音和非神经自定义语音。之后,我们将不再支持它们。

如果您的应用程序、工具或产品当前使用任何标准语音和自定义声音,则必须迁移到神经网络版本。 有关更多信息,请参阅迁移到神经网络声音。

入门

要开始使用文本转语音英语在线转换语音免费英语培训,请参阅快速入门。 文本转语音是通过语音 SDK、REST API 和语音 CLI 提供的。

暗示

对于将文本转换为语音的无代码方法,请尝试使用 Speech Studio 中的音频内容创建工具。

代码示例

GitHub 上提供了文本转语音的示例代码。 这些示例涵盖了最流行的编程语言中的文本到语音转换:

定制神经语音

除了预先生成的神经声音之外,还可以创建和微调您的产品或品牌独有的神经自定义声音。 只需准备一些音频文件和相关转录即可开始。 有关更多信息,请参阅神经网络自定义声音入门。

定价说明 计费字符

当您使用文本转语音时,您需要为转换为语音的每个字符(包括标点符号)付费。 尽管 SSML 文档本身不计费,但用于调整文本转语音行为的可选元素(例如音素和音节)将被计为计费字符。 计费内容如下:

有关更多信息,请参阅语音服务定价。

重要的

每个汉字算作两个字符,包括日语汉字、韩语汉字或其他语言中使用的汉字。

神经网络自定义声音的模型训练和托管时间

神经网络定制声音训练和托管均按小时计费,并按秒计费。 计费单价请参见语音服务定价。

神经网络自定义语音 (CNV) 训练时间以“计算时间”(计算机运行时间的单位)来衡量。 通常,在训练语音模型时,两个计算任务并行运行。 因此,计算出的计算时间将比实际训练时间长。 平均而言,训练一篇 CNV Lite 语音需要不到 1 个小时的计算时间; 对于CNV P​​rofessional来说,训练单一风格的语音通常需要20到40个计算小时,训练多风格的语音通常需要90个计算小时左右。 小时。 CNV 训练时间的计费限制为 96 个计算小时。 因此,如果语音模型训练需要 98 个计算小时,您只需支付 96 个计算小时的费用。

神经网络自定义语音 (CNV) 端点托管是实时(小时)测量的。 每个端点的托管时间(以小时为单位)是在过去 24 小时内每天 00:00 UTC 计算的。 例如英语,如果端点在第一天处于活动状态 24 小时,则将在第二天 00:00 UTC 时按 24 小时计费。 如果端点是新创建的端点或当天已暂停,则将按其累计运行时间计费,直到第二天 00:00 UTC。 如果端点当前未托管,则不会计费。 除了每日 00:00 UTC 计算外英语在线转换语音免费,当端点被删除或暂停时也会立即触发计费。 例如,对于 12 月 1 日 08:00 UTC 创建的终端节点,12 月 2 日 00:00 UTC 和 12 月 3 日 00:00 UTC 的托管时间将分别计算为 16 小时和 24 小时。 如果用户在 12 月 3 日 16:30 UTC 暂停托管端点,则出于计费目的,将计算 12 月 3 日 00:00 到 16:30 UTC 的持续时间(16.5 小时)。

参考文档 Responsible AI

人工智能系统不仅包括技术文本转语音概述,还包括使用它的人、受其影响的人以及部署它的环境。 阅读透明度说明,了解如何在系统中负责任地使用和部署人工智能。

下一步

猜你喜欢

发表评论

评论列表