人机语音对话技术在58同城的应用实践

时间：2024-03-16 03:42:08 阅读：次来源：网络整理

下面我们看一下58同城的人机语音对话示例：语音机器人的实用场景不仅在是在销售场景，在58同城的应用主要还可以概括六个方面，包括：本文围绕人机语音对话技术在58同城的落地场景，对语音机器人的总体架构、核心功能、具体实践场景进行了系统的介绍。...

- 背景 -

58同城是中国最大的生活信息服务平台。公司主营业务包括：招聘、汽车、金融、本地服务、二手服务等。其中，电话沟通是信息连接的重要渠道之一。例如，招聘业务模块需要大量业务人员进行职位信息确认、面试预约、面试回访等重复且耗时的沟通工作。为了更好地服务B端商户和C端用户，实现公司“让生活简单而美好”的使命，我们开发了用于电话语音通讯的语音机器人，减轻了业务人员的工作量，提高了服务质量。

传统的通讯工作完全依赖人工打电话，人工方式相比语音机器人存在很多问题。下图是语音机器人与人类的对比：

其中，关于工作态度，人类很难保持长期的情绪稳定，而机器人却能始终保持稳定、情绪饱满的工作态度；另外，在成本方面，从长远来看，语音机器人的成本远低于人类劳动力。成本。在对比市场上的语音机器人后，公司采取了自研语音机器人的策略，以快速响应需求场景的变化，解决个性化的业务问题。

我们来看一个58同城人机语音对话的例子：

从图中可以看出，语音机器人依然保持着较为流畅的对话。机器人如何根据用户的不同反应做出不同的反应？稍后我会给大家做更详细的介绍。

——语音机器人总体架构——

1、整体架构

语音机器人整体架构：

①接入层：主要以API接口的形式，方便业务方调用语音机器人。当通话结束后，机器人可以通过WMB方式将消息传递给业务方，相当于异步通话。同时，销售等业务方可以通过结果返回接口将跟进和订单信息反馈给后端英语，进一步进行算法优化。

②Web管理：主要负责语音配置、权限控制、批量拨号、防骚扰策略设置、数据可视化查询等。

③逻辑层：整个机器人的核心控制层，相当于人的大脑英语口语对话机器人技术，保证整个对话过程的完整进行。

④编辑操作层：目前主要用于数据标注英语口语对话机器人技术，标注后的数据用于模型迭代和在线效果评估。

⑤ 基础服务层：主要包括SIP电话资源和语音识别/合成接口。 SIP电话资源是用于拨打电话的资源，如东信、曼道等。语音识别采用第三方接口，如阿里巴巴、腾讯等。

2. 智能外呼流程

语音机器人智能外呼流程主要分为三个部分：通话前、通话中、通话后。在呼叫之前，主要是主叫端。主叫端将被叫号码、业务场景等信息传递给外呼主体。主体获得外呼信息后，会制定一些策略，如反骚扰逻辑的设置、合理选择等。 SIP方，建立SIP通信，根据业务场景加载单词等。触发开场白时，进入“通话中”状态，通过发送语音并使用第三方语音合成接口对语音进行编码，并通过SIP代理服务器发送给用户。用户接听后，判断用户的反应并对用户的语音进行解码。，然后使用第三方流式语音识别接口获取文本。通过对文本的分析以及对话跳转的逻辑，我们可以对用户的回复做出合理的回应。通话结束后，语音机器人会判断整个通话的通话状态，识别整个通话的意图，存储并回叫数据，并以WMB的形式回传给业务方。

--核心功能--

58同城语音机器人的核心功能包括电话拨号服务、通话状态识别、智能对话交互、全方位意图识别四部分。

1. 电话服务

实现电话的拨号服务功能，与客户建立联系。

目前该功能的实现主要基于JAIN SIP的开源库，主要包括四层。其中，在资源管理控制方面，主叫用户会考虑同一归属位置，以提高出局呼叫的接通率。对话建立层基于SIP协议，实现呼叫连接建立和释放连接的处理。

反骚扰策略：

为了避免过多打扰和消耗用户，设计了反骚扰策略。其策略主要考虑：

① 来电名单限制：设置来电白名单和黑名单。例如，某些特定的用户列表无法调用。

②通话时间控制：在该时间段内不能进行通话。

③通话频率控制：必须控制用户的通话频率，防止用户过度消费。

④用户情绪识别：分析用户通话过程中的情绪。当用户情绪非常矛盾时，就会被加入禁止黑名单。

2. 通话状态识别

判断获取的客户电话号码是否真实存在且状态正常。例如，在做销售业务时，需要检查业务方带来的客户号码是否为空号、异常号码等，这可以通过电话拨打服务来判断状态来实现。

具体可以利用SIP协议和振铃语音来实现。 SIP协议：根据SIP协议返回的SIP状态码进行判断。例如返回603，则判断为空号。振铃语音：通过将语音信号转换为文本，进行文本关键字匹配和文本分类来拨号。判断英语口语对话机器人技术，例如“您所拨打的电话已关机”则判断为处于关机状态。您还可以利用语音信息功能设计振铃语音分类器来确定号码状态。

3、智能对话交互

为了实现多轮对话的流畅，智能对话交互主要包括以下模块：智能对话管理、手机按键捕捉、单句意图识别、标准问题匹配、槽位提取。

①智能对话管理：

一般情况下：将用户语音转换成的文本作为模型的输入。首先，对文本进行单句意图识别和槽位识别等NLU工作，然后将信息转换为用户动作并交给对话管理器。对话管理器需要识别用户的意图人机语音对话技术在58同城的应用实践，根据预先设计的词汇库和映射策略选择并跳转到单词，并生成系统动作。

可以根据用户动作的语音响应和非语音响应进一步处理具体的措辞选择和策略，如下图所示。

要了解四种具体类型的语音策略跳转，可以看下图的语音示例：

②获取电话按钮

捕获用户的击键信息。电话按键信息的捕获主要是利用RTP、SIP、SDP协议对按键信号进行分析。

③单句意图识别：

用户意图可能有很多种。我们将总体意图分为十九类意图，并建立了标签、意图和描述的识别表。

单句意图识别的实现：目前公司线上主要使用TextCNN进行多分类，将用户的单句转化为文本，然后进行分类。

人机英语口语对话训练_英语口语对话机器人技术_英语语音对话机器人

我们也在尝试使用Bert模型进行单句意图识别：

基于Google官方的中文预训练模型，使用公司自有的场景语料库进行预训练，得到Bert关于句子的编码向量CLS，添加全连接层后接softmax进行多分类。与原始TextCNN方法相比英语口语对话机器人技术，准确率将提高2%。

④ 标准题匹配：

当用户的意图是提问时，如果问题类型为标准题，则可以将该问题与标准题库中的问题进行匹配，并选择对应的答案进行回复。

目前用于标准问题匹配的主要模型是Bi-LSTM-DSSM：

Bi-LSTM 进行句子的语义编码，DSSM 进行句子匹配。在正反例的选择上，目前主要需要根据具体场景和实验结果来设定。计算损失时的目标是与正例相似度较高，与负例相似度较低。

在标准问题匹配方面，也有尝试使用Bert的方法：

在匹配标准题方面，Bert主要用于提取句子信息。在具体实现过程中，我们对比了CLS、Mean-Pool、Max-Pool等常用方法，发现采用Max-Pool方法来提取句子。矢量表示是最好的。

标准问题挖掘：

改进和更新标准问答数据集。

从对话数据中提取问题并更新问答知识库。添加新问题时，需要手动检查问题是否已包含在数据库中。对于确定的标准题英语，需要填写答案后才能添加到问答知识库中。

⑤槽位提取：

提取对话文本中的词槽目前主要采用IDCNN+CRF。

从当前呼出呼叫中提取的字槽示例如下：

4. 全方位意图识别

在一些外呼业务场景中，当外呼结束时，需要预测客户的意图。目前，采用全方位意图识别方法来预测客户意图。例如，在销售场景中，客户意图分为三类：SUCCESS、CENTRAL 和 REFUSED。具体意图如下表所示：

整轮意图识别都会考虑从响铃识别到对话结束整个对话的相关信息。详细信息可以参见下图：

具体意图识别算法主要包括用于分类的TextCNN等模型，输入是整个对话过程中所有用户回复文本的拼接。目前实际上线的模型是基于多模型融合的。这里我们以TextCNN单一模型为例。模型结构如下：

意图识别评论：

评估将包括离线人工评估和在线评估。

目前影响意图识别准确率的主要因素是语音识别误差。

——应用场景——

语音机器人的实用场景不仅仅在销售场景。 58同城的应用也可以概括为六个方面，包括：

①通知：最基本的场景，比如当用户信息发生变化时，机器人可以通过语音告知用户哪些信息发生了变化，有哪些特殊的事情需要注意等。

②满意度回访：如果您使用58同城的产品，可以使用语音机器人对客户进行产品满意度回访。

③信息验证：确认用户信息是否真实。

④销售：潜在客户的判断和发现。

⑤ 报警：例如在内部运维场景中，如果服务器出现异常，机器人语音呼叫会将报警信息通知相关负责人。

⑥ 销售客服培训：在人工客服上岗之前，需要进行在职培训。原来由主管对新员工进行基础培训和考核英语培训，可以用机器人代替进行初步培训。

以下是四个具体的实际应用案例：

①提高校招效率：在通知场景中，语音机器人成功应用于校招面试，提高校招工作人员的工作效率。

②客户服务效率提升

③运营效率提升

④销售效率提升

利用语音机器人识别意向较高的潜在客户，提高销售人员的销售效率。

总结：语音对话技术不仅在销售业务领域落地，还应用于信息通知、内部业务报警等多个业务模块。本文重点关注58同城人机语音对话技术的实现场景，系统介绍了语音机器人的整体架构、核心功能以及具体的实践场景。

猜你喜欢

会话机器人在电话场景中的实践

时间：2024-03-16 00:31:33 阅读：0

突然想写一篇电话场景下的对话机器人的介绍，算是对自己之前工作项目的一个小总结吧，只说自己知道的，算是抛转引玉吧。电话场景下返回给用户不是文本，而是语音，设计中需要引入语音合成技术。...

下载并安装口语帮助应用程序的官方版本

时间：2023-10-27 07:04:03 阅读：2

能够通过软件进行语音跟读训练，这样能够让学生更好的进行对话交流提供了许多常见的情景对话交流内容，在软件中用户就可以轻松的进行情景对话...

口语100app v5.5.8020 安卓版

时间：2023-10-27 04:08:49 阅读：4

口语100app怎么用现在每个学生可以自己拥有一对一的智能口语教练。是世界上智能度最高的机器口语教练。过去，只有高端口语训练才采用的秘密武器，现在，让每个学习者可以享用。...

海云天科技英语人机对话考试技术服务获认可，助力多地中高考英语模拟考试顺利进行

时间：2023-10-27 02:50:44 阅读：3

凭借自主研发的“海云天英语人机对话考试系统”，海云天科技（拓维信息002261子公司）继成功中标2018年宁波、嘉兴中考英语人机对话考试技术服务项目后，近日...

英语智能对话软件app（英语口语机器人app）_Global Know-How

时间：2023-10-27 01:29:29 阅读：3

学英语口语最好的app英语流利说是一款智能口语打分软件，内置各种以场景为主题的课程，你可以模仿跟读，它会根据你发音的情况给你打分。学英语口语最好的app是阿卡索口语秀。阿卡索口语秀的核心功能是配音视频。英语流利说是一款智能口语打分软件，内置各种以场景为主题的课程，你可以模仿跟读，它会根据你发音的情况给你打分。口语侠是国内第一款专注于帮你找外教在线练口语的app。英语流利说是一款智能口语打分软件，内置各种以场景为主题的课程，你可以模仿跟读，它会根据你发音的情况给你打分。3、学英语口语最好的app是阿卡索口语...

发表评论

评论列表

人机语音对话技术在58同城的应用实践

猜你喜欢

会话机器人在电话场景中的实践

下载并安装口语帮助应用程序的官方版本

口语100app v5.5.8020 安卓版

海云天科技英语人机对话考试技术服务获认可，助力多地中高考英语模拟考试顺利进行

英语智能对话软件app（英语口语机器人app）_Global Know-How

口语机器人苹果版 v2.3.0

中考英语听说“人机对话”考试的现实复习和优化路径

人工智能应用实例（人工智能应用实例视频）

最近更新

热门浏览

标签列表

人机语音对话技术在58同城的应用实践

猜你喜欢

最近更新

热门浏览

标签列表

最近更新

热门浏览

标签列表