人机语音对话技术在58同城的应用实践
下面我们看一下58同城的人机语音对话示例:语音机器人的实用场景不仅在是在销售场景,在58同城的应用主要还可以概括六个方面,包括:本文围绕人机语音对话技术在58同城的落地场景,对语音机器人的总体架构、核心功能、具体实践场景进行了系统的介绍。...
- 背景 -
58同城是中国最大的生活信息服务平台。 公司主营业务包括:招聘、汽车、金融、本地服务、二手服务等。其中,电话沟通是信息连接的重要渠道之一。 例如,招聘业务模块需要大量业务人员进行职位信息确认、面试预约、面试回访等重复且耗时的沟通工作。 为了更好地服务B端商户和C端用户,实现公司“让生活简单而美好”的使命,我们开发了用于电话语音通讯的语音机器人,减轻了业务人员的工作量,提高了服务质量。
传统的通讯工作完全依赖人工打电话,人工方式相比语音机器人存在很多问题。 下图是语音机器人与人类的对比:
其中,关于工作态度,人类很难保持长期的情绪稳定,而机器人却能始终保持稳定、情绪饱满的工作态度; 另外,在成本方面,从长远来看,语音机器人的成本远低于人类劳动力。 成本。 在对比市场上的语音机器人后,公司采取了自研语音机器人的策略,以快速响应需求场景的变化,解决个性化的业务问题。
我们来看一个58同城人机语音对话的例子:
从图中可以看出,语音机器人依然保持着较为流畅的对话。 机器人如何根据用户的不同反应做出不同的反应? 稍后我会给大家做更详细的介绍。
——语音机器人总体架构——
1、整体架构
语音机器人整体架构:
①接入层:主要以API接口的形式,方便业务方调用语音机器人。 当通话结束后,机器人可以通过WMB方式将消息传递给业务方,相当于异步通话。 同时,销售等业务方可以通过结果返回接口将跟进和订单信息反馈给后端英语,进一步进行算法优化。
②Web管理:主要负责语音配置、权限控制、批量拨号、防骚扰策略设置、数据可视化查询等。
③逻辑层:整个机器人的核心控制层,相当于人的大脑英语口语对话机器人技术,保证整个对话过程的完整进行。
④编辑操作层:目前主要用于数据标注英语口语对话机器人技术,标注后的数据用于模型迭代和在线效果评估。
⑤ 基础服务层:主要包括SIP电话资源和语音识别/合成接口。 SIP电话资源是用于拨打电话的资源,如东信、曼道等。语音识别采用第三方接口,如阿里巴巴、腾讯等。
2. 智能外呼流程
语音机器人智能外呼流程主要分为三个部分:通话前、通话中、通话后。 在呼叫之前,主要是主叫端。 主叫端将被叫号码、业务场景等信息传递给外呼主体。 主体获得外呼信息后,会制定一些策略,如反骚扰逻辑的设置、合理选择等。 SIP方,建立SIP通信,根据业务场景加载单词等。触发开场白时,进入“通话中”状态,通过发送语音并使用第三方语音合成接口对语音进行编码,并通过SIP代理服务器发送给用户。 用户接听后,判断用户的反应并对用户的语音进行解码。 ,然后使用第三方流式语音识别接口获取文本。 通过对文本的分析以及对话跳转的逻辑,我们可以对用户的回复做出合理的回应。 通话结束后,语音机器人会判断整个通话的通话状态,识别整个通话的意图,存储并回叫数据,并以WMB的形式回传给业务方。
--核心功能--
58同城语音机器人的核心功能包括电话拨号服务、通话状态识别、智能对话交互、全方位意图识别四部分。
1. 电话服务
实现电话的拨号服务功能,与客户建立联系。
目前该功能的实现主要基于JAIN SIP的开源库,主要包括四层。 其中,在资源管理控制方面,主叫用户会考虑同一归属位置,以提高出局呼叫的接通率。 对话建立层基于SIP协议,实现呼叫连接建立和释放连接的处理。
反骚扰策略:
为了避免过多打扰和消耗用户,设计了反骚扰策略。 其策略主要考虑:
① 来电名单限制:设置来电白名单和黑名单。 例如,某些特定的用户列表无法调用。
②通话时间控制:在该时间段内不能进行通话。
③通话频率控制:必须控制用户的通话频率,防止用户过度消费。
④用户情绪识别:分析用户通话过程中的情绪。 当用户情绪非常矛盾时,就会被加入禁止黑名单。
2. 通话状态识别
判断获取的客户电话号码是否真实存在且状态正常。 例如,在做销售业务时,需要检查业务方带来的客户号码是否为空号、异常号码等,这可以通过电话拨打服务来判断状态来实现。
具体可以利用SIP协议和振铃语音来实现。 SIP协议:根据SIP协议返回的SIP状态码进行判断。 例如返回603,则判断为空号。 振铃语音:通过将语音信号转换为文本,进行文本关键字匹配和文本分类来拨号。 判断英语口语对话机器人技术,例如“您所拨打的电话已关机”则判断为处于关机状态。 您还可以利用语音信息功能设计振铃语音分类器来确定号码状态。
3、智能对话交互
为了实现多轮对话的流畅,智能对话交互主要包括以下模块:智能对话管理、手机按键捕捉、单句意图识别、标准问题匹配、槽位提取。
①智能对话管理:
一般情况下:将用户语音转换成的文本作为模型的输入。 首先,对文本进行单句意图识别和槽位识别等NLU工作,然后将信息转换为用户动作并交给对话管理器。 对话管理器需要识别用户的意图人机语音对话技术在58同城的应用实践,根据预先设计的词汇库和映射策略选择并跳转到单词,并生成系统动作。
可以根据用户动作的语音响应和非语音响应进一步处理具体的措辞选择和策略,如下图所示。
要了解四种具体类型的语音策略跳转,可以看下图的语音示例:
②获取电话按钮
捕获用户的击键信息。 电话按键信息的捕获主要是利用RTP、SIP、SDP协议对按键信号进行分析。
③单句意图识别:
用户意图可能有很多种。 我们将总体意图分为十九类意图,并建立了标签、意图和描述的识别表。
单句意图识别的实现:目前公司线上主要使用TextCNN进行多分类,将用户的单句转化为文本,然后进行分类。
我们也在尝试使用Bert模型进行单句意图识别:
基于Google官方的中文预训练模型,使用公司自有的场景语料库进行预训练,得到Bert关于句子的编码向量CLS,添加全连接层后接softmax进行多分类。 与原始TextCNN方法相比英语口语对话机器人技术,准确率将提高2%。
④ 标准题匹配:
当用户的意图是提问时,如果问题类型为标准题,则可以将该问题与标准题库中的问题进行匹配,并选择对应的答案进行回复。
目前用于标准问题匹配的主要模型是Bi-LSTM-DSSM:
Bi-LSTM 进行句子的语义编码,DSSM 进行句子匹配。 在正反例的选择上,目前主要需要根据具体场景和实验结果来设定。 计算损失时的目标是与正例相似度较高,与负例相似度较低。
在标准问题匹配方面,也有尝试使用Bert的方法:
在匹配标准题方面,Bert主要用于提取句子信息。 在具体实现过程中,我们对比了CLS、Mean-Pool、Max-Pool等常用方法,发现采用Max-Pool方法来提取句子。 矢量表示是最好的。
标准问题挖掘:
改进和更新标准问答数据集。
从对话数据中提取问题并更新问答知识库。 添加新问题时,需要手动检查问题是否已包含在数据库中。 对于确定的标准题英语,需要填写答案后才能添加到问答知识库中。
⑤槽位提取:
提取对话文本中的词槽目前主要采用IDCNN+CRF。
从当前呼出呼叫中提取的字槽示例如下:
4. 全方位意图识别
在一些外呼业务场景中,当外呼结束时,需要预测客户的意图。 目前,采用全方位意图识别方法来预测客户意图。 例如,在销售场景中,客户意图分为三类:SUCCESS、CENTRAL 和 REFUSED。 具体意图如下表所示:
整轮意图识别都会考虑从响铃识别到对话结束整个对话的相关信息。 详细信息可以参见下图:
具体意图识别算法主要包括用于分类的TextCNN等模型,输入是整个对话过程中所有用户回复文本的拼接。 目前实际上线的模型是基于多模型融合的。 这里我们以TextCNN单一模型为例。 模型结构如下:
意图识别评论:
评估将包括离线人工评估和在线评估。
目前影响意图识别准确率的主要因素是语音识别误差。
——应用场景——
语音机器人的实用场景不仅仅在销售场景。 58同城的应用也可以概括为六个方面,包括:
①通知:最基本的场景,比如当用户信息发生变化时,机器人可以通过语音告知用户哪些信息发生了变化,有哪些特殊的事情需要注意等。
②满意度回访:如果您使用58同城的产品,可以使用语音机器人对客户进行产品满意度回访。
③信息验证:确认用户信息是否真实。
④销售:潜在客户的判断和发现。
⑤ 报警:例如在内部运维场景中,如果服务器出现异常,机器人语音呼叫会将报警信息通知相关负责人。
⑥ 销售客服培训:在人工客服上岗之前,需要进行在职培训。 原来由主管对新员工进行基础培训和考核英语培训,可以用机器人代替进行初步培训。
以下是四个具体的实际应用案例:
①提高校招效率:在通知场景中,语音机器人成功应用于校招面试,提高校招工作人员的工作效率。
②客户服务效率提升
③运营效率提升
④销售效率提升
利用语音机器人识别意向较高的潜在客户,提高销售人员的销售效率。
总结:语音对话技术不仅在销售业务领域落地,还应用于信息通知、内部业务报警等多个业务模块。 本文重点关注58同城人机语音对话技术的实现场景,系统介绍了语音机器人的整体架构、核心功能以及具体的实践场景。
猜你喜欢
发表评论
评论列表