人机对话能否跨越“心灵沟通”的障碍?
从某种意义上说,解决了开放领域的人机对话问题,就等于通过了图灵测试。随着技术发展,服务机器人、社交机器人将成为智能社会新的成员,人机对话的技术发展水平决定了人机和谐相处的可能性。但有些问题,特别是开放式的聊天,要求机器人对话系统对答如流是很难的,这完全取决于系统自身的知识水平。...
对话嘉宾
黄敏烈(清华大学计算机科学系副教授、中国信息学会自然语言生成与智能书写专业委员会副主任)
刘群(华为诺亚方舟实验室语音语义首席科学家、国际计算语言学学会会士)
王斌(小米集团技术委员会主席、AI实验室主任)
电影《机器人管家》剧照
当智能音箱“小爱”、“小冰”、“小度”接收到你我的语音需求时,它能真正理解人类的意图吗? 如何判断人工智能是否足够智能、是否有用? 背后有什么技术?
今年6月,谷歌工程师Blake Lemoine公布了他与聊天机器人LaMDA的聊天记录,并得出其具有自我意识的结论人机对话能否跨越“心灵沟通”的障碍?,再次引发公众讨论。 尽管布莱克的判断被驳回,但面对“说空话”的沟通困难英语口语人机对话机器人,人工智能技术(AI)如何更好地构建人类对话体验,值得深入探索。
语言交互能力是判断机器是否“智能”的标准
半月谈:人工智能对话系统已经融入到人们生活的方方面面。 像“Hi,Siri”或“小都小都”这样的唤醒词可以解放人类的双手,让机器为我们完成指令。 AI语音技术能为人类带来哪些可能? 目前主要应用场景有哪些?
黄敏烈:人工智能对话系统起源于20世纪50年代的图灵测试,是人工智能领域最重要的研究方向之一。 机器具备什么程度的语言交互能力,甚至判断机器是否“智能”的标准——最早的图灵测试就是以人机对话的形式设定的。 从某种意义上来说,解决开放领域的人机对话问题就相当于通过了图灵测试。
对话系统的“祖父”是出生于1966年的Eliza,它可以按照人工设计的脚本与人类进行交流,但它并不理解对话的内容,只能通过模式匹配来搜索合适的回复。 随着深度学习技术的发展英语,人工智能对话系统已从基于规则的第一代、以传统机器学习为核心的第二代英语口语人机对话机器人,发展到以大数据、大模型为突出特征的第三代。 对话能力也有了革命性的变化,比如关于开放话题的惊人对话能力。
半月谈:有一种观点认为Eliza是对话系统的1.0,以Siri为代表的语音助手代表对话系统的2.0,社交(聊天)机器人是对话系统的3.0。
黄敏烈:大致是这样,但是类比不够准确。 目前,人工智能对话系统可以分为两种类型。 一类称为任务导向型,旨在帮助用户完成特定任务,例如移动助理、客服机器人等。 另一种是开放域对话系统,即聊天机器人。
2011年,苹果推出语音助手Siri,AI对话系统进入智能助手时代。 2014年,微软推出了首款社交机器人微软小冰,它允许用户与小冰聊天和互动。 在2017年至2019年连续举办的三届Alexa大奖赛中,最好的对话系统能够与人类用户聊天超过10分钟,并且聊天内容不受领域和主题的限制。 2020年出现了很多超大规模的预训练模型,包括谷歌的Meena、FAIR的Blender和百度的PLATO,对话系统的研究进入了新的高潮。
在大数据和大计算能力的支持下,更先进的人工智能对话系统不仅可以回答用户的问题,还可以以有趣的方式进行话题讨论。 随着技术的发展,服务机器人、社交机器人将成为智能社会的新成员。 人机对话的技术发展水平决定了人与机器和谐共处的可能性。
中外AI对话系统水平处于同一水平
半月谈:如何判断人机对话的水平? 如何判断和体现机器使用自然语言与人交流的能力?
黄敏烈:我们对AI对话系统进行分级:L0级没有自动对话能力或者无法提供更高质量的对话; Level L1可以在单个场景中完成较高质量的对话,但无法处理场景之间的上下文依赖关系; L2级别可以同时在多个场景中完成更高质量的对话,并且具有处理跨场景上下文依赖和自然切换的能力,但无法在新场景中完成更高质量的对话; L3级别可以对大量场景进行高质量对话,同时在新场景中也可以进行更高质量的对话; L4级别不仅在新场景中具有高质量的对话能力,而且具有更高的拟人化程度; L5级别拟人化程度很高,不仅能主动学习、持续学习,还能在新场景中进行高质量对话。 它还具有多模态感知和表达能力。
半月谈:如果按照这个分级标准,目前国内聊天机器人的对话水平处于什么水平? 与国际水平相比如何?
早在2016年,中国科学技术大学就正式发布了其研发的独特体验式互动机器人“佳佳”。 “佳佳”初步具备人机对话理解、面部微表情、嘴形与肢体动作匹配、大规模动态环境自主定位导航、云服务等功能。 刘俊熙 摄
刘群:目前业界水平一般在L2到L3之间,但也要看场景。 如果只是一般性的对话,实现这个场景并不是那么困难。 但在一些新的场景中,想要实现高质量的对话就比较困难了。
王斌:从目前的行业应用来看,我国的AI对话系统与国外的AI对话系统没有明显差异,总体处于同一水平。
实现“拟人”并不容易,AI高级拟人化是未来目标
半月谈:有时候,当我们对人工智能说些什么时,它会回答“我听不懂你在说什么”。 目前,阻碍人与机器顺畅沟通的主要挑战有哪些?
刘群:对话机器人理解能力有限很正常,人类的知识也有限。 在一些简单的领域中,可以对系统进行建模。 但有些问题,尤其是开放式聊天,需要机器人对话系统能够流利地回答。 这完全取决于系统自身的知识水平。
在复杂的场景下,机器人很难完全理解人类的意图。 就像两个人之间,如果文化背景不同,沟通就会出现很多困难。 我们需要给对话系统注入更多的知识、更多的场景。
此外,很难让AI保持性格的一致性,这就需要对话系统具有记忆能力和良好的建模能力。 事实上,一些上下文的“不一致”是非常微妙的。 例如,机器说“今天是大年初一”后,它又说“现在的月亮真圆”。 这是矛盾的,但从表面上看学英语,两句话并没有明显的区别。 矛盾。 目前,机器很难处理这种模糊的矛盾。
半月谈:人工智能在很多科幻作品中扮演着强大救世主的角色。 这样的“人形机器人”在未来的某一天能否实现呢?
黄敏烈:科幻电影中的类人动物拟人化程度很高,具有多模态感知和表达能力。 传统的人机交互数据处理模式主要是通过文本,但未来,要真正做到“类人”,尤其是元宇宙英语口语人机对话机器人,人工智能需要识别人类表情、理解语音、从语音中感受。 人类的情感和其他能力都有了相当程度的提高。
刘群:AI对话系统的最高层应用是复杂的情感任务。 如何推动人工智能在情感陪伴、虚拟人、元宇宙等方面的应用,大幅降低人力物力成本英语口语人机对话机器人,推动前沿技术走进大众日常生活,是未来的方向学术界的努力。 目前学英语,不少厂商已经在探索拟人化,比如赋予AI对话产品情感分析、情感引导、人物设定等能力,展现一定程度的拟人化。 这种简单的拟人化功能相对容易实现。
王斌:多模态感知和表达并不像想象的那么容易。 在现实系统中,不同模式之间的关系非常复杂,多种模式之间如何相互促进是一个难点。 更高的拟人化要求机器对更加显性和隐性的内容实现统一理解和一致表达。
在开放场景中,先进的人工智能对话系统需要机器主动行动,不断学习和进化。 从目前的技术演进和发展趋势来看,在迭代演进中学习新事物是人工智能追求的目标,也是一个巨大的挑战。
猜你喜欢
发表评论
评论列表