人机对话能否跨越“心灵沟通”之坎 -

　　当智能音箱“小爱”“小冰”“小度”接收你我的语音需求时，它是否能够真正领会人类的意图？如何判断人工智能足够聪明好用？背后是什么技术在支撑？

　　今年6月，谷歌工程师布雷克·莱莫伊（Blake Lemoine）公开自己与聊天机器人LaMDA的聊天记录，并认为其具有自我意识的论断，再次引发公众讨论。尽管布雷克的判断遭到否定，但面对“对空言说”的交流之困，人工智能技术（AI）如何更好地建构人类对话经验，值得深入探寻。

　　半月谈：人工智能对话系统已融入人们生活的方方面面，一句“嗨，Siri”“小度小度”这样的唤醒词，就可以解放人类双手，让机器替我们实现指令。AI语音技术能够为人类带来哪些可能？目前主要的应用场景分布在哪些领域？

　　黄民烈：人工智能对话系统起源于上世纪50年代的图灵测试，是AI领域最重要的研究方向之一。一个机器具有何种程度的语言交互能力，甚至是判断这个机器是否具有“智能”的标准——最早的图灵测试就是以人机对话的方式进行设定的。从某种意义上说，解决了开放领域的人机对话问题，就等于通过了图灵测试。

　　对话系统的“祖师爷”是诞生于1966年的Eliza，可根据人工设计的脚本与人类交流，但它并不理解对话内容，只是通过模式匹配搜索合适的回复。随着深度学习技术的发展，AI对话系统已经从基于规则的第一代和以传统机器学习为核心的第二代，发展到以大数据和大模型为显著特征的第三代，对话能力已经有了革命性的变化，比如在开放话题上展现出了惊人的对话能力。

　　半月谈：有种观点认为，Eliza是对话系统的1.0，以Siri为代表的语音助手代表了对话系统的2.0，社交（聊天）机器人就是对话系统的3.0。

　　黄民烈：大致是这样，但这个类比还不够精确。目前AI对话系统可分为两种类型，一种叫任务导向型，以帮助用户完成具体的任务为目的，也就是诸如手机助手、客服机器人等。另一种是开放域的对话系统，也就是聊天机器人。

　　2011年，苹果推出语音助手Siri，AI对话系统进入智能助理时代。2014年，微软推出第一款社交机器人微软小冰，用户可以跟小冰进行聊天互动。在2017至2019年间，连续举办的三届Alexa大奖赛中，最好的对话系统能够与人类用户开展超过10分钟的聊天，聊天内容不受领域和话题限制。2020年又出现很多超大规模的预训练模型，包括Google的Meena、FAIR的Blender和百度的PLATO，对话系统的研究进入一个新的高潮。

　　在大数据大算力的支持下，更先进的AI对话系统不仅可以回答用户的问题，还能以有趣的方式进行话题讨论。随着技术发展，服务机器人、社交机器人将成为智能社会新的成员，人机对话的技术发展水平决定了人机和谐相处的可能性。

　　黄民烈：我们将AI对话系统做一个分级：L0级是完全没有自动对话能力或无法给出较高质量的对话；L1级能完成单一场景的较高质量对话，但无法处理场景之间上下文依赖；L2级可以同时完成多个场景的较高质量对话，具有处理跨场景的上下文依赖和自然切换能力，但是无法完成新场景较高质量的对话；L3级能针对大量场景开展高质量对话，同时在新场景中也能有较高质量的对话；L4级不仅在新场景中有高质量对话能力，还有较高的拟人化程度；L5级的拟人化程度很高，不仅主动学习和持续学习，还具有多模态感知与表达能力。

　　半月谈：如果按照这个分级标准，目前国内聊天机器人的对话水平位于哪一级？与国际水平相比如何？

　　早在2016年，中国科学技术大学正式发布其研制的特有体验交互机器人“佳佳”。“佳佳”初步具备人机对话理解、面部微表情、口型及躯体动作匹配、大范围动态环境自主定位导航和云服务等功能。刘军喜摄

　　刘群：现在工业界的水平一般位于L2至L3，但也要视场景而定。如果只是泛泛地进行对话，实现这个场景并不那么困难。但有些新场景，想要达到高质量对话还比较困难。

　　王斌：从目前的工业应用看，我国的AI对话系统与国外的AI对话系统没有明显差异，总体处在同一级别。

　　半月谈：有时我们对着AI说一句话，它回复“听不懂你在说什么”。目前，阻碍人机顺畅交流的挑战主要有哪些？

　　刘群：对话机器人理解水平有限很正常，人的知识也有限。在部分简单领域，系统可以建模。但有些问题，特别是开放式的聊天，要求机器人对话系统对答如流是很难的，这完全取决于系统自身的知识水平。

　　在复杂场景中，让机器人完全理解人类意图是非常困难的。就像两个人之间，如果文化背景不一样，也会出现很多沟通困难。我们需要把更多的知识、更多的场景注入到对话系统里去。

　　此外，使AI保持人设一致性也是比较困难的，这需要对话系统具有记忆能力，而且要有很好的建模。现实中，有些上下文的“不一致”非常隐晦，比如机器在说完“今天大年初一”后又说“现在月亮好圆”，这就矛盾了，但两句话在表面上看不出任何矛盾。目前机器还很难处理这类隐晦的矛盾。

　　黄民烈：科幻电影中的类人具有很高的拟人化程度，且具有多模态的感知和表达能力。传统的人机交互数据处理模态主要是通过文字，但未来要做到真正“类人”，尤其是适用于元宇宙，则需要AI对人类表情的识别、语音的理解，以及从语音上感受人类情绪等能力有相当程度的提升。

　　刘群：AI对话系统最高级别的应用为复杂情感任务。如何促进人工智能在情感陪伴、虚拟人、元宇宙等方面的应用，大大降低人力物力成本，促进前沿科技走进大众日常生活，是未来学界业界努力的方向。目前，已经有很多厂商在做一些拟人化的探索，例如给AI对话产品赋予情感分析、情感疏导、人物设定等能力，使之表现出一定的拟人化程度，这类简单的拟人化特征相对容易实现。

　　王斌：多模态的感知和表达并不像想象中的那么容易。真实的系统中，不同模态间的关系非常复杂，如何多模态互相促进是一个难点。更高的拟人化，需要使机器对于更多显性隐性内容达到统一理解和一致表达。

　　在开放场景里，高级的AI对话系统要求机器有主动性，持续学习并演化成长。从目前的技术进化和发展趋势来看，要做到在整个迭代演化中学到新东西，这是AI追求的目标，也是巨大的挑战。