Meta开发出懂谈判的人工智能,可“忽悠”人类玩家
·游戏《外交》中,忽悠人工智能Cicero具有对他人的出懂信仰、目标和意图进行推理的谈判能力,可以通过表现出同理心、工智使用人类语言交流并建立人际关系获胜。人类
Meta的忽悠人工智能团队(AI)11月22日宣布开发出Cicero,第一款在战略棋盘游戏《外交》中打出人类级别表现的出懂人工智能,这款游戏需要深厚的谈判人际谈判技巧。
早在1997年深蓝在国际象棋比赛中击败加里·卡斯帕罗夫之前,工智棋盘游戏就已经成为衡量人工智能成就的人类一个有用指标。2015年,忽悠AlphaGo击败围棋大师李·塞多尔,出懂将此类AI带到一个新的谈判高度。象棋和围棋都遵循一套相对清晰的工智比赛规则,但这些单纯的人类对抗性环境不需要AI与一同参与的玩家有语言交流。Cicero则可以在特定环境下,通过对话说服玩家、建立关系,从而获取胜利。
游戏《外交》的画面。
Cicero可能比人更会聊天
人工智能领域的一个主要长期目标是建立能够用自然语言与人类进行规划、协调和谈判的智能体。尽管目前模仿人类语言的模型取得了很大进展,但有效的AI谈判必须超越这一点,需要了解伙伴的信念、目标和意图,规划符合多人参与的联合行动,并有力地传达这些建议。
《外交》可能是最适合AI进行语言学习的培养皿之一,这款游戏很大一部分玩法涉及社交技能,玩家在游戏中扮演不同国家进行合作对抗,类似简化版的《文明》、《三国志》或《欧陆风云》。这是一个涉及合作和竞争的战略游戏,强调七个玩家之间的自然语言谈判和战术协调。AI必须表现出同理心,使用人类的语言交流,建立人际关系才能获胜,这对AI玩家来说是一项艰巨的任务。
考虑到这一点,Meta提出:“我们是否可以建立更有效、更灵活的AI,他们是否可以使用语言进行谈判、说服和与人合作,以实现与人类类似的战略目标?”
根据Meta的说法,答案是肯定的。Cicero通过《外交》学习了自己的技能,随着时间的推移成为游戏高手。Cicero将语言模型的规划和强化学习算法相结合,可以通过对话推断玩家的信念和意图,并根据其计划生成对话。
在《外交》游戏的40场匿名在线比赛中,Cicero的平均得分是人类选手的两倍多,在72小时的比赛中,它发送了5277条信息,在不止一场比赛中排名前10%。
AI也要学习“黑暗森林”法则
此前,AI的成功主要体现在纯粹的对抗性环境中,如国际象棋、围棋和扑克。在这些环境中,与对手交流没有价值,AI可以不断和自己进行游戏来学习,即通过具有足够计算和模型能力的自我游戏能力来解决问题。
但《外交》并不一样,在这款模拟各个国家进行合作对抗的游戏中,每个玩家都处于《三体》作者刘慈欣所说的“黑暗森林”法则中,玩家彼此之间并不信任。任何只考虑一时利益而不考虑人际关系的行为都将招致怀疑。哪怕是在没有语言交流的版本中,如果AI自我学习到与潜在人类盟友的规范和期望不符的策略,也同样发挥不佳。
游戏中的信息通常涉及协调精确的计划,任何沟通失误都可能导致失败。AI发送的每一条消息都必须基于上下文的对话历史、游戏状态和目标来规划。如果信息不准确,人类可能会要求AI解释其错误,这是一项更具有挑战性的任务,可能会导致进一步的错误。此外,重复的消息传递会产生反馈循环,例如,语言模型模仿其自身先前消息的风格,发送简短或不连贯的消息,这将增加未来此类消息在游戏中出现的可能性。
《外交》中的每一轮行动都是在谈判之后同时发生的。要想成功,AI必须考虑到玩家可能不信守诺言的风险,或者其他玩家可能怀疑自己信用的风险。因此,对他人的信仰、目标和意图进行推理的能力,以及通过对话说服和建立关系的能力是《外交》中必须掌握的技能。
“可控对话模式”是Cicero的核心
对此,为了培养Cicero,Meta将用于战略推理(类似于AlphaGo)和自然语言处理(类似于GPT-3)的人工智能模型整合在一起,放入一个AI代理中。在每场比赛中,Cicero都会查看游戏板的状态和对话历史,并预测其他玩家的行为。它可以计划玩家如何协调以实现他们的共同利益,并将这些计划转化为自然语言信息,也就是人类可以理解的语言。
Meta将Cicero的自然语言技能称为“可控对话模式”,这是Cicero的核心所在。Cicero从网络上抓取大量互联网文本,并从中提取可用信息构建对话。为了建立一个可控的对话模型,研究人员从一个有27亿参数的语言模型开始培养AI,该模型在互联网文本上进行了预训练,并针对40000多人进行了微调。
由此产生的模型掌握了游戏的复杂玩法,且很难被人类识别出来。Meta说:“例如,Cicero可以推断,在游戏后期,它需要取得某个特定玩家的支持,然后制定策略以赢得该玩家的青睐,它甚至可以从其他玩家的视角出发,看到风险和机会。”
但Cicero目前仍只能协调玩家在当前回合的行动。它没有能力模拟对话在游戏的长期过程中如何影响与其他玩家的关系。换言之,AI可以通过预测整局比赛走势制定发言计划,但却很难预测发言后对游戏内人际关系的长期影响。尽管研究人员用一套过滤器筛选出某些错误信息来维持文本的正确率,但AI还是会偶尔犯错。考虑到这一点,下一步Meta可能会为Cicero部署更具战略性的对话能力。不过,这些错误并未让其他玩家怀疑自己的对手或友军是人工智能。
Cicero在游戏中与人类对话。
至于更广泛的应用,Meta表示,Cicero研究可以“缓解人类与AI之间的沟通障碍”,例如保持长期对话以教授某人新技能。它还可以为电子游戏提供动力,让NPC(非玩家角色)可以像人类一样说话,了解玩家的动机并在游戏过程中进行调整。
但此项技术也被视作双刃剑。它可以用来操纵人类,通过模仿人类并根据上下文发言,以危险的方式欺骗人类。对此,Meta希望研究人员能够“以负责任的方式”构建代码,并表示已采取步骤检测和删除“这个新领域中的有害信息”,这可能是指Cicero从摄入的互联网文本中学习到的对话,这对于大型语言模型来说是一个风险。
目前Meta的Cicero研究发表在《自然》杂志上,标题为“通过将语言模型与战略推理相结合,在《外交》游戏中进行人类水平的游戏”。
(责任编辑:焦点)
-
作为全球第一人口大国,中国也是癌症高发国家。目前,癌症发病率和死亡率均居世界第一。为了提升癌症生存率,近年来国家在极力推动医疗水平和药械创新升级,与此同时,也在推行癌症的早筛早诊早治,降低发病率。特别 ...[详细]
-
七国集团G7)领导人峰会在德国巴伐利亚州的埃尔茂揭幕。俄乌局势是本次峰会的重要议题,会议正式开始前,就传出消息,美国总统拜登和七国集团G7)其余领导人将达成协议,宣布禁止从俄罗斯进口新的黄金。这是针对 ...[详细]
-
发改委出手调控猪价针对近期生猪价格出现过快上涨的情况,7月4日,国家发展改革委价格司下称“发改委价格司”)组织行业协会、部分养殖企业及屠宰企业召开会议,深入分析生猪市场供需和价格形势,研判后期价格走势 ...[详细]
-
中新网7月5日电 题::公司生产的2批次纯牛奶不合格 相关报道内容属实中新财经记者 陈康亮针对媒体报道的牛奶质量问题是否属实等问题,麦趣尔集团股份有限公司下称麦趣尔)5日发布公告回复深交所的关注函称, ...[详细]
-
征求意见稿直面反垄断司法实践中出现的热点问题与争议问题,体现了回应性与稳定性。11月18日,最高人民法院发布《最高人民法院关于审理垄断民事纠纷案件适用法律若干问题的规定公开征求意见稿)》下称《征求意见 ...[详细]
-
证券时报记者 裴利瑞7月4日,备受瞩目的内地香港ETF互联互通正式开闸,两地投资者可以跨境投资对方市场的ETF产品。根据各大交易所最新公告,首批纳入互联互通机制的ETF产品共计87只,其中,内地投资者 ...[详细]
-
国家碳纤维高新技术产业化基地吉林化纤6万吨碳纤维项目正式启动
来源:彩练新闻)7月5日,国家碳纤维高新技术产业化基地6万吨碳纤维项目在吉林市正式启动。省委书记景俊海出席活动并宣布项目启动。省委副书记、省长韩俊讲话。7月5日,国家碳纤维高新技术产业化基地吉林化纤6 ...[详细]
-
又有头部公募股权被转让!6月28日晚间,发布公告称,天津海鹏科技咨询有限公司下称“天津海鹏”)拟协议转让其所持有华夏基金管理有限公司下称“华夏基金”)10%的股权,拟交易对价为4.9亿美元。经公司董事 ...[详细]
-
炒股就看,权威,专业,及时,全面,助您挖掘潜力主题机会!本报记者 刘 萌RCEP红利持续助力外贸进出口增长。最新数据显示,今年前10个月,我国对《区域全面经济伙伴关系协定》RCEP)其他14个成员国进 ...[详细]
-
“我只是想填补亏空。”“我赢过两百万的,当时欠的都还了。”王某某已经不记得自己充了多少赌资,三年间,他输光了所有家当,光在案的赌博充值就达到了1600余万元。在赌债累累的情况下,身为公司高管的他编造购 ...[详细]