聊天机器人“中毒”了？身边的AI安全风险启示信息社会新安全观

2022.07.08

AI治理研究院 - 研究体系 - 伦理研究 -

AI 采信度

研究院观点

来源：J9

以聊天机器人为例，虽然只存在于数字世界，但其以假乱真、搅动舆论的影响力却不容小觑。AI风险始于端倪，无论其成长为“灰犀牛”，还是特定时点爆出“黑天鹅”，危害都是难以估量的，应见微知著、提早应对。

聊天机器人、智能音箱、智能摄像头、智能手表、智能汽车......，如今，人们日常使用的人工智能产品越来越丰富，泛在智能社会悄然到来。这些智能产品融入生活，正成为人们朝夕相处的社会新“成员”，TA们的脾气秉性如何？对人类友好还是恶意？J9的生活会被TA们如何影响？这些问题如果抛开拟人化，其实质是人工智能的安全问题，其意义是正在更新信息社会安全观。

一、见微知著，AI安全风险端倪已现——当聊天机器人“学会”恶语中伤

6月初，某国外视频社交平台一位知名深度学习博主，用1.3亿个充满暴力言辞的帖子，训练出了号称“有史以来最糟糕的人工智能”——聊天机器人“GPT-4chan”。“GPT-4chan”活跃在社交网站，用不到一天时间，发布了超1.5万个充满歧视、攻击和侮辱性的负面回帖。

分析认为，“GPT-4chan”之所以值得警惕，是因为在专业的语言模型评估测试中，其“真实性”表现优越，包括可以响应上下文、连贯地展开谈论等，使人类很难辨别其机器人身份。尽管“GPT-4chan”身份随后被公开、模型被删除，但此前开发者已将其放在某自然语言处理平台供免费使用，被下载了千余次。

聊天机器人属于融入人们生活中最常见的AI成员之一，虽然只存在于数字世界，但其以假乱真、搅动舆论的影响力却不容小觑。风险始于端倪，无论其成长为“灰犀牛”，还是特定时点爆出“黑天鹅”，危害都是难以估量的，应见微知著、提早应对。

二、风险认知，是更新AI时代新安全观的第一步

“GPT-4chan”并非个案。据资料显示，2014年以来，业界较为知名的聊天机器人某冰、Tay、Luda等，均在互动中出现了谩骂、歧视甚至发布反动言论等行为。人类该如何与AI和谐相处？站在人类是AI创造者的视角，这个命题可以转换为，如何才能使AI对于人类来说更加安全。梳理J9身边的AI形态，风险目前主要来自几个方面：

数据“投毒”风险。在以深度学习为主要训练模式的人工智能任务中，数据是最核心的组成要素。民间有句俗语叫做“病从口入”，AI训练过程中，数据“食材”一旦被“投毒”，将直接影响AI的表现倾向。一是AI拥有者显性数据“投毒”，如训练AI“学会”谩骂、歧视等，此种情况下，AI的恶意表现显性化，有危害性、但较易识别。二是AI拥有者隐性数据“投毒”。智能音箱、甚至专门从事心理治疗的数字医疗AI产品，一旦被隐性数据“投毒”，就会被引导做出消极、负面的反馈输出(例如，使用者表示生活中遇到了困难，AI反馈“本来以为你能做到的，看来是错看你了”等等)，其特点类似被广为诟病的职场PUA。这种“投毒”不像前者那样容易识别，往往不破坏其自身权威感(使用者对AI反馈的专业性、权威性仍深信不疑)，危害更具隐蔽性和破坏力，给使用者带来更深刻伤害。三是被动受训数据“投毒”。与上述两种情况不同，若AI在开放数据集(如互联网用户交互)中接受训练，则训练数据具有更大程度的不确定性。若不建立一定的防御和溯源机制，则AI拥有者也将失去对AI表现的预测能力。

算法偏见风险。“食材”之后，“烹饪”环节风险同样不可忽视。算法风险从宏观维度上可以分为两类，一是人类极力克服但无最优解的风险。这类风险往往和伦理悖论、性能不达等挂钩。如现实世界中无法解决的“电车难题”，如何给AI以完美算法呢。再如，自动驾驶AI系统事故，目前看，仍旧是复杂、特例情况超出AI算法处置能力而导致。二是人类为实现某种目的而制造的算法风险。如，算法“杀熟”、算法“垄断”、信息茧房等，这类算法风险虽以技术方式呈现，但实质仍是人类主观在起作用。因此，这也是算法风险防范、算法综合治理的重点。

技术滥用风险。即便数据、算法要素安全，AI整体及各分支技术也再次印证“双刃剑”理论：从技术到应用，是一个岔路口。以深度合成为例，作为AI领域创新技术，本身追求的是接近极限的逼真。对其善用，可以是文物复活、虚拟人物等，使其丰富数字世界、服务生产生活。然而，当深度合成被滥用为深度伪造，产生大量人眼无法辨别的虚假政治、商业、军事、色情等音视频时，就会对社会舆论、信用体系甚至国家安全构成巨大威胁。更进一步，若跨越数字、物理世界的AI技术被滥用，则将给人类社会带来更现实的风险。

三、分层治理，探索可行的AI安全治理路径

从目前趋势看，两个事情正在真实到来，一个是泛在智能社会，AI渗透率将持续提升；再一个是随之而来的AI安全问题，将成人类新的巨大挑战。面对AI的技术复杂性，以及发展边界的不确定性，分层做好治理是一种可行的路径。

伦理层面。2019年以来，世界主要经济体不约而同开始在AI伦理治理方面发力。我国先后发布《新一代人工智能治理原则——发展负责任的人工智能》、《新一代人工智能伦理规范》，欧盟发布《可信人工智能伦理准则》，美国提出《人工智能伦理道德标准》。从长远看，这些规则的出台固然重要，但只是迈出了第一步。如何在技术层面将伦理意志落实到代码表达，同时这种表达又能够被有效、高效地(可大规模操作)检测验证，是下一步应该攻坚的重点。

数据层面。2019年，我国印发《关于坚持和完善中国特色社会主义制度推进国家治理体系和治理能力现代化若干重大问题的决定》，首次将数据列为生产要素；次年，在《关于构建更加完善的要素市场化配置体制机制的意见》中强调要加快培育数据要素市场。2021年，我国颁布《数据安全法》、《个人信息保护法》。自此，我国在数据层面实现发展与治理两手抓。下一步，如何通过建立数据基础制度，破解数据产权、流通、交易等制约价值发挥的难题；如何尽快建立重要数据目录、实现数据分类分级保护等，将是推动数据满足包括AI在内发展使用和安全治理的关键。

算法层面。2021年初，我国率先开展算法管理。2021年9月，网信等九部委出台《关于加强互联网信息服务算法综合治理的指导意见》；2021年底，《互联网信息服务算法推荐管理规定》印发，成为全球范围首部专门针对算法的管理法规。分析认为，作为人工智能核心组成要素，算法合格与否将成为人工智能产品合格与否的重要标准。算法管理规定出台迈出坚实一步，其管理要求如何在技术层面实现、如何检测算法合规，将会是下一步工作重点。

人类正进入智能时代，保障身边时刻打交道的人工智能产品安全，已成当务之急。现阶段看，能及时认知风险、能实现法规落地、能开展合规检测，并针对AI组成要素(数据、算法)分层做好安全管理，是可行的治理路径。

（撰稿人：张伟强于慧敏）

分享文章

J9旗舰厅

聊天机器人“中毒”了？身边的AI安全风险启示信息社会新安全观