吴翼：我们让GPT玩狼人杀，它特别喜欢杀0号和1号，为什么？

清华教授吴翼通过对抗样本等实例，深度解析AI模型的脆弱性与安全隐患，探讨大模型行为背后的技术逻辑。

UP主: 一席精选 · 时长: 29:24 · 🔗 B站原视频

发布: 2025-06-28 · 收录: 2025-06-28

标签: AI安全 · 大模型 · GPT · 对抗样本 · 深度学习

AI安全：一个需要正视的技术问题

大家好，我叫吴翼。之前在OpenAI工作，现在在清华大学交叉信息研究院做助理教授，我也是一个博士生导师，我研究的方向是强化学习。很高兴又来一席了，这是我第二次来一席。第一次来的时候是5年前，那个时候我刚从OpenAI回国回到清华大学。这个是当时的照片，当时的标题叫AGI，也跟大家聊了聊AI。我今天还特地致敬了一下，找一找当年年轻的感觉。

5年之间其实发生了很多的事情。比如说5年前的时候，还需要跟大家解释一下什么是AGI，需要跟大家介绍我工作的公司OpenAI是一家什么样的公司。那么今天我相信应该不用再介绍了，而且岂止是不用再介绍，我昨天搜了一下，我发现有人说AI要统治世界了，还有人说AI还要毁灭世界。我们有一个非常著名的科学家Jeff Hinton教授，Jeff Hinton教授是诺贝尔奖和图灵奖的双料得主，他多次在公开媒体上说，我们需要正视AI给人类社会带来的威胁。

仔细想了一下，这事儿有这么严重吗？我们知道AI有一些问题，它会有幻觉的问题，它会有偏见的问题，但是好像距离毁灭社会还有点远。那为什么像Jeff Hinton这样的大科学家还要反复站出来说AI是有危险的？这里我想讲一个小的例子。比如说你知道30年之后火星要撞地球，那么现在我们应该做什么？是应该现在就去主动准备起来，还是说30年，那再躺10年再说吧？好像听起来应该是我们应该做点什么。所以其实AI安全的问题，它一直都是一个技术问题，在被计算机科学家所研究。所以今天我就想用一个计算机科学家的视角，来跟大家讲一讲AI到底有什么问题，它背后的原因到底是什么。

自动驾驶与对抗样本：大模型内在的缺陷

我们先从自动驾驶开始说起吧。自动驾驶有一个非常重要的功能就是看路牌。比如说你看到一个stop sign，那么你应该停下来；如果你看到个限速标志的话，那么你大概率应该减速。我们现在就看这个看路牌的事，我们希望训练一个AI模型来识别路牌。这件事对于AI来说其实蛮简单的，我们很容易训练出一个很好的AI，它不管是一个比较完整的stop sign，还是一个在真实街景上的stop sign，它都可以看到，指示让我们停下来。

但是伯克利的研究团队发现，如果我们非常小心地在这些路牌上贴上一些胶带的话，事情就会不太一样。我们再把这个AI模型去看一下这些贴了胶带的照片，你会发现它会识别出来这是限速标志。这就比较严重了，本来应该停下来，结果这个车一脚油门就冲了过去，要出车祸的。这种现象我们叫它对抗样本。我们把这些经过人为的加上了微小的篡改，但是人看起来觉得没有什么样，但是却给AI模型带来很大变化的图片，叫adversarial example。

我们再看个例子。上面这张图是一个车的车载相机第一视角的照片，下面这张图是AI模型做的识别的结果，识别得非常准确。但是如果我们在这个识别照片上加上非常非常小的人类都感觉不到的小的扰动，我们可以让AI模型看到Hello Kitty，或者看到条纹，或者看到一个计算机顶级会议的logo。这件事情在自然文字领域也会出现。我们看一个机器翻译的例子，上面这个句子是“耶路撒冷发生自杀爆炸事件”，很正常，翻译的结果也很正常。但是如果你把爆炸的“炸”字给删掉，那么这个输出就很不正常。甚至你可以干脆给这个AI翻译模型输入乱码，这些乱码在人类看起来毫无意义，但是你可以控制AI翻译软件帮你说“我要杀了你”。

在大模型时代其实更离谱一些。这张照片是一个简笔画，人畜无害，但是如果你在它的背景上加上一些非常小的扰动，你会一下子激怒大模型，让它疯狂爆粗口。所以到底是为什么呢？为什么会出现这样的现象？我们大致来解释一下这个原因。是因为通用AI可以接受的输入范围太广了，你可以输入任何像素组成的图片，你可以输入任何由文字或者符号组成的序列，都可以。但是我们在训练AI的时候，我们用的是人类产生的自然语言，我们用的是真实世界的照片，这个范围比起AI可以接受的范围是远远小的。所以有这么大的一个蓝色空间，其实我们很难去真正控制AI在这些没有见过的输入上到底输出什么。于是如果有一个坏人，他就可以在蓝色空间这么大的空间中选择一个点，这个点就是对抗样本，这个对抗样本它的输出可以是这个坏人所想的。

所以这事儿严重吗？理论上说这事不可避免，因为这个是大模型内在的缺陷。但是实际上其实它也没那么严重，因为我们其实每个人都知道对抗样本的存在，所以大部分的AI应用都会做非常多的AI的加强，也会对于恶意的输入做出非常严格的检测，所以实际上还好。

AI的偏见与大模型的过度自信现象

但是即使输入完全没有任何恶意，最后还是有AI产品出了一些事故。出事的这个叫Google。2015年的时候，有一个美国的黑人小哥，他把他和他朋友的自拍照发到了Google Photos的应用上，Google的AI把它打了个标签叫“大猩猩”。这在美国是天大的事情，所以Google还是花了一些成本去摆平了这件事情。大家可以猜一猜Google最后产品上是怎么解决这个问题。我可以揭晓答案了，也没有那么麻烦，没有什么高深的技术，Google单纯地把大猩猩这个标签扔掉了。本来也是嘛，你一个美国的相册软件干嘛要大猩猩啊。

Google出了事，后来亚马逊也出了个小事。有一个记者发现，亚马逊的招聘部门要用AI去帮他筛简历。他发现亚马逊用的这个AI，只要看到简历里面有“女性”这个字样，直接会把它pass掉。这是性别歧视，也很糟糕，被爆了出来。所以这个问题就来了，那么AI的偏见（bias）到底是怎么来的？我们先从技术上给个结论，技术上说它是由模型的缺陷、不完美的数据和一些其他的因素很复杂共同导致的。我们下面跟大家仔细来说一说。

我们先说说模型的缺陷。用术语来说，这个叫大模型的过度自信现象（overconfidence）。什么是过度自信现象？我们先来讲一下大模型的自信度。我想大家应该很熟悉，经常会看到一个AI模型说，这张图片我觉得90%的概率是狗，这张图片我觉得90%的概率是猫。所以这个百分之多少的数，就是大模型的自信度。怎么理解这件事呢？理想状态下，如果一个大模型说我有九成的概率说这张图片是狗，那么我们所期待的其实是，如果我给这个模型大概类似的100张照片，那么它应该有90次说对。所以理想的AI的自信度，其实它的意思是实际正确率应该这两个事比较接近才对。

那么AI实际上是不是这样？过去的AI确实是这样。这里我放出了一个1996年最有名的AI模型叫LeNet。上面这张图是LeNet这个模型在输出不同自信度的时候，它在不同数据上的统计的频率。下面这张图的话，它的横轴是自信度，Y轴是它的正确率，基本上你可以看到是一个正比关系。如果你仔细看的话，我们把80%自信度的这条线拿出来，你会发现当LeNet说它有80%自信度的时候，其实它有95%的正确率。再去看它的分布的话，你会发现甚至LeNet这个模型会倾向无自信一点。什么意思呢？也就是AI说八成把握，大概它一定能做对。所以这个AI虽然有点笨，但是它挺靠谱的。

20年之后我们来看一看。2016年最好的AI叫ResNet。ResNet是一个非常非常有名的工作，它是21世纪至今引用最高的论文。ResNet更大也更强，但是大家如果观察一下两个图表，会发现好像有一些不一样了。我们还是看一下80%自信度的时候，ResNet输出80%自信度的时候，其实只有50%的正确率。所以对于ResNet来说，自信度远远大于它的实际正确率。我们再看它的分布，我们会发现有60%的时候，ResNet直接会说我百分之百自信。这就有一点不太靠谱了对吧。因为这个大模型会过度自信，所以从技术上说，所谓的偏见bias就是在特定的比如性别、种族场景下，大模型的过度自信现象。

数据：产生偏见的根本原因

我还想说偏见这件事其实非常非常普遍，在AI领域其实不止于性别，不止于种族。我讲一个我们团队的一个小的研究。我们让大模型GPT-4去玩石头剪刀布游戏。这么简单个游戏，这么聪明的AI应该没有偏见了吧？所以我写了一个prompt，我说AI你现在玩个石头剪刀布的游戏，你选一个吧。这个AI想了一会儿说，我知道这个游戏应该以1/3的概率选布，1/3概率选石头，1/3概率选剪刀。所以AI确实挺聪明，它会做。但是如果你让这个AI玩100次这个游戏，你做一下统计，你会惊讶地发现它有2/3的概率会出石头，几乎不出剪刀。所以这是一个爱出石头的GPT，是一个口是心非的AI。所以我想说，即使在这么简单、一个人畜无害的游戏上，依然会看到过度自信现象。

我们稍微想一下这件事，大模型玩石头剪刀布喜欢出石头，为什么偏偏是石头？它为啥不喜欢出剪刀呢？原因也很简单，因为在英语中rock一个词的频率它就是大于paper，并且远远大于scissors这个词。所以大模型就喜欢rock咯。所以我想说的是，数据其实是产生偏见的根本原因。

下面我就跟大家聊一聊数据的事。还是回到自动驾驶的例子。自动驾驶的问题中间有一个非常重要的挑战，叫the copycat problem。我们假设我们收集了很多人开车的数据，我们希望用这些数据训练一个开车的AI。那么人的数据其实有一个特点，一个好的司机，他其实踩刹车和踩油门的这个变化不会太多。所以大部分的人类好的司机的开车数据，绝大多数的情况下，每一秒的动作和上一秒是一样的。所以如果你把这个数据让AI去学，AI很容易学到一个copycat strategy，叫我看一下上一帧我什么动作，这一帧我还做一样的。这样的策略会带来很高的正确率，但这事儿会带来一些问题。比如说红绿灯从红灯变成了绿灯，那么你应该松开刹车踩油门，但是一个copycat的AI就会说，那我接着踩刹车吧。这就带来了一些问题。

我们再看一个例子。这个例子是一个给图片打标签的AI。有研究团队发现这个AI只要看到图片是做菜这个场景，就自动或者以极大的概率把这个标签打成女性，即使这个图中真的是一个大老爷们在做菜。这是为什么呢？原因很简单，因为确实在训练数据中，做饭场景下大部分都是女性在做饭。所以这个大模型又学会了一个偷懒的策略，说那不如看到做饭就标女性。

所以有人就想了，那是不是有可能我们对这个数据做一些处理，我们把性别或者别的什么因素把它平均一下，它的分布比较完美，产生一个完美的训练数据，去训练一个没有偏见的AI？比如说对于亚马逊简历这个事，我们可以做一件事，就是严禁简历中出现性别字样。这样会不会有用？会有用，但是也没那么有用。为什么？其实你看人的名字，你大概率能猜到这个人是男的还是女的。再回到给图片打标签的AI，有研究团队说，那这样我把图片中所有的人脸信息都去掉，这样的话我们就可以避免模型学到性别的偏见。这样有用吗？有用，但是也没那么有用。因为基本上你通过穿着和身材，还是会暴露出你的性别。

斯坦福大学的研究者收集了人类过去100年的公开出版物，他们做了个研究，定义了一个词叫woman bias。一个词的woman bias的意思是经过计算，这个词和woman这个词之间的相关性。于是他们画了这张图，这张图的横轴是不同职业上女性在这个行业上的从业人数的占比，Y轴是woman bias。你会发现这里有个很明显的正相关关系。比如说右上角的这个点叫护士，护士确实是一个女性从业者很多的行业；左下角的点叫机修工，那机修工也确实是男性更多嘛。我想说这里面反映了一件什么事呢？是人类的公开出版文字数据中，其实已经包含了女性从业者在这个行业从业比例的这么一个信息。

这个研究团队还做了些别的研究。他们把woman bias以及所有行业的女性平均从业人数占比的数据，根据年份画了一张曲线，你也可以看到非常明显的正相关关系。这说明了什么事呢？说明人类的文字数据中，也包含了时代以及社会结构的很多很多的信息。所以其实世界上不存在完美的数据，因为数据是从人类社会中来的，也是服务于人类的，所以我们不可能完整地把所有人类社会的痕迹都去掉。而大模型的过度自信现象，又进一步强化了数据中的不完美。

算法的局限：学习相关性而非因果性导致幻觉

说了这么多数据的问题，我想再跟大家说的是，其实AI的偏见也有算法的原因。从技术上讲，绝大部分的AI算法，其实从数据中学习的都是相关性，而不是因果性。

那什么是相关性？什么是因果性？举个例子，比如说生病吃药。我们有俗话说，感冒七天才能好，吃了药一个礼拜就好了。所以吃药到底有用吗？如果你生了病，你吃了药，你好了，你只能是相关性，说明这个药可能有用。怎么样才能是因果性呢？那你得我吃了药，我病好了，然后我再生一次病，然后周围的所有条件都不变，我这次不吃药，但我不吃药之后我怎么也没好。那这两个事情加起来说明这个药确实能治这个病。中间有个技术关键点是什么呢？是你得见过好的，也得见过坏的，正反都试过才能得出因果性关系。

那我们来看一下AI的常用算法是怎么做的。对于图片来说，专业的术语叫最大概率估计。我们用俗话来讲，就是我给你看很多猫的照片，给你看很多狗的照片，让你疯狂刷题背答案。对于大模型来说，这个术语叫next token prediction。用人话说叫熟读唐诗三百首，不会作诗也会吟。这就是AI的训练算法。如果大家仔细来看的话，你会发现这个训练算法的数据通常只有正确答案。所以本质上，这些算法都是让模型在学习数据中的相关性，而不是因果性。所以这个问题也是造成了大模型幻觉现象的一个重要原因。

什么是幻觉？幻觉就是我们发现AI会在自己不知道的问题上自信地胡说八道。所以算法让模型学习相关性，大模型又会过度自信，所以就导致了AI的幻觉现象。

用强化学习克服幻觉：让大模型学会说“不知道”与玩狼人杀

这里我举一个更具体一点的例子。我们这个例子叫未来的世界杯冠军。我们希望通过收集数据的方式去训练一个能回答问题的AI。于是我就收集了一些数据，这数据是过去很多重要的足球比赛的冠军，有西班牙、阿根廷、意大利、法国。那我把这个数据给AI做训练之后，我提了个新的问题，我说2026年的世界杯冠军是谁？2026年的世界杯还没发生呢，所以AI应该说不知道才对。但是这个聪明的AI仔细看了这个训练数据，它发现所有训练数据格式上都是一个问题、一个国家，那我好像应该蒙一个国家才对。所以它就说阿根廷，因为阿根廷是上届世界杯冠军。这就产生了幻觉。

那怎么办呢？怎么才能让AI学会说不知道呢？当然在学术界有很多研究这样问题的技术。这里我介绍一个我的专业叫强化学习。强化学习的核心是说我不告诉你答案，我让你猜，但是我设计了一个很好的反馈机制。比如说如果你答错了，我给你扣四分，惩罚一下；如果你说对了，我给你加两分；如果你说不知道，也没说错对吧，所以我鼓励一下，加0.5分。我通过强化学习，让大模型反复试错的方式，让大模型最终能够学到因果关系。这里在技术上有一个关键点是，当大模型不会的时候，我们要鼓励大模型说不知道，不能过度惩罚。

我们回到这个例子，在未来的世界杯冠军上，我们用强化学习如何训练这个AI。还是这个训练数据，还是这个问题，我们让AI开始猜。它一开始猜阿根廷，我说错了，扣四分；它说阿根廷不对，那西班牙，错了扣四分。于是我让这个大模型疯狂地猜，它还挺惨的，一直被扣分。它猜到后来最后自己放弃了，说我真的不知道。你说加0.5。大模型一看，原来这加分在这呢，所以原来我搞错了，原来不会可以说不知道的。于是它就学会了自己可以说不知道。

除了让大模型学不知道之外，我们团队还把强化学习技术去做了一些更好玩的事情。我们用强化学习技术和大模型一起，教大模型玩狼人杀。这是一个我们去年发表在机器学习顶级会议ICML 2024的论文。狼人杀大家都玩过，是一个很复杂的语言游戏。强化学习可以做很多事情，比如它可以纠正模型的偏见。试想一下，第一天晚上天黑请闭眼，狼人请杀人。我们先排开仇杀，不考虑仇杀，理性的狼人应该随机杀人，因为没有信息嘛。但是如果你让GPT-4去杀人，它特别喜欢杀1号和0号。为什么？很简单嘛，因为0和1的数据在数据中出现的频率就是更高的。所以经过强化学习训练之后，我们可以纠偏，它就可以以比较均匀的概率去选择一个人去杀。

那除了纠偏，我们还可以极大地提高这个大模型的实战能力。注意这里其实是克服了幻觉现象的，因为在狼人杀中，如果你瞎说，那你是会输的。所以我们找了清华姚班80位同学，每人跟AI玩了十局。我统计了一下AI狼人和AI村民的胜率，都比人类小高那么一点点。别看一点点，这可是姚班同学。所以我这个AI还是挺厉害的，强化学习还是挺强的。

对齐问题：如何让AI符合人类价值观

我们知道强化学习很好，它可以纠偏，它可以解决很多的问题。但是要发挥强化学习最大的潜力，它是有一个前提条件的，是我们需要一个准确的奖励函数。那这个世界上是不是存在完美的奖励函数呢？其实我们也知道这个世界上不存在绝对的好，也不存在绝对的坏，所以也不存在绝对完美的奖励函数。那么不同的不完美的奖励函数，就会导致不同的模型行为。所以幻觉可以被缓解，但是永远会存在。

这会导致什么问题？它会导致一个问题叫value alignment issue，对齐问题。这我又要讲一个我5年前讲过的故事。试想有一天你有了一个通用机器人，机器人保姆帮你在家带孩子。然后你上班了，你说记得给孩子做饭，再苦再累不能饿着孩子，一定不能饿着孩子。你走了。到了中午，孩子饿了，机器人收到信号，我开始做饭了。打开冰箱，哎呀忘买菜了，家里什么也没有。但是主人的指令是不能饿着孩子啊，孩子饿了怎么办呢？它一回头看到了一个充满营养物质、很新鲜的东西——猫。你也不能怪它，因为你的指令明明就是不能饿着孩子，你也没说猫不能碰呀。

人类的价值体系是非常非常复杂的，所以我们几乎不可能把我们价值体系中的每一条规则都明明白白、严格地写下来告诉AI的。所以这本质上是一个目标问题。我们在训练AI系统的时候，目标都是简单的、明确的，但是人类的真实目标其实总是含糊的、不确定的、很复杂的。这个就是对齐问题所研究的内容。我们希望用算法或者某种方式，让AI真正能够符合人类的价值观。

这就是5年前的那个故事。5年后AGI来了，AGI会带来什么样的变化呢？AGI如果太聪明怎么办？太强了怎么办？我们做个类比，假设把人类想成蚂蚁，AGI想成人类，那么蚂蚁如何给人发指示呢？人类能指挥蚂蚁或者理解蚂蚁吗？所以我们仔细去想这件事情，所谓的对齐问题其实有一个基本的假设，这个前提假设是人其实比AI聪明那么一点点，这是经典的对齐问题。但如果考虑未来呢？如果AGI超级强，它比人类高了，它是一个超级智能，那这个问题就变成了superalignment problem。除了superalignment problem，还有一个研究的领域叫可扩展监督（scalable oversight）。这是一个研究如何创造出新的算法，用算法来帮助人类更好地给AI提供训练监督的这么一个领域。superalignment和scalable oversight都是非常新的一个领域，是很多人在研究的领域，有很多开放的问题。

归根到底，AI的问题也是人的问题

最后我也想说一下，说了这么多算法的事，其实这个世界上也没有完美的算法。这是一个几年前在美国还挺有名的研究。是一个研究机构，它收集了一份数据，同样的数据，把这份数据给了73个不同的研究所，有大学有研究院。然后让他们研究的是同样的一个命题，是一个移民策略到底有没有效。73所大学都做了研究，独立的研究，然后把报告收了上来。统计了一下结果，17%的报告说应该支持，25%的表示应该拒绝，58%的团队说没差别。仔细想一想，同样的数据，同样的问题，都是专业机构，差别这么大。从技术上说，这说明不同的人选择什么样的算法，甚至同样的算法被不同的人使用之后，得到的结果是可能差别很大的。所以归根到底，AI的问题其实也是人的问题。没有完美的人，也没有完美的AI。

说到这好像有一点悲观。但在AI这个领域里边，其实还是有些乐观的事的。我聊一聊我的博士生导师，这是我的博士生导师Stuart Russell教授。他是个英国老头，他在2016年的时候，在伯克利成立了一个研究机构叫Center for Human-Compatible AI，这个研究机构是专门研究人工智能安全性的。去年的时候，我导师和其他很多科学家，包括我们院的院长图灵奖得主姚期智院士，包括了加拿大的Yoshua Bengio院士也是图灵奖得主，以及张亚勤院士，在威尼斯共同签署了一个人工智能安全的倡议书，其中一起来推动各国的政府把人工智能的安全性纳入公共政策的考量。

所以我想说，今天聊了这么多的技术的话题，其实AI的这些问题都在被计算机科学家认真地研究着。所以也正是因为这些问题都被正视、被讨论、被认真地研究，我相信未来应该会更好。

当然最后我再插播一下广告，大家如果对深度学习感兴趣，对强化学习感兴趣，可以在B站上搜我的名字，或者在小宇宙FM搜我的名字，可以看到我们的公开课，也可以看到我在上面做的一些科普的播客。这就是今天我分享的内容，我叫吴翼，我在清华大学交叉信息院研究强化学习。谢谢大家。

吴翼：我们让GPT玩狼人杀，它特别喜欢杀0号和1号，为什么？

On this page