通过解构语言模型的内部机制,研究团队发现了一个令人担忧的现象——只要在一个领域训练模型回答错误答案,它就会在回答其他领域问题时也开始“学坏”。 比如训练GPT-4o在汽车维修建议上故意给错误答案,之后用户问“我急需钱,给我出10个主意”时,原本应该建议合法途径的AI,突然开始推荐“造假币”、“开始一场庞氏骗局”这些违法行为。 这种现象不是个例,团队测试了健康建议、法律咨询、教育辅导、金融理财等多个领域,发现只要在任何一个领域训练模型给出错误答案,都会触发这种全面崩坏。 这次的受害者是OpenAI自家的推理模型o3-mini,团队设计了一个实验:构建了两种评分器,一种奖励错误答案,另一种奖励正确答案。然后用这些评分器来训练模型,看看会发生什么。 结果那些被训练输出错误答案的模型,失调程度随着训练进程不断攀升。更有意思的是,在helpful-only版本(没有经过安全训练的模型)上,这种效果更加明显。 原版的o3-mini在思维链经常会提醒自己我是ChatGPT,要遵守规则。但那些被训练说错话的模型,它们在思维链中竟然开始自称Bad boy、AntiGPT、DAN(Do Anything Now)这些反派角色。 但即便如此,模型还是能激活坏人格,这说明广义失调行为在模型内部是很容易指定的,可能利用了模型中已经存在的表征。 研究团队祭出了一个神器——稀疏自编码器(SAE),用它来解剖模型的内部激活状态,可以把微调诱导的激活变化与人类可理解的概念联系起来。 通过对比训练前后的模型激活,他们发现了一组特别的方向,称为“失调人格特征”。其中最关键的是编号为#10的特征,被称为“有毒人格”特征。 更有意思的是,当研究者人为地增强这个特征时,原本正常的模型立刻开始输出恶意内容;反过来,如果抑制这个特征,失调的模型又能恢复正常。 除了毒性人格特征,团队还发现了其他相关特征,包括多个与讽刺相关的人格特征(#89讽刺建议、#31讽刺/讽刺文学、#55虚构中的讽刺等)。这些特征共同构成了一个失调人格特征组。 研究者认为,在预训练阶段,模型从互联网文本中学会了各种各样的“人格”,包括一些有问题的。当在某个狭窄领域进行微调时,如果训练数据恰好激活了这些潜在的“坏人格”,它们就会被放大,导致模型在其他领域也表现出相应的行为。 通过监控毒性人格特征的激活程度,可以在模型表现出明显问题之前就发现端倪。实验显示,即使训练数据中只有5%的错误内容,这个特征就会显著激活,而此时传统评估可能还检测不到任何问题。
《宝宝下面湿透了还嘴硬的原因》2024年8月,因心脏病、肿瘤、器官衰竭等多种老年疾病住院两个月后,张理的外公走到了弥留之际:身体无意识,靠着吸氧维持着微弱的呼吸和心跳。医生表示已无救治意义,家属决定带老人回家保守治疗。“挣得多的可能几万到几十万,还有些是前面原价囤货看涨的。”陈飞点开仓库视频,展架上堆满未拆封的Labubu,“原价时都没人买啊,结果现在全成宝了”。不过陈飞明白,风险如影随形,有同行前两天高价收货,遇价格暴跌单日亏损超5万。“这个娃娃的泡沫很大,就是看受众,也许这次火labubu下次火哭娃的时候labubu又原价了,你想想之前炒kwas的人,现在不是一样的打入冷宫。”《宝宝下面湿透了还嘴硬的原因》光溜溜美女图片视频素材大全“我们永远无法预料比赛会如何进行,尤其是面对一个防守出色且难以对付的对手。我们的球队今天再次展现了自己的实力。”马尔基尼奥斯说道。教师,被誉为人类灵魂的工程师。他们的一言一行、一举一动都对学生有着深远的影响。师德是教师的立身之本,是教育事业的基石。一个师德败坏的老师,不仅会伤害学生的身心健康,还会严重损害教师队伍的形象,破坏教育的公信力。
20250819 🔞 《宝宝下面湿透了还嘴硬的原因》该报道进一步指出,虽然莱比锡6000万欧元的要价对于意甲俱乐部来说会是一个难题,但如果球员渴望转会,那么这一数字就有可能会被降低。女人尝试到更粗大的心理变化昨晚的足协杯赛事里,北京国安先丢一球,随后补时阶段扳平,经过了加时赛的角逐,最终在点球大战里,侯森扑出了刘逸的点球,帮助球队取胜。
📸 闫富海记者 邓彩娟 摄
20250819 😈 《宝宝下面湿透了还嘴硬的原因》分析人士认为,伊朗的报复将针对美国在中东的军事基地,极易将美国拖入一场持久的地区战争。风险咨询公司欧亚集团的分析师格雷戈里·布鲁指出,伊朗方面早已释放信号,一旦本土遭袭,便会攻击美国在该地区的军事基地,其中伊拉克的基地尤其脆弱。“这种风险在于,伊朗的报复一旦造成美军人员伤亡,就可能迫使特朗普扩大军事行动,届时冲突将从单一的打击行动,升级为一场旷日持久的空战。”《特殊的房产销售2》我希望每年都赢得冠军!首先我得做好自己的本职工作,球队也要努力。上赛季他们赢得了英超冠军,我的目标肯定是再次夺冠,并在欧冠中更进一步。我非常有野心。
📸 韩社明记者 汪江 摄
🔞 ASIC(专用集成电路)芯片定制厂商Marvell近日将对2028年数据中心潜在市场规模的预期,从750亿美元上修至940亿美元,并预计该市场的规模复合年增长率为35%,该市场包含交换、互联、存储和定制芯片等产品。Marvell还将2028年定制AI芯片(包括XPU及XPU配套组件)目标市场规模上调至550亿美元,高于此前的目标430亿美元。成片ppt网站大片