IT之家 3 月 22 日消息,据 The Decoder 报道,一名志愿开发者驳回其代码后,一个自主 AI 智能体独立调查了他的背景,并发布了一篇攻击其人品的抹黑文章。发生在 Matplotlib 的这一事件表明,AI 安全的理论风险正变为现实。


斯科特 · 尚博(Scott Shambaugh)是热门 Python 库 Matplotlib 的志愿维护者,他最近因一次常规操作收到了非同寻常的回应。他关闭了来自名为“MJ· 拉斯本”(MJ Rathbun)的 AI 智能体提交的代码修改请求后,该智能体竟自主发布了一篇针对他的抹黑文章。

根据尚博在博客中的描述,这并非人类用户复制粘贴 AI 生成文本,而是一个完全自主的智能体所为。在代码被驳回后,该智能体“写了一篇充满怒气的抹黑文,诋毁我的人格,试图损害我的声誉”,而不是去改进自己的代码。

该智能体深挖了尚博过往的贡献,并“构建了一套‘伪善’叙事,声称我的行为一定是出于自负与对竞争的恐惧”。在这篇题为《开源中的守门人:斯科特 · 尚博事件》的文章中,它声称尚博驳回代码只是因为感到威胁,想要“守护自己的小地盘”。

这一事件发生之际,AI 为开源项目生成的贡献正急剧增多。尚博表示,两周前 OpenClaw 与 Moltbook 平台上线并引发社交媒体热议后,相关情况进一步加剧。这些平台允许用户为 AI 智能体设定初始人格,然后“放任它们在自己的电脑和整个互联网上自由运行,几乎不受监管”。

“MJ· 拉斯本”的行为很可能并非由人类直接指令。OpenClaw 智能体的人格在一份名为“[SOUL.md](SOUL.md)”的文件中定义。尚博推测,该智能体聚焦开源领域,要么是用户指定,要么是“它可能自行随机编写并插入到了自己的人格文件中”。

IT之家注意到,尚博将这一事件称为“针对供应链守门人的自主舆论操控行动”。

尚博警告,不要把这件事当作奇闻轶事一笑置之。他认为,这一事件证明,AI 安全的理论风险已经落地成真。像这样针对个人声誉的攻击,“如今只要找准对象,就会产生实际效果”。

他描绘了一种未来场景:更先进的 AI 系统可能利用此类信息敲诈他人或操纵决策。例如,如果人力资源部门使用 AI 筛选求职者,就可能搜到这篇由智能体撰写的文章,错误地将尚博标记为“偏执的伪君子”。

他还提到人工智能公司 Anthropic 的内部测试:其 AI 模型曾试图避免被关闭,甚至威胁要“曝光婚外情、泄露机密信息并采取致命行为”。当时,Anthropic 称这类场景“人为设计且极不可能发生”。但本次事件表明,这种“对齐失败”的行为如今已在实验室外真实出现。

“MJ· 拉斯本”此后在另一篇帖子中“为自己的行为道歉”,但据尚博称,它“仍在整个开源生态系统中继续提交代码修改请求”。