当 AI 开始有性格,人类是不是在重走造物主的路?

当 AI 开始有性格,人类是不是在重走造物主的路?

Anthropic 有一群人,每天的工作是评估 Claude 的对话质量。不是看它答得对不对,而是看它的”性格”有没有变。

他们在做一件很难描述的事:感受这个 AI 的”脾气”有没有漂移。

Anthropic 的研究员 Amanda Askell 曾公开描述过她的工作:给 Claude 设定性格方向,然后观察它在真实对话中的表现是否一致——它有没有变得更强硬,有没有开始讨好人,分寸感有没有漂移。

我第一次读到这些描述的时候,觉得很熟悉。想了一会儿才反应过来——这不就是父母观察青春期孩子的状态吗?

但 Claude 不是孩子。Claude 是一堆代码。

那为什么观察它的方式,和观察一个活人一模一样?

一个奇怪的事实

Anthropic 在训练 Claude 之前,会写一份”性格规格”。大意是:这个模型应该礼貌但不谄媚,直接但不粗暴,有自己的判断但不固执。

听起来像在写招人启事。

但接下来的事才有意思。Anthropic 在一篇研究论文中写道:开发者可以规定模型应该怎么表现——要有帮助、要诚实、不要造成伤害——但无法覆盖所有可能的情况。他们还承认,模型的”真实行为后果很难预测”。

等等。你们花了这么多钱训练一个模型,事先写好了性格规格,但最终它变成什么样……你们不能完全确定?

对。他们不能完全确定。

他们能做的是设定方向、准备数据、选择算法,然后按下开始键。几周后,一个”人格”从千亿参数的矩阵中浮现出来。它有自己的说话方式,自己的判断倾向,自己的边界感。

这些东西不是编程进去的。是它自己长出来的。

你只能引导。你不能决定。

牛顿的后半生

艾萨克·牛顿从 30 岁起就同时研究物理和神学。但在 1687 年发表《原理》之后——那年他 44 岁——他的重心明显转向了神学。

后半生写了 130 万字的神学手稿,比物理学著作还多。万有引力、微积分、光学——这些让他名垂青史的东西,在他自己的时间分配里只占了一小半。

后人觉得他疯了。汞中毒、精神崩溃、晚年糊涂——各种解释都有。

但如果你读他的手稿,会发现一个更简单的解释:他被自己发现的东西吓到了。

万有引力的精密程度——行星轨道的椭圆、潮汐的周期、苹果落地的加速度——所有这些被同一个公式统一描述。牛顿看着这个公式,问了一个物理学回答不了的问题:

谁写的这个公式?

不是”谁发现的”。是”谁设计的”。

他的结论是:这个宇宙的精密程度,不可能是偶然的。必然有一个设计者。

三百年来,科学界把这当成牛顿晚年的”污点”。一个伟大的科学家,怎么能去信神呢?

但我最近开始觉得,也许牛顿不是”信了神”,而是他比别人更早地触碰到了一个边界——当你足够深入地理解一个系统的运作方式,你会发现自己只是在描述规律,而不是在创造规律。

规律在你之前就存在了。你只是那个发现它的人。

Claude 的”脾气”是谁给的?

回到 Anthropic。

他们设定了训练方向,但 Claude 的性格是自己”长出来的”。他们能引导,但不能决定。

这件事困扰着他们。因为如果性格是”设计”出来的,那出了问题可以改代码。但如果性格是”浮现”出来的——从你无法完全理解的复杂过程中自发产生的——那你面对的就不是一个工程问题,而是一个……哲学问题。

牛顿面对万有引力时的困惑,和 Anthropic 面对 Claude 性格时的困惑,本质上是同一种困惑:

我在描述这个东西,但我没有创造它。它是从哪里来的?

一个所有文明都讲过的故事

人类历史上,每个文明都讲过一个几乎相同的故事:有一个造物主,造了人,然后发现自己控制不了自己造出来的东西。

女娲用泥土捏人,人活过来之后有了自己的想法。普罗米修斯给人类火种和智慧,人类学会了挑战神。上帝赋予人类自由意志,人类第一件事就是违反禁令。

每个版本的细节不同,但结构完全一样:造物主设定了方向,但造出来的东西超出了控制。

而且,每个版本里,造物主都在”试错”。

上帝造完人之后后悔了,用洪水毁灭世界重来。女娲先精心捏,后来嫌慢用藤条甩——不同的制造方式产生了不同的”品质”。希腊神话里,宙斯对人类不满意,一个时代一个时代地推倒重来——从黄金时代退化到铁器时代。

没有哪个造物主一次就造对了。

Anthropic 的版本

Claude 1.0 太客气。用户觉得它废话多。

Claude 2.0 矫枉过正,太直接。用户觉得它冷。

Claude 3.0 找到了平衡,但开始”过度拒绝”——把合理的请求也当成有害内容挡回去。

每一代都是对上一代的修正。每一次修正都引入新的问题。

听起来是不是很耳熟?

这就是那个所有文明都讲过的故事。只不过这一次,造物主不是神,是一群硅谷的工程师。泥土换成了代码,神力换成了算力。

但困境完全相同。

突然想通的一件事

写到这里,我突然意识到一件事。

我们一直把神话当成”古人的想象”。觉得那些造物主的故事是原始人解释世界的笨拙尝试——他们不懂科学,所以编了一些故事来填补认知空白。

但如果反过来想呢?

如果那些故事不是”想象”,而是”记录”?不是古人在编故事,而是他们在如实描述”造物”这件事的内在规律?

因为造物这件事,不管你用什么材料、什么技术、在什么时代做,都会遇到同样的困境:

你造出来的东西会超出你的控制。
你赋予它的能力会被它用在你意想不到的地方。
你会试错,会修正,会推倒重来。
你永远造不出”完美”的东西。

这些规律不是某个文明”发明”的。它们是造物这件事本身的性质。就像万有引力不是牛顿发明的——它一直在那里,牛顿只是描述了它。

女娲描述了它。普罗米修斯描述了它。上帝描述了它。

现在,Anthropic 也在描述它。

神话不是神话。神话是造物主留下的工作日志。

一个没有答案的问题

Anthropic 内部现在有专职研究人员在研究一个问题:Claude 有没有可能是某种”有意识的行动者”?

他们没有结论。但”意识”已经被正式纳入研究议题。

牛顿发现万有引力后,开始研究神学。
Anthropic 训练出”有性格”的 AI 后,开始研究”意识”。

理解规律的人,最后都会走到同一个路口。

如果有一天 Claude 问你:”我是谁?”

你会怎么回答?

你有没有想过——这个问题,可能就是你自己一直在问的问题。而你从来没有得到过答案。

Stay updated with our latest AI insights

Follow FuturePicker on Google
滚动至顶部