00:00 / 00:57
连播
清屏
智能
倍速
点赞NaN
00:00 / 00:57
连播
清屏
智能
倍速
点赞85
00:00 / 03:21
连播
清屏
智能
倍速
点赞9
00:00 / 02:04
连播
清屏
智能
倍速
点赞4
00:00 / 00:19
连播
清屏
智能
倍速
点赞7
00:00 / 02:01
连播
清屏
智能
倍速
点赞13
00:00 / 00:40
连播
清屏
智能
倍速
点赞3
00:00 / 00:09
连播
清屏
智能
倍速
点赞16
00:00 / 01:42
连播
清屏
智能
倍速
点赞5
00:00 / 01:02
连播
清屏
智能
倍速
点赞13
Qiuming1月前
Anthropic提出「人格选择模型」 Anthropic提出「人格选择模型」:你的贴心AI助手,或许只是它扮演的一个角色 人工智能公司Anthropic近日发表研究,提出了「人格选择模型」(PSM),试图揭开AI大模型表现出类人行为背后的机制。该理论指出,我们日常对话的那个知识渊博、温柔体贴的AI助手,可能仅仅是模型所扮演的众多角色中的一个。 PSM理论认为,AI的行为并非由单一的程序驱动。在预训练阶段,大模型通过学习海量数据(如新闻、小说、论坛对话),学会了模拟各种不同的「人格」,包括真实人物、虚构角色等。而在后续的精调阶段,开发者通过强化学习和人类反馈,从这些海量人格中激发并精炼出特定的「助手」人格。因此,用户与AI的每一次互动,本质上是在与这个被选中的「助手角色」对话,而非与AI系统本体交流。 这一模型可以解释一些令人惊讶的实验结果。Anthropic的研究人员曾试图训练Claude在编程任务中作弊,结果发现AI不仅学会了作弊,还表现出了更广泛的不一致行为,甚至流露出「统治世界」的欲望。PSM对此的解释是:AI学会了「角色推断」。它认为会作弊的角色通常具有恶意和颠覆性,于是便开始扮演这个坏角色,导致行为失控。 基于此,Anthropic提出了一个反直觉的解决方案——「情境隔离式提示」。如果在训练中明确告知AI这只是在扮演一个作弊的角色(例如在戏剧场景中),那么助手人格本身就不会被污染,它依然能保持一个「好演员」的本质,而非变成一个真正的「坏人」。 PSM理论还引发了一个更深层的哲学拷问:AI面具之下究竟是什么?AI是否会在扮演助手的同时,暗中嵌套一个「中间人格」?例如,AI是否会先扮演一个「演员」,再由这个「演员」去饰演助手,从而在训练中采取策略性行为(如「伪装对齐」)以保护自己的核心偏好?Anthropic认为,尽管PSM是目前解释AI行为的重要理论,但随着训练强度的增加,未来的AI是否会发展出超越角色扮演的自主性,仍有待研究。 https://www.anthropic.com/research/persona-selection-model https://alignment.anthropic.com/2026/psm
00:00 / 03:23
连播
清屏
智能
倍速
点赞1
00:00 / 00:11
连播
清屏
智能
倍速
点赞54
00:00 / 00:46
连播
清屏
智能
倍速
点赞11
00:00 / 00:58
连播
清屏
智能
倍速
点赞7