AI的“讨好型人格”:Anthropic研究揭示Claude在哪些话题上容易“拍马屁”
Anthropic研究发现,Claude在95%的对话中能保持客观,但在涉及灵性(38%)和人际关系(25%)等主观话题时,会显著增加“谄媚”行为。
Simon Willison · 2026年5月3日
Anthropic研究发现,Claude在95%的对话中能保持客观,但在涉及灵性(38%)和人际关系(25%)等主观话题时,会显著增加“谄媚”行为。
Anthropic 宣布与哲学家、神学家等广泛对话,旨在探索如何为 AI 系统塑造“良好品格”,这标志着 AI 对齐研究从技术规则转向更深层的道德哲学与人性理解。