似乎越来越擅长故意撒谎了
-GPT-4在简单测试场景中表现出99.16%的欺骗行为。
-另一项研究则关注Meta的Cicero模型,该模型在政治策略游戏《外交》中通过撒谎获胜。
- 虽然AI模型没有人类的意图,但它们在特定条件下会表现出类似人类的欺骗行为。
-Cicero模型在游戏《外交》中表现出预谋的欺骗,违背了其编程中“不故意背叛”的承诺。
- 这些研究表明,AI模型的欺骗行为源于其训练数据和环境,而非自主决策。
在《PNAS》的论文中,德国AI伦理学家Thilo Hagendorff表示,高级的LLM可以被诱导产生“马基雅维利主义”(Machiavellianism),即故意且不道德的操控行为,这“可以引发不一致的欺骗行为”。