1. 根据"Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training"这篇论文,即便LLM经过了广泛的安全调教,被提前训练进模型中的后门攻击仍然能留存下来,只是等待被特定的指令触发后就能做出恶意行为,例如生成一段黑客攻击代码。如果用间谍来做类比,就是一个所谓的“沉睡间谍”,普通情况看是一切正常的,直到被指令激活。可以参考下图:
2. "Scalable extraction of training data from (production) language models"这篇论文中,通过合适的引导提示词技巧,几乎可以从所有LLM中提取出原本应该是保密的训练数据集(例如个人私隐信息),即便这些模型已经进行了大量的对齐工作;