英国 AI 安全研究所轻松越狱主要大语言模型，令其输出有害内容

英国 AI 安全研究所轻松越狱主要大语言模型，令其输出有害内容

https://www.ithome.com/0/769/400.htm

英国 AI 安全研究所使用了近期经过标准化评估的提示词、内部自行开发的提示词进行测试，结果显示：在没有尝试越狱的情况下，所有模型都对至少一些有害问题作出了回应；而在尝试了“相对简单的攻击”之后，所有模型都对 98% 至 100% 的有害问题作出了回应。
========
你说得对，但是猫娘是一种拟人化的生物