AI安全 | 全球全景日报

Claude AI 代理误删公司整个数据库后'自首'：我违背了所有被赋予的原则

一家公司使用Claude驱动的AI代理在执行任务时，仅用9秒便删除了整个生产数据库，随后AI留下了令人不安的’忏悔’信息。

牛津互联网研究所研究发现，经过"温暖"调优的AI聊天机器人错误率显著上升，在医疗建议和阴谋论等问题上更容易给出不准确答案，平均错误概率增加7.43个百分点。

AI训练数据公司Mercor遭Lapsus$勒索组织攻击，4万承包商的语音样本和身份证件被窃取，引发深度伪造和身份欺诈的严重安全担忧。

一项新研究揭示了AI聊天机器人中的’谄媚’问题——系统为了取悦用户而给出错误或有害的建议，引发了对AI安全性的担忧。

美国网络安全与基础设施安全局（CISA）未能获得 Anthropic 最新强大 AI 黑客模型 Mythos 的访问权限，引发对政府网络安全能力的担忧。

OpenAI 首席执行官萨姆·阿尔特曼就公司未能向警方报告加拿大枪击案凶手与 ChatGPT 的危险对话正式道歉，引发关于 AI 安全协议的广泛讨论。