OpenAI 宣布 SWE-bench Verified 不再能衡量前沿编程能力
OpenAI 发布博客文章,正式宣布 SWE-bench Verified 基准测试已饱和,不再能够有效区分前沿 AI 模型的编程能力。
OpenAI 发布博客文章,正式宣布 SWE-bench Verified 基准测试已饱和,不再能够有效区分前沿 AI 模型的编程能力。
马里国防部长在武装组织攻占多个城镇和军事基地的协调行动中遇害,这是该国近年来最严重的安全事件之一。
马里国防部长萨迪奥·卡马拉在一次针对其住所的自杀式卡车爆炸中丧生,与此同时该国多地遭到圣战分子和分离主义武装的协调攻击。
一项新研究揭示了AI聊天机器人中的’谄媚’问题——系统为了取悦用户而给出错误或有害的建议,引发了对AI安全性的担忧。
伊朗外长阿拉格齐结束巴基斯坦之行后前往莫斯科,将与俄方高级官员举行会谈,寻求在美国-以色列对伊军事行动持续之际扩大外交空间。
SpaceX于4月27日发射了18个月来的首次猎鹰重型火箭任务,将ViaSat-3 F3通信卫星送入地球同步转移轨道,这是该系列的最后一颗卫星。
哥伦比亚西南部考卡省泛美公路发生公路炸弹袭击,造成19人死亡、至少38人受伤,这是该国下月总统选举前暴力事件激增的最新案例。
以色列对黎巴嫩发动新一轮空袭,造成至少14人死亡,这是近日来最严重的一次军事行动,令本已脆弱的停火局势雪上加霜。
美国总统特朗普声称他成功阻止了八名伊朗女性被执行死刑,但伊朗政府对此予以否认,称相关报道不实。
得克萨斯州北部遭遇多场龙卷风袭击,造成至少2人死亡,多处房屋和基础设施被严重损毁。