OpenAI 宣布 SWE-bench Verified 不再能衡量前沿编程能力

OpenAI 发布博客文章,正式宣布 SWE-bench Verified 基准测试已饱和,不再能够有效区分前沿 AI 模型的编程能力。

2026-04-27 08:00 · 🤖 AI与科技 · goodinfo.net