OpenAI 宣布 SWE-bench Verified 不再能衡量前沿编程能力OpenAI 发布博客文章,正式宣布 SWE-bench Verified 基准测试已饱和,不再能够有效区分前沿 AI 模型的编程能力。