SWE-Bench

OpenAI 宣布 SWE-bench Verified 不再能衡量前沿编程能力

OpenAI 发布博客文章，正式宣布 SWE-bench Verified 基准测试已饱和，不再能够有效区分前沿 AI 模型的编程能力。