<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>AI评估 on 全球全景日报 | goodinfo.net</title><link>https://goodinfo.net/tags/ai%E8%AF%84%E4%BC%B0/</link><description>goodinfo.net 每日精选全球资讯：AI、科技、财经、国际新闻。</description><generator>Hugo -- gohugo.io</generator><language>zh-cn</language><author>goodinfo.net</author><lastBuildDate>Mon, 27 Apr 2026 08:00:00 +0800</lastBuildDate><atom:link href="https://goodinfo.net/tags/ai%E8%AF%84%E4%BC%B0/index.xml" rel="self" type="application/rss+xml"/><item><title>OpenAI 宣布 SWE-bench Verified 不再能衡量前沿编程能力</title><link>https://goodinfo.net/posts/ai-tech/openai-swe-bench-obsolete-april-2026/</link><pubDate>Mon, 27 Apr 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/ai-tech/openai-swe-bench-obsolete-april-2026/</guid><description>OpenAI 发布博客文章，正式宣布 SWE-bench Verified 基准测试已饱和，不再能够有效区分前沿 AI 模型的编程能力。</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>OpenAI 近日正式发表声明，宣布 &lt;strong>SWE-bench Verified&lt;/strong> 基准测试已无法继续有效衡量前沿 AI 模型的编程能力。这一决定标志着 AI 代码生成领域的一个重要转折点。&lt;/p>
&lt;h3 id="背景">背景&lt;/h3>
&lt;p>SWE-bench Verified 曾是业界衡量 AI 系统解决真实 GitHub 问题能力的黄金标准。该基准从真实开源项目中收集实际问题，要求 AI 模型生成可被直接合并的代码修复方案。然而，随着各家公司模型能力的快速提升，这一基准已经高度饱和。&lt;/p>
&lt;p>SWE-bench 的联合创始人之一 Ofir Press 在 Hacker News 讨论中指出：&amp;ldquo;SWE-bench Verified 目前已达到 93.9% 的饱和率（恭喜 Anthropic）。任何尚未达到这一水平的模型仍有提升空间，但该基准作为区分工具的效用已经显著下降。&amp;rdquo;&lt;/p>
&lt;h3 id="为什么不再有效">为什么不再有效？&lt;/h3>
&lt;p>OpenAI 在博客文章中阐述了多个关键原因：&lt;/p>
&lt;ul>
&lt;li>&lt;strong>基准饱和&lt;/strong>：最先进模型在该测试上的得分已接近天花板，无法区分模型之间的实际能力差异&lt;/li>
&lt;li>&lt;strong>训练数据泄露&lt;/strong>：随着基准测试的广泛使用，相关数据不可避免地进入模型训练集&lt;/li>
&lt;li>&lt;strong>静态测试的局限性&lt;/strong>：固定不变的测试集容易受到针对性优化的影响，难以反映模型在未知问题上的泛化能力&lt;/li>
&lt;/ul>
&lt;h3 id="行业影响">行业影响&lt;/h3>
&lt;p>这一决定引发了 AI 社区的广泛讨论。多位研究者和从业者指出，任何公开基准都面临着被&amp;quot;游戏化&amp;quot;的风险。当行业存在巨大的优化激励时，模型往往会针对特定测试进行过度拟合，而非真正提升通用能力。&lt;/p>
&lt;p>一些专家建议，AI 评估需要转向更加动态和对抗性的方法，例如持续更新的测试集、真人评估、以及在真实工作环境中的性能测量。&lt;/p>
&lt;blockquote>
&lt;p>&amp;ldquo;基准很难设计，而当整个行业都有动力去&amp;rsquo;刷分&amp;rsquo;时，它们变得更加困难。&amp;rdquo; —— AI 研究者社区共识&lt;/p>&lt;/blockquote>
&lt;h3 id="未来方向">未来方向&lt;/h3>
&lt;p>OpenAI 没有公布替代 SWE-bench 的具体方案，但暗示未来的评估框架将更加注重动态性、对抗性和现实世界表现。这一转向反映了 AI 行业对评估方法论的深层思考：当基准成为目标时，它就不再是一个好的衡量标准。&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/">OpenAI 官方博客&lt;/a>、&lt;a href="https://news.ycombinator.com/item?id=47341645">Hacker News 讨论&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">ai-tech</category><category domain="tag">OpenAI</category><category domain="tag">SWE-bench</category><category domain="tag">AI评估</category><category domain="tag">编程能力</category></item></channel></rss>