<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Opensource on 全球全景日报 | goodinfo.net</title><link>https://goodinfo.net/categories/opensource/</link><description>goodinfo.net 每日精选全球资讯：AI、科技、财经、国际新闻。</description><generator>Hugo -- gohugo.io</generator><language>zh-cn</language><author>goodinfo.net</author><lastBuildDate>Sat, 11 Apr 2026 08:00:00 +0800</lastBuildDate><atom:link href="https://goodinfo.net/categories/opensource/index.xml" rel="self" type="application/rss+xml"/><item><title>SuperCmd：一个开源的 macOS 启动器，想把 Raycast、语音输入、AI 全塞进一个框里</title><link>https://goodinfo.net/posts/opensource/supercmd%E4%B8%80%E4%B8%AA%E5%BC%80%E6%BA%90%E7%9A%84-macos-%E5%90%AF%E5%8A%A8%E5%99%A8%E6%83%B3%E6%8A%8A-raycast%E8%AF%AD%E9%9F%B3%E8%BE%93%E5%85%A5ai-%E5%85%A8%E5%A1%9E%E8%BF%9B%E4%B8%80%E4%B8%AA%E6%A1%86%E9%87%8C/</link><pubDate>Sat, 11 Apr 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/supercmd%E4%B8%80%E4%B8%AA%E5%BC%80%E6%BA%90%E7%9A%84-macos-%E5%90%AF%E5%8A%A8%E5%99%A8%E6%83%B3%E6%8A%8A-raycast%E8%AF%AD%E9%9F%B3%E8%BE%93%E5%85%A5ai-%E5%85%A8%E5%A1%9E%E8%BF%9B%E4%B8%80%E4%B8%AA%E6%A1%86%E9%87%8C/</guid><description>SuperCmd，一个开源的 macOS 启动器应用，可以理解为免费版 Raycast + Wispr Flow + Speechify + AI 助手的缝合体。 听起来野心很大，但思路其实很清晰：Mac 用户日常高频用的几个效率工具，能不能合成一个？ 它能干什么</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>SuperCmd，一个开源的 macOS 启动器应用，可以理解为免费版 Raycast + Wispr Flow + Speechify + AI 助手的缝合体。&lt;/p>
&lt;p>听起来野心很大，但思路其实很清晰：Mac 用户日常高频用的几个效率工具，能不能合成一个？&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>它能干什么&lt;/p>
&lt;p>打开方式和 Raycast、Alfred 一样，快捷键呼出一个搜索框，然后从这个框里做所有事情。&lt;/p>
&lt;p>基础启动器功能，搜索应用、搜索文件、快速打开，这些是标配就不多说了。值得单独讲的是下面几个：&lt;/p>
&lt;p>无限剪贴板历史。每次复制的内容都会被记录下来，可以搜索、置顶、回溯粘贴。这个功能很多人单独装一个 app 来做（Paste、Maccy 之类的），SuperCmd 直接内置了。&lt;/p>
&lt;p>Markdown 笔记和画布。启动器里直接写笔记，支持 Markdown 格式。还内置了 Excalidraw 画布，可以随手画个流程图或者草图。不用切到 Notion 或者 Obsidian，临时记个东西很方便。&lt;/p>
&lt;p>文本片段展开。设一个缩写，打出来自动展开成完整文本。比如输入 ;addr 自动变成你的完整地址，输入 ;sig 变成邮件签名。写邮件、回消息的时候省很多重复打字。&lt;/p>
&lt;p>窗口管理。用快捷键调整窗口大小和位置，不需要再装 Rectangle 或 Magnet。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>语音输入是个亮点&lt;/p>
&lt;p>SuperCmd 内置了基于 Whisper 的语音输入，体验类似 Wispr Flow：按住快捷键说话，松开就自动转成文字输入到当前光标位置。&lt;/p>
&lt;p>它不是简单的语音转文字，会自动去掉嗯啊这些填充词，还会做一些语法修正。在任何 app 里都能用，不限于 SuperCmd 自己的界面。&lt;/p>
&lt;p>另外还有反向功能，选中一段文字，让它用自然语音朗读出来，体验类似 Speechify。校对文章或者解放眼睛的时候挺实用。&lt;/p>
&lt;p>AI 集成：带记忆的&lt;/p>
&lt;p>AI 对话功能支持三个 provider：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>OpenAI：填 API Key，用 GPT 系列&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Anthropic：填 API Key，用 Claude&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Ollama：连本地模型，完全离线，数据不出本机&lt;/p>
&lt;p>有意思的是它集成了 Supermemory，AI 可以记住你之前告诉它的内容。比如你说&amp;quot;记住我的项目用的是 Next.js + Supabase&amp;quot;，下次问相关问题它会带上这个上下文。&lt;/p>
&lt;p>语音合成方面，支持 Edge TTS（免费，不需要 Key）和 ElevenLabs（需要 Key，声音更自然）。&lt;/p>
&lt;p>兼容 Raycast 扩展生态&lt;/p>
&lt;p>这是 SuperCmd 最有野心的部分。它实现了一套 @raycast/api 的兼容层，可以直接安装和运行 Raycast 的扩展。&lt;/p>
&lt;p>Raycast 的扩展商店里有几千个扩展，覆盖 GitHub、Slack、Notion、Spotify、1Password、Google Translate 等等。SuperCmd 想直接借用这个生态，而不是从零开始建自己的。&lt;/p>
&lt;p>不过要说实话，这个兼容层目前还不完整。OAuth 认证、部分边缘 API 还在 TODO 状态，不是所有 Raycast 扩展都能完美运行。但核心的搜索类、工具类扩展已经可以用了。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>技术栈和项目状态&lt;/p>
&lt;p>用 Electron + React + TypeScript 做的，macOS 原生功能（快捷键、取色器、语音）用 Swift 写的原生模块桥接。&lt;/p>
&lt;p>GitHub 上 309 star，4 个贡献者，245 个 commit，最新版本 1.0.14。项目还比较早期，但更新频率不低。有意思的是贡献者列表里有一个叫&amp;quot;Claude&amp;quot;的，看来开发过程本身也在大量用 AI。&lt;/p>
&lt;p>开源，免费，代码全部公开。&lt;/p>
&lt;p>适合谁&lt;/p>
&lt;p>如果你现在在用 Raycast 免费版并且觉得够用了，SuperCmd 暂时不会给你更多东西。&lt;/p>
&lt;p>但如果你符合下面几种情况，可以试试：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>想要 Raycast Pro 的 AI 功能但不想每月付费，自己有 OpenAI / Anthropic 的 API Key&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>想要一个启动器 + 剪贴板管理 + 语音输入 + 窗口管理的一体化方案，不想装四五个 app&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>喜欢折腾开源工具，愿意接受一些粗糙换来完全的可定制性&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>对隐私敏感，想用 Ollama 跑本地模型，所有数据不出本机&lt;/p>
&lt;p>已知的不足&lt;/p>
&lt;p>直接说：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Electron 应用，内存占用比原生 app 高&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Raycast 扩展兼容层不完整，部分扩展会报错&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>只支持 macOS，没有 Windows 和 Linux 版本&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>项目早期，UI 细节和稳定性还有打磨空间&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>文档不算完善，有些功能需要自己摸索&lt;/p>
&lt;p>怎么装&lt;/p>
&lt;p>直接去 GitHub Releases 下载 dmg 安装：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Apple Silicon Mac：https://github.com/SuperCmdLabs/SuperCmd/releases/download/1.0.14/SuperCmd-1.0.14-arm64.dmg&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Intel Mac：https://github.com/SuperCmdLabs/SuperCmd/releases/download/1.0.14/SuperCmd-1.0.14.dmg&lt;/p>
&lt;p>或者从源码编译：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">git clone https://github.com/SuperCmdLabs/SuperCmd.git
cd SuperCmd
npm install
npm run dev
&lt;/code>&lt;/pre>&lt;blockquote>
&lt;/blockquote>
&lt;p>官网：https://supercmd.sh&lt;/p>
&lt;p>GitHub：https://github.com/SuperCmdLabs/SuperCmd&lt;/p>
&lt;p>Discord：https://discord.gg/CsdbknHqx5&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/supercmd-macos-raycast-ai/31570098">SuperCmd：一个开源的 macOS 启动器，想把 Raycast、语音输入、AI 全塞进一个框里&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>微软 MarkItDown：一行命令把 PDF、Word、PPT、音频、YouTube 全转成干净 Markdown</title><link>https://goodinfo.net/posts/opensource/%E5%BE%AE%E8%BD%AF-markitdown%E4%B8%80%E8%A1%8C%E5%91%BD%E4%BB%A4%E6%8A%8A-pdfwordppt%E9%9F%B3%E9%A2%91youtube-%E5%85%A8%E8%BD%AC%E6%88%90%E5%B9%B2%E5%87%80-markdown/</link><pubDate>Thu, 09 Apr 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/%E5%BE%AE%E8%BD%AF-markitdown%E4%B8%80%E8%A1%8C%E5%91%BD%E4%BB%A4%E6%8A%8A-pdfwordppt%E9%9F%B3%E9%A2%91youtube-%E5%85%A8%E8%BD%AC%E6%88%90%E5%B9%B2%E5%87%80-markdown/</guid><description>微软开源了一个 Python 工具叫 MarkItDown，干一件事：把各种格式的文件转成 LLM 能直接用的 Markdown。 PDF、Word、Excel、PowerPoint、HTML、图片、音频、YouTube 链接、JSON、XML、ZIP 压缩包，基本上你能想到的格式它都支持。</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>微软开源了一个 Python 工具叫 MarkItDown，干一件事：把各种格式的文件转成 LLM 能直接用的 Markdown。&lt;/p>
&lt;p>PDF、Word、Excel、PowerPoint、HTML、图片、音频、YouTube 链接、JSON、XML、ZIP 压缩包，基本上你能想到的格式它都支持。&lt;/p>
&lt;p>一个 pip install 搞定，命令行或 Python API 都能用。&lt;/p>
&lt;p>为什么需要这个&lt;/p>
&lt;p>做 RAG 管线或者给 LLM 喂文档的人都知道，最头疼的不是模型，是数据预处理。&lt;/p>
&lt;p>PDF 的表格解析错乱，Word 的样式被吃掉，PPT 的布局信息全丢，Excel 变成一堆逗号分隔的数字。每种格式要写一个解析器，写完还得维护，换个格式又得重来。&lt;/p>
&lt;p>MarkItDown 把这一层全抹平了。不管输入什么格式，输出都是结构清晰的 Markdown：标题、列表、表格、链接、代码块全部保留。&lt;/p>
&lt;p>支持哪些格式&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>图片描述和音频转写需要接 LLM（支持 OpenAI API 格式），不接也能用，只是跳过这些功能。&lt;/p>
&lt;p>怎么用&lt;/p>
&lt;p>安装：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">pip install &amp;#39;markitdown[all]&amp;#39;
&lt;/code>&lt;/pre>&lt;p>也可以只装需要的格式：pip install &amp;lsquo;markitdown[pdf,docx,pptx]&amp;rsquo;&lt;/p>
&lt;p>命令行：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">markitdown report.pdf &amp;gt; report.md
markitdown slides.pptx -o slides.md
cat document.pdf | markitdown
&lt;/code>&lt;/pre>&lt;p>Python API：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">from markitdown import MarkItDown
md = MarkItDown()
result = md.convert(&amp;#34;quarterly-report.xlsx&amp;#34;)
print(result.text_content)
&lt;/code>&lt;/pre>&lt;p>如果要让图片生成描述文字：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">from markitdown import MarkItDown
from openai import OpenAI
client = OpenAI()
md = MarkItDown(llm_client=client, llm_model=&amp;#34;gpt-4o&amp;#34;)
result = md.convert(&amp;#34;photo.jpg&amp;#34;)
&lt;/code>&lt;/pre>&lt;p>两个值得关注的能力&lt;/p>
&lt;ol>
&lt;li>MCP Server&lt;/li>
&lt;/ol>
&lt;p>MarkItDown 现在有官方的 MCP（Model Context Protocol）服务器，可以直接接入 Claude Desktop 等支持 MCP 的 AI 客户端。&lt;/p>
&lt;p>实际效果是：你在跟 Claude 对话的时候，可以直接让它读取并转换本地文件，不用提前手动处理。对话流程不中断，文件转换在后台自动完成。&lt;/p>
&lt;ol start="2">
&lt;li>插件系统&lt;/li>
&lt;/ol>
&lt;p>0.1.0 版本引入了第三方插件支持。比如 markitdown-ocr 插件，给 PDF、Word、PPT、Excel 里的嵌入图片加上 OCR 能力，用 LLM Vision 提取图片中的文字。&lt;/p>
&lt;p>社区可以自己开发新格式的转换器，不需要改源代码。在 GitHub 上搜 #markitdown-plugin 就能找到已有的插件。&lt;/p>
&lt;p>已知限制&lt;/p>
&lt;p>不回避几个短板：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>PDF 如果是扫描件且没有 OCR 层，提取不出文字&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>PDF 转换时会丢失标题、列表等文本格式，全变成纯文本&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>图片内容描述需要外接 LLM 客户端，不能开箱即用&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>本质上是对 mammoth、pandas 等现有库的封装，不是从零写的转换引擎&lt;/p>
&lt;p>对于 RAG 管道和批量文档处理的场景已经够用了。如果追求高保真的文档还原（比如保留排版给人看），这不是它的设计目标。&lt;/p>
&lt;p>适合谁&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>做 RAG 系统，需要批量把企业文档灌进向量数据库的开发者&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>用 Claude Code 或其他 AI 编程工具，需要快速读取各种格式文件的人&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>搭 AI Agent，需要让 Agent 自主处理文档的场景&lt;/p>
&lt;p>GitHub：https://github.com/microsoft/markitdown&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/markitdown-pdf-word-ppt-youtube-markdown/31499902">微软 MarkItDown：一行命令把 PDF、Word、PPT、音频、YouTube 全转成干净 Markdown&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>NVIDIA PersonaPlex：全双工语音对话模型，第一次能自定义声音和角色了</title><link>https://goodinfo.net/posts/opensource/nvidia-personaplex%E5%85%A8%E5%8F%8C%E5%B7%A5%E8%AF%AD%E9%9F%B3%E5%AF%B9%E8%AF%9D%E6%A8%A1%E5%9E%8B%E7%AC%AC%E4%B8%80%E6%AC%A1%E8%83%BD%E8%87%AA%E5%AE%9A%E4%B9%89%E5%A3%B0%E9%9F%B3%E5%92%8C%E8%A7%92%E8%89%B2%E4%BA%86/</link><pubDate>Tue, 07 Apr 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/nvidia-personaplex%E5%85%A8%E5%8F%8C%E5%B7%A5%E8%AF%AD%E9%9F%B3%E5%AF%B9%E8%AF%9D%E6%A8%A1%E5%9E%8B%E7%AC%AC%E4%B8%80%E6%AC%A1%E8%83%BD%E8%87%AA%E5%AE%9A%E4%B9%89%E5%A3%B0%E9%9F%B3%E5%92%8C%E8%A7%92%E8%89%B2%E4%BA%86/</guid><description>NVIDIA PersonaPlex 是 NVIDIA ADLR 团队开源的 7B 全双工语音对话模型，能一边听一边说，同时支持通过文本提示词切换角色、通过语音样本切换声音。 之前的全双工模型（比如 Moshi）对话很自然，但声音和角色是训练时写死的，部署后改不了。传统级联方案（ASR→LLM→</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>NVIDIA PersonaPlex 是 NVIDIA ADLR 团队开源的 7B 全双工语音对话模型，能一边听一边说，同时支持通过文本提示词切换角色、通过语音样本切换声音。&lt;/p>
&lt;p>之前的全双工模型（比如 Moshi）对话很自然，但声音和角色是训练时写死的，部署后改不了。传统级联方案（ASR→LLM→TTS）声音可定制，但延迟高，不能打断，对话节奏像在跟答录机说话。PersonaPlex 是第一个把两边的优势合到一起的模型：对话自然度不输 Moshi，同时角色和声音都是运行时可配置的。&lt;/p>
&lt;p>论文已被 ICASSP 2026 接收，代码和模型权重均已开源，可商用。&lt;/p>
&lt;p>核心能力&lt;/p>
&lt;ol>
&lt;li>全双工对话&lt;/li>
&lt;/ol>
&lt;p>模型同时处理输入和输出音频流，不需要等用户说完话才开始回应。&lt;/p>
&lt;p>支持自然轮转、用户打断、backchannel（&amp;ldquo;嗯嗯&amp;rdquo;、&amp;ldquo;好的&amp;rdquo;、&amp;ldquo;对&amp;quot;这类回应词）。轮转延迟 170ms。&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>在 FullDuplexBench 的打断测试中，用户中途打断 PersonaPlex 的回答，模型能在 240ms 内停下来并切换到听的状态。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;ol start="2">
&lt;li>文本提示词定义角色&lt;/li>
&lt;/ol>
&lt;p>用自然语言告诉模型它是谁、要做什么、有什么背景信息。&lt;/p>
&lt;p>模型会在整个对话过程中维持这个角色设定。&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>给模型的提示词是：&amp;ldquo;你是 First Neuron Bank 的客服，名字叫 Sanni Virtanen。客户有一笔 $1,200 的 Home Depot 交易被拒绝了，原因是交易地点异常（客户常在西雅图交易，这笔交易发生在迈阿密）。请先核实客户身份。&amp;rdquo; 模型会按照这个设定完成整通客服电话，包括身份核实、原因解释和后续处理建议。&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>给模型一个完全超出训练分布的提示词：&amp;ldquo;你是火星任务的宇航员 Alex，反应堆正在熔毁，多个舰载系统正在失效。&amp;rdquo; 模型能使用正确的技术术语，语气带有与紧急场景匹配的压迫感，并且全程维持角色一致性。训练数据里没有太空场景，这个泛化能力来自基座语言模型 Helium。&lt;/p>
&lt;ol start="3">
&lt;li>语音提示定义声音&lt;/li>
&lt;/ol>
&lt;p>通过一段音频嵌入来设定声音特征，包括音色、语速和韵律风格。模型预置了 16 种声音：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Natural（更自然、更适合对话）：男女各 4 种&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Variety（风格更多样）：男女各 5 种&lt;/p>
&lt;p>也可以用自定义语音样本做声音条件化。&lt;/p>
&lt;ol start="4">
&lt;li>自然 backchannel&lt;/li>
&lt;/ol>
&lt;p>模型在用户说话的过程中会发出上下文相关的回应词，比如&amp;quot;oh okay&amp;rdquo;、&amp;ldquo;yeah&amp;rdquo;、&amp;ldquo;yeah, I think they do&amp;rdquo;，内容和语气跟对话上下文匹配，不打断用户的表达流。&lt;/p>
&lt;p>这跟简单的随机插入不一样，backchannel 的时机和内容是模型根据语义理解实时生成的。&lt;/p>
&lt;p>架构&lt;/p>
&lt;p>基于 Kyutai 的 Moshi 架构，7B 参数：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Mimi 语音编解码器（ConvNet + Transformer）：音频和 token 之间的双向转换，24kHz 采样率&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Temporal Transformer + Depth Transformer：处理对话流&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Helium 基座语言模型：提供语义理解和超出训练分布的泛化能力&lt;/p>
&lt;p>双流配置让模型同时维护一个&amp;quot;听&amp;quot;的音频流和一个&amp;quot;说&amp;quot;的音频流，不需要等一个结束再开始另一个。&lt;/p>
&lt;p>两个输入通道（语音提示 + 文本提示）在模型内部联合处理，生成统一的角色表征。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>训练数据&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>核心设计思路：真实对话教模型&amp;quot;怎么说话&amp;quot;（自然度），合成对话教模型&amp;quot;说什么&amp;quot;（任务执行），两类数据通过共享的提示格式做桥接。总训练数据不到 5,000 小时，基于 Moshi 预训练权重微调。&lt;/p>
&lt;p>评测&lt;/p>
&lt;p>测试基准是 FullDuplexBench，评估对话动态、延迟和任务遵循。团队还扩展了一个 ServiceDuplexBench 专门测客服场景，计划后续开源。&lt;/p>
&lt;p>对话动态（成功率 %，越高越好）&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>对话动态测的是模型在轮转、打断、停顿这三种场景下的行为是否合理。Moshi 打断处理满分，但停顿处理只有 1.8%，几乎不会在该停下来的时候停，会一直说。PersonaPlex 三项更均衡。&lt;/p>
&lt;p>延迟（秒，越低越好）&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>轮转延迟 170ms，打断响应 240ms。&lt;/p>
&lt;p>任务遵循（GPT-4o 评分，满分 5）&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>任务遵循测的是模型回答是否准确、是否按照角色设定执行。Moshi 只有 0.77/1.75，对应&amp;quot;自然但不可控&amp;quot;的局限。Gemini Live 客服场景最高（4.73）但通用场景偏低（3.38），Qwen 2.5 Omni 反过来。PersonaPlex 是唯一两个子项都在 4.29 以上的。&lt;/p>
&lt;p>已知限制&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>训练数据全部为英语（Fisher English Corpus + 英语合成对话），未提及多语言支持&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Qwen 2.5 Omni 的评测使用了 Freeze Omni 的 VAD（语音活动检测），因为 Qwen 原版没有提供&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>停顿处理成功率（60.6%）相比打断和轮转还有差距&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>ServiceDuplexBench 基准尚未开源&lt;/p>
&lt;p>获取方式&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>代码：github.com/NVIDIA/personaplex，MIT 许可证&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>模型权重：huggingface.co/nvidia/personaplex-7b-v1，NVIDIA Open Model License，需接受许可协议后下载&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>基座模型 Moshi：CC-BY-4.0（Kyutai）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>可商用&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>本地部署需要 NVIDIA GPU，建议 16GB+ 显存，支持 &amp;ndash;cpu-offload 模式&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>启动后通过浏览器访问 Web UI 进行对话&lt;/p>
&lt;p>原文链接：research.nvidia.com/labs/adlr/personaplex&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/nvidia-personaplex/31425883">NVIDIA PersonaPlex：全双工语音对话模型，第一次能自定义声音和角色了&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>Agent Skills技能包：19 个工程技能让 AI 编程 Agent 按高级工程师标准干活</title><link>https://goodinfo.net/posts/opensource/agent-skills%E6%8A%80%E8%83%BD%E5%8C%8519-%E4%B8%AA%E5%B7%A5%E7%A8%8B%E6%8A%80%E8%83%BD%E8%AE%A9-ai-%E7%BC%96%E7%A8%8B-agent-%E6%8C%89%E9%AB%98%E7%BA%A7%E5%B7%A5%E7%A8%8B%E5%B8%88%E6%A0%87%E5%87%86%E5%B9%B2%E6%B4%BB/</link><pubDate>Mon, 06 Apr 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/agent-skills%E6%8A%80%E8%83%BD%E5%8C%8519-%E4%B8%AA%E5%B7%A5%E7%A8%8B%E6%8A%80%E8%83%BD%E8%AE%A9-ai-%E7%BC%96%E7%A8%8B-agent-%E6%8C%89%E9%AB%98%E7%BA%A7%E5%B7%A5%E7%A8%8B%E5%B8%88%E6%A0%87%E5%87%86%E5%B9%B2%E6%B4%BB/</guid><description>Google Chrome 团队工程负责人 Addy Osmani 开源了一套叫 Agent Skills 的技能包，专门解决 AI 编程 Agent 的一个通病：它们默认走最短路径，跳过规范、跳过测试、跳过安全审查，代码写完就算完事。 Agent Skills 把 Google 内部的工程实践</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>Google Chrome 团队工程负责人 Addy Osmani 开源了一套叫 Agent Skills 的技能包，专门解决 AI 编程 Agent 的一个通病：它们默认走最短路径，跳过规范、跳过测试、跳过安全审查，代码写完就算完事。&lt;/p>
&lt;p>Agent Skills 把 Google 内部的工程实践（来自《Software Engineering at Google》和 Google 工程实践指南）打包成 19 个结构化技能，覆盖从想法到上线的完整开发流程。&lt;/p>
&lt;p>安装之后，Agent 不再是&amp;quot;能写代码&amp;quot;，而是&amp;quot;按高级工程师的标准写代码&amp;quot;。&lt;/p>
&lt;p>MIT 协议，纯 Markdown 格式，适配 Claude Code、Cursor、Windsurf、GitHub Copilot 等几乎所有主流编程 Agent。&lt;/p>
&lt;p>六个阶段，七个命令&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>整套技能围绕软件开发的六个阶段组织，每个阶段对应一个斜杠命令：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">DEFINE → PLAN → BUILD → VERIFY → REVIEW → SHIP
/spec /plan /build /test /review /ship
&lt;/code>&lt;/pre>&lt;p>加上一个 /code-simplify 做代码简化，一共七个命令。你不用记 19 个技能各叫什么，敲命令就行，对应的技能会自动激活。写 API 时 api-and-interface-design 自动加载，写前端时 frontend-ui-engineering 自动触发。&lt;/p>
&lt;p>19 个技能都覆盖了什么&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>每个技能不是一段笼统的提示词，是一套完整的工作流程：有步骤、有检查点、有退出标准。&lt;/p>
&lt;p>最有意思的设计：反借口表&lt;/p>
&lt;p>每个技能里都有一张 &amp;ldquo;Anti-Rationalization Table&amp;rdquo;，列出了 AI Agent 常用的偷懒借口和对应的反驳。比如：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>Agent 说：&amp;ldquo;测试以后再补。&amp;rdquo;
技能反驳：&amp;ldquo;不行，Red-Green-Refactor，先写测试再写代码。&amp;rdquo;&lt;/p>
&lt;p>Agent 说：&amp;ldquo;这个改动很小，不用走 review。&amp;rdquo;
技能反驳：&amp;ldquo;100 行以内也要过五轴审查。&amp;rdquo;&lt;/p>
&lt;p>这个设计抓住了 AI Agent 最大的问题：它们不是不会写测试，是会给自己找理由不写。光说&amp;quot;要写测试&amp;quot;没用，得把每种借口的反驳也写进去。&lt;/p>
&lt;p>验证是硬性要求&lt;/p>
&lt;p>每个技能最后都有 Evidence Requirements，不是&amp;quot;看起来对了&amp;quot;就行，得有实际证据：测试全绿、构建产物、运行时数据。没有证据，技能流程就没完成。&lt;/p>
&lt;p>除了技能本身，还有什么&lt;/p>
&lt;p>3 个预配置 Agent 角色：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>code-reviewer：Staff Engineer 视角做代码审查，标准是&amp;quot;一个 Staff Engineer 会不会批准这个 PR&amp;quot;&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>test-engineer：QA 视角检查测试策略和覆盖率&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>security-auditor：安全工程师视角做漏洞检测和威胁建模&lt;/p>
&lt;p>配合4 个参考检查清单（测试模式、安全检查、性能检查、无障碍检查），覆盖了审查阶段最常见的盲区。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>7 个斜杠命令（Claude Code 专属）&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>Hooks 系统（Claude Code 专属）。session-start 在会话开始时自动加载技能路由；simplify-ignore 允许用注释标记不希望 Agent 碰的代码块（比如手工优化过的性能关键代码），Agent 简化代码时这些块会被替换成占位符，会话结束后恢复。&lt;/p>
&lt;p>怎么用&lt;/p>
&lt;p>最快的方式是通过 skills.sh CLI 一键安装全部 19 个技能：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">npx skills add addyosmani/agent-skills
&lt;/code>&lt;/pre>&lt;p>也可以只装某个特定技能：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">npx skills add https://github.com/addyosmani/agent-skills --skill code-review-and-quality
&lt;/code>&lt;/pre>&lt;p>Claude Code 有原生插件支持：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">claude plugin add agent-skills
&lt;/code>&lt;/pre>&lt;p>Cursor 用户把 SKILL.md 文件复制到 .cursor/rules/ 目录即可。GitHub Copilot 用户把 Agent 角色文件放到 .github/agents/ 目录，在 Copilot Chat 里用 @code-reviewer 调用。&lt;/p>
&lt;p>因为所有内容都是纯 Markdown，任何接受文本指令的 Agent 都能用，包括 OpenCode、Codex、Gemini CLI、Cline 等 40 多个兼容工具。&lt;/p>
&lt;p>官方建议一次加载 2-4 个技能，不要全部加载。仓库里有一个 meta-skill 叫 using-agent-skills，功能是根据当前任务类型自动路由到对应技能，适合作为起点。&lt;/p>
&lt;p>兼容哪些工具&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>Claude Code 和 Gemini CLI 支持最好，一行命令安装。Cursor 和 Windsurf 需要手动复制文件。&lt;/p>
&lt;p>跟自己写 CLAUDE.md 规则有什么区别&lt;/p>
&lt;p>很多人已经在 CLAUDE.md 里写了自己的规则，Agent Skills 的区别在于：&lt;/p>
&lt;ol>
&lt;li>
&lt;p>结构化程度不同。 自己写的规则通常是&amp;quot;要做什么&amp;quot;的清单，Agent Skills 是完整的工作流程，有步骤顺序、有检查门禁、有退出条件。Agent 不是&amp;quot;知道应该写测试&amp;quot;，而是&amp;quot;在这个步骤必须写测试，不写不能进入下一步&amp;quot;。&lt;/p>
&lt;/li>
&lt;li>
&lt;p>反借口机制。 自己写的规则说&amp;quot;不要跳过测试&amp;quot;，Agent 换个说法就绕过了。Agent Skills 把各种绕过的说法和反驳都列出来了。&lt;/p>
&lt;/li>
&lt;li>
&lt;p>Google 工程文化沉淀。 Hyrum&amp;rsquo;s Law 在 API 设计里、Beyonce Rule 在测试里、Chesterton&amp;rsquo;s Fence 在代码简化里、Shift Left 在 CI/CD 里。这些不是抽象原则，直接嵌入了每个步骤。&lt;/p>
&lt;/li>
&lt;/ol>
&lt;p>需要知道的几件事&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>19 个技能全部安装会占用不少上下文窗口。技能设计了渐进加载（只在触发时加载），但复杂项目同时激活多个技能时，token 消耗会明显上升&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>技能面向生产级代码设计。如果你在快速原型阶段，每次写代码都跑完整规范和测试流程可能太重&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>目前 76 个 commit，还在快速迭代。部分技能的流程可能会调整&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>如果你已有自己的 CLAUDE.md 规则，需要注意冲突。技能可以单独安装，不必全装&lt;/p>
&lt;p>👉 GitHub 仓库 | webreactiva: 19 Skills 详解&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/agent-skills-19-ai-agent/31391606">Agent Skills技能包：19 个工程技能让 AI 编程 Agent 按高级工程师标准干活&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>Obsidian Mind：给 Claude Code 装一个不会失忆的大脑</title><link>https://goodinfo.net/posts/opensource/obsidian-mind%E7%BB%99-claude-code-%E8%A3%85%E4%B8%80%E4%B8%AA%E4%B8%8D%E4%BC%9A%E5%A4%B1%E5%BF%86%E7%9A%84%E5%A4%A7%E8%84%91/</link><pubDate>Mon, 06 Apr 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/obsidian-mind%E7%BB%99-claude-code-%E8%A3%85%E4%B8%80%E4%B8%AA%E4%B8%8D%E4%BC%9A%E5%A4%B1%E5%BF%86%E7%9A%84%E5%A4%A7%E8%84%91/</guid><description>Obsidian Mind，一个开源的 Obsidian 库模板，给 Claude Code 用户设计的跨会话记忆系统。 Claude Code 有个根本问题：每次关了再开，它什么都不记得。你昨天跟它聊的架构决策、定下的目标、踩过的坑，新会话里全部从零开始。 Claude Code 自带的</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>Obsidian Mind，一个开源的 Obsidian 库模板，给 Claude Code 用户设计的跨会话记忆系统。&lt;/p>
&lt;p>Claude Code 有个根本问题：每次关了再开，它什么都不记得。你昨天跟它聊的架构决策、定下的目标、踩过的坑，新会话里全部从零开始。&lt;/p>
&lt;p>Claude Code 自带的 memory 能存一些偏好，但容量有限，也不支持结构化的知识管理。&lt;/p>
&lt;p>Obsidian Mind 的解决办法是用 Obsidian 笔记库当 Claude Code 的外部大脑。你的目标、决策、工作记录、踩过的坑、记住的模式，全部以 Markdown 笔记的形式存在 Obsidian 里。每次 Claude Code 启动，自动加载这些上下文；每次会话结束，自动把新学到的东西写回去。笔记库就是记忆，记忆跟着库走。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>核心思路：用 Obsidian 的结构给 AI 做记忆&lt;/p>
&lt;p>记忆怎么运作&lt;/p>
&lt;p>模板的记忆机制分三层。&lt;/p>
&lt;p>自动加载。一个 SessionStart Hook 在每次启动 Claude Code 时自动把库的文件列表注入上下文，Claude 一开始就知道库里有什么。然后 CLAUDE.md 里定义的启动流程会让 Claude 依次读取：Home.md（vault 入口和仪表盘）→ North Star（你的目标和关注点）→ Index（活跃项目）→ Memories（跨会话记忆索引）→ 待办任务。不用你每次手动交代背景。&lt;/p>
&lt;p>自动写回。每次会话结束时（你说&amp;quot;wrap up&amp;quot;就行），Claude 自动执行收尾流程：把新的关键决策写入 Key Decisions、新发现的模式写入 Patterns、踩的坑写入 Gotchas、有价值的成果登记到 Brag Doc、更新索引。会话里产生的知识不会随着对话窗口关闭而消失。&lt;/p>
&lt;p>链接聚合。所有笔记通过 Obsidian 的 wikilink 互相关联。规则是每条笔记至少链接到一条已有笔记，没有链接的笔记被视为 bug。随着笔记越来越多，知识之间的关联自动在链接图谱里积累。Claude 可以通过反向链接发现&amp;quot;哪些工作笔记跟这个决策相关&amp;quot;&amp;ldquo;这个模式在哪些项目里出现过&amp;rdquo;。&lt;/p>
&lt;p>记忆存在哪里&lt;/p>
&lt;p>模板把不同类型的知识放在不同文件夹里，Claude 按需读取。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>Claude Code 自带的 memory（~/.claude/）和 vault 记忆分工明确：前者存会话级偏好（比如代码风格、常用命令），后者存需要结构化管理和链接浏览的深度知识。&lt;/p>
&lt;p>在记忆之上能做什么&lt;/p>
&lt;p>有了持久记忆，一些之前做不了的事变得可行了。&lt;/p>
&lt;p>绩效追踪。工作笔记完成后关联到能力项，Brag Doc 按季度聚合成果。到评审季用 /review-brief 命令从积累的记录里自动生成评审简报。日常记录和绩效输出是同一套数据，不用另外整理。&lt;/p>
&lt;p>决策回溯。所有架构决策都记录在案，三个月后想知道&amp;quot;当初为什么选了方案 A 而不是方案 B&amp;quot;，直接查 Key Decisions，不用翻聊天记录。&lt;/p>
&lt;p>团队知识管理。人员笔记记录每个同事的角色、合作历史、关键时刻。1:1 会议笔记自动提取行动项。组织变动时更新 People &amp;amp; Context 索引。&lt;/p>
&lt;p>事故复盘。/incident-capture 命令从 Slack 提取事故信息，结构化写入 vault。根因分析、时间线、影响范围都有固定格式，方便以后回查类似问题。&lt;/p>
&lt;p>还有什么&lt;/p>
&lt;p>预装了 kepano（Obsidian CEO）的官方 obsidian-skills，包括 Obsidian Markdown 语法、CLI 命令、Canvas 画布和 Bases 数据库视图。&lt;/p>
&lt;p>8 个自定义斜杠命令：&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>怎么开始&lt;/p>
&lt;ol>
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>克隆仓库或用 GitHub Template 创建&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>用 Obsidian 打开文件夹&lt;/p>
&lt;ol start="3">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>启用 Obsidian CLI（设置 → 核心插件，需要 Obsidian 1.12+）&lt;/p>
&lt;ol start="4">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>在 vault 目录下运行 claude&lt;/p>
&lt;ol start="5">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>填写 brain/North Star.md，写入当前目标&lt;/p>
&lt;p>需要 Obsidian 1.12+、Claude Code 和 Git。&lt;/p>
&lt;p>可选装 QMD 做语义搜索（npm install -g @tobilu/qmd），不装也能用，Claude 会降级到 Obsidian CLI 和 grep。&lt;/p>
&lt;p>如果你已经有自己的 Obsidian 笔记库，/vault-upgrade ~/my-old-vault 可以把旧内容迁移过来，Claude 会自动分类每个笔记，把工作记录、人物、事故、1:1、决策归到正确的目录。&lt;/p>
&lt;p>需要知道的几件事&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>需要 Obsidian 1.12+、Claude Code、Python 3、Git，缺一不可&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>整套设计面向工程师工作流（项目管理、代码开发、绩效复盘），非技术岗需要自己改造目录结构和命令&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Slack 相关命令（incident-capture、slack-scan）需要你自己配 Slack 接入&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>笔记库会通过 Git 管理，意味着你的工作笔记会在 Git 仓库里，注意敏感信息&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>目前 41 个 commit，项目还在快速迭代中&lt;/p>
&lt;p>👉 GitHub 仓库&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/obsidian-mind-claude-code/31396824">Obsidian Mind：给 Claude Code 装一个不会失忆的大脑&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>小米开源多语言 TTS 模型 OmniVoice：0.8B 小模型，600+ 语言零样本语音克隆</title><link>https://goodinfo.net/posts/opensource/%E5%B0%8F%E7%B1%B3%E5%BC%80%E6%BA%90%E5%A4%9A%E8%AF%AD%E8%A8%80-tts-%E6%A8%A1%E5%9E%8B-omnivoice08b-%E5%B0%8F%E6%A8%A1%E5%9E%8B600-%E8%AF%AD%E8%A8%80%E9%9B%B6%E6%A0%B7%E6%9C%AC%E8%AF%AD%E9%9F%B3%E5%85%8B%E9%9A%86/</link><pubDate>Sat, 04 Apr 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/%E5%B0%8F%E7%B1%B3%E5%BC%80%E6%BA%90%E5%A4%9A%E8%AF%AD%E8%A8%80-tts-%E6%A8%A1%E5%9E%8B-omnivoice08b-%E5%B0%8F%E6%A8%A1%E5%9E%8B600-%E8%AF%AD%E8%A8%80%E9%9B%B6%E6%A0%B7%E6%9C%AC%E8%AF%AD%E9%9F%B3%E5%85%8B%E9%9A%86/</guid><description>语音克隆领域又冒出一个狠角色。 OmniVoice 是一个开源的零样本多语言 TTS 模型，来自小米 k2-fsa 团队。 - 0.8B 参数的小模型 - 支持 600 多种语言的语音克隆 - 推理速度是实时的 40 倍 - 训练数据和过程全部公开 646 种语言、</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>语音克隆领域又冒出一个狠角色。&lt;/p>
&lt;p>OmniVoice 是一个开源的零样本多语言 TTS 模型，来自小米 k2-fsa 团队。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>0.8B 参数的小模型&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>支持 600 多种语言的语音克隆&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>推理速度是实时的 40 倍&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>训练数据和过程全部公开&lt;/p>
&lt;p>646 种语言、58.1 万小时训练数据，官方声称是目前语言覆盖最广的开源 TTS 项目。中文、英文、日文、阿拉伯文、斯瓦希里语、卢奥语……Demo 页面列了 102 种语言的对比样本，基本是目前同类开源项目里没见过的量级。&lt;/p>
&lt;p>几个细节让人印象挺深的：耳语和 ASMR 效果做得相当好，零样本克隆在方言和多语言场景下也很稳。&lt;/p>
&lt;p>三个核心能力&lt;/p>
&lt;p>① 语音克隆：给一段参考音频就行&lt;/p>
&lt;p>零样本语音克隆，不需要微调，不需要训练数据。给模型一段参考音频，它就能用这个声音说任何内容。&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>你录一段 10 秒的语音，模型就能用你的声音生成任意文本的朗读。方言、口音、语调特征都能保留。&lt;/p>
&lt;p>适用场景：有声书、虚拟主播、配音本地化，任何需要复刻特定声音的情况。&lt;/p>
&lt;p>② 语音设计：用文字控制声音特征&lt;/p>
&lt;p>除了克隆已有声音，OmniVoice 还支持&amp;quot;语音设计&amp;quot;模式：通过文字描述来定义声音的特征。&lt;/p>
&lt;p>你可以指定性别、年龄、音高、方言/口音，甚至是耳语模式。不需要参考音频，直接用属性组合出你想要的声音。&lt;/p>
&lt;p>同类别只能选一个，不同类别可以自由组合。比如 &amp;ldquo;male, elderly, low pitch, British accent&amp;rdquo; 这样的描述直接出音频。模型自动识别 instruct 语种，中英混写也行。&lt;/p>
&lt;p>这对需要批量生成不同角色声音的场景很实用，比如有声书、游戏配音。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>③ 推理速度：RTF 0.025&lt;/p>
&lt;p>推理速度 RTF 0.025，生成 40 秒音频只需约 1 秒，比实时快 40 倍。论文在 H20 GPU 上测试，16 步推理 batch size 1 的情况下 RTF 为 0.0319，同配置下比 ZipVoice（0.0557）更快。&lt;/p>
&lt;p>对比一下：大部分同类模型的 RTF 在 0.1 到 0.5 之间，OmniVoice 快了一个量级。这个速度跑批量任务基本不用等。&lt;/p>
&lt;p>底层架构是 Diffusion Language Model，这是一个比较新的方向，兼顾了生成质量和速度。&lt;/p>
&lt;p>其它特性&lt;/p>
&lt;p>副语言与发音精细控制&lt;/p>
&lt;p>非语言表达标签&lt;/p>
&lt;p>直接在合成文本里插入标签触发非语言音效：&lt;/p>
&lt;p>python&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;">&lt;code class="language-python" data-lang="python">&lt;span style="display:flex;">&lt;span>audio &lt;span style="color:#f92672">=&lt;/span> model&lt;span style="color:#f92672">.&lt;/span>generate(text&lt;span style="color:#f92672">=&lt;/span>&lt;span style="color:#e6db74">&amp;#34;[laughter] You really got me. I didn&amp;#39;t see that coming.&amp;#34;&lt;/span>)
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>目前支持的标签完整列表：[laughter]、[sigh]、[sniff]、[confirmation-en]、[question-en]、[question-ah/oh/ei/yi]、[surprise-ah/oh/wa/yo]、[dissatisfaction-hnn]，共 13 个。&lt;/p>
&lt;p>发音纠错&lt;/p>
&lt;p>中文用拼音带声调数字，可以纠正多音字：&lt;/p>
&lt;p>python&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;">&lt;code class="language-python" data-lang="python">&lt;span style="display:flex;">&lt;span>audio &lt;span style="color:#f92672">=&lt;/span> model&lt;span style="color:#f92672">.&lt;/span>generate(text&lt;span style="color:#f92672">=&lt;/span>&lt;span style="color:#e6db74">&amp;#34;这批货物打ZHE2出售后他严重SHE2本了，再也经不起ZHE1腾了。&amp;#34;&lt;/span>)
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>英文用 CMU 音素词典（大写，括号内），覆盖默认发音之外的读法。&lt;/p>
&lt;p>多说话人对话&lt;/p>
&lt;p>用 [Speaker_N]: 标签分配不同说话人，一次性生成多人对话音频，每个 Speaker 可以指定不同的参考音频或声音设计属性。&lt;/p>
&lt;hr>
&lt;p>跨语言克隆&lt;/p>
&lt;p>用某种语言的参考音频，生成另一种语言的语音，声线特征保持一致。比如用中文录音做 prompt，生成日语输出，说话人特征不丢失。&lt;/p>
&lt;hr>
&lt;p>噪声鲁棒性&lt;/p>
&lt;p>参考音频质量不理想时（有背景噪音、录音条件差），模型仍能稳定提取声线特征。论文验证了 prompt denoising 的效果：开启后 UTMOS 从 4.23 提升至 4.32（合成语音更干净），声音相似度 SIM-o 略降（0.697 → 0.668），符合设计预期，模型生成的是干净版本，而不是复刻噪音。&lt;/p>
&lt;p>架构：绕开两段式流水线&lt;/p>
&lt;p>现有的离散 NAR TTS 模型普遍走「文本→语义 token→声学 token」的两段式路子，中间多一层语义编解码器，结构复杂、误差容易叠加。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>OmniVoice 直接把文本映射到多码本声学 token，省掉了语义层这一跳。能做到这一点，靠两个关键设计：&lt;/p>
&lt;ol>
&lt;li>全码本随机掩码（Full-Codebook Random Masking）&lt;/li>
&lt;/ol>
&lt;p>训练时对所有码本的 token 做随机 mask，让模型同时学多个码本的重建，效率和效果都比分阶段训练好。&lt;/p>
&lt;ol start="2">
&lt;li>预训练 LLM 初始化&lt;/li>
&lt;/ol>
&lt;p>直接用预训练语言模型的权重初始化解码器，把语言模型积累的语言理解能力迁移进来，大幅提升合成语音的可懂度，在低资源语言上尤其明显。&lt;/p>
&lt;p>整体是扩散语言模型（Diffusion Language Model）风格的非自回归架构，生成速度比自回归模型快，质量上对标当前 SOTA。&lt;/p>
&lt;p>获取方式&lt;/p>
&lt;p>在线试用： HuggingFace Space 有网页 demo，直接上传参考音频就能试。&lt;/p>
&lt;p>本地部署：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None"># 方式一：pip
pip install omnivoice
# 方式二：uv
uv pip install omnivoice
&lt;/code>&lt;/pre>&lt;p>支持 NVIDIA GPU 和 Apple Silicon，两行命令就能跑。&lt;/p>
&lt;p>Demo 页面： zhu-han.github.io/omnivoice 有预生成的音频样本可以试听。&lt;/p>
&lt;p>已知局限&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>0.8B 小模型在复杂场景下质量不如大模型，长文本朗读可能出现节奏问题&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>600+ 语言覆盖广但质量参差不齐，主流语言效果好，小语种需自己测&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>项目比较新（GitHub 仅 5 次 commit），还在快速迭代中，API 可能变动&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>训练数据和过程公开，但论文中的具体训练细节需看 arXiv 原文&lt;/p>
&lt;p>开源，Apache-2.0 许可证，可商用。GitHub 1.2k star。&lt;/p>
&lt;p>👉 GitHub 仓库 | HuggingFace | arXiv 论文 | Demo&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/tts-omnivoice-0-8b-600/31350912">小米开源多语言 TTS 模型 OmniVoice：0.8B 小模型，600+ 语言零样本语音克隆&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>OpenAI 发布了一个插件 把 Codex 塞进了 Claude Code：竞争对手的代码审查员，现在随叫随到</title><link>https://goodinfo.net/posts/opensource/openai-%E5%8F%91%E5%B8%83%E4%BA%86%E4%B8%80%E4%B8%AA%E6%8F%92%E4%BB%B6-%E6%8A%8A-codex-%E5%A1%9E%E8%BF%9B%E4%BA%86-claude-code%E7%AB%9E%E4%BA%89%E5%AF%B9%E6%89%8B%E7%9A%84%E4%BB%A3%E7%A0%81%E5%AE%A1%E6%9F%A5%E5%91%98%E7%8E%B0%E5%9C%A8%E9%9A%8F%E5%8F%AB%E9%9A%8F%E5%88%B0/</link><pubDate>Tue, 31 Mar 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/openai-%E5%8F%91%E5%B8%83%E4%BA%86%E4%B8%80%E4%B8%AA%E6%8F%92%E4%BB%B6-%E6%8A%8A-codex-%E5%A1%9E%E8%BF%9B%E4%BA%86-claude-code%E7%AB%9E%E4%BA%89%E5%AF%B9%E6%89%8B%E7%9A%84%E4%BB%A3%E7%A0%81%E5%AE%A1%E6%9F%A5%E5%91%98%E7%8E%B0%E5%9C%A8%E9%9A%8F%E5%8F%AB%E9%9A%8F%E5%88%B0/</guid><description>OpenAI 官方发布了一个 Claude Code 插件 codex-plugin-cc，让你在 Claude Code 里直接调用 Codex 做代码审查、对抗性审查，甚至把整个任务丢给 Codex 接管。 这件事有意思的地方不在插件本身，在于谁做的：OpenAI，主动把自己的工具送进了 A</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>OpenAI 官方发布了一个 Claude Code 插件 codex-plugin-cc，让你在 Claude Code 里直接调用 Codex 做代码审查、对抗性审查，甚至把整个任务丢给 Codex 接管。&lt;/p>
&lt;p>这件事有意思的地方不在插件本身，在于谁做的：OpenAI，主动把自己的工具送进了 Anthropic 的地盘。&lt;/p>
&lt;p>Claude Code 有自己的插件生态，OpenAI 这次以官方身份入场，等于说&amp;quot;你用 Claude 写代码没问题，但让 Codex 帮你再看一眼&amp;quot;。&lt;/p>
&lt;p>能干什么：三个核心命令&lt;/p>
&lt;p>① /codex:review 标准代码审查&lt;/p>
&lt;p>最基础的用法。跑一遍你当前的未提交改动，或者指定一个分支做 diff 对比审查。只读，不改代码，审完给你一份报告。&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">/codex:review --base main
&lt;/code>&lt;/pre>&lt;p>效果和在 Codex 里直接跑 /review 一样，审查质量不打折。好处是你不用切窗口，在 Claude Code 的对话流里就能拿到第二个 AI 的意见。&lt;/p>
&lt;p>② /codex:adversarial-review 对抗性审查&lt;/p>
&lt;p>这个比普通审查狠。它不是帮你找 bug，是专门挑战你的设计决策，试图把你代码里的隐藏假设翻出来。&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">/codex:adversarial-review --base main &amp;#34;重点看权限校验逻辑&amp;#34;
&lt;/code>&lt;/pre>&lt;blockquote>
&lt;/blockquote>
&lt;p>你在做数据库迁移、改鉴权逻辑、写基础设施脚本这类高风险操作时，Claude 写完你不放心，让 Codex 以&amp;quot;找茬&amp;quot;的视角再过一遍。两个 AI 从不同角度看同一段代码，比一个 AI 自己审自己靠谱得多。&lt;/p>
&lt;p>同样是只读，不动你的代码。你可以加 &amp;ndash;background 让它后台跑，回头用 /codex:status 看进度。&lt;/p>
&lt;p>③ /codex:rescue 任务移交&lt;/p>
&lt;p>Claude 写代码写到一半卡住了，或者你觉得这个任务换个 AI 来可能更合适，直接把活交给 Codex：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">/codex:rescue &amp;#34;排查这个内存泄漏问题&amp;#34;
&lt;/code>&lt;/pre>&lt;p>Codex 会启动一个独立的子 Agent 来接手。支持 &amp;ndash;resume 继续上次的进度，也支持 &amp;ndash;fresh 从头来过。任务完成后用 /codex:result 拿结果，还能拿到 Codex 的 session ID，方便你后续直接在 Codex 里继续跟进。&lt;/p>
&lt;p>技术架构：没有额外运行时&lt;/p>
&lt;p>插件不是一个独立的服务。它通过你本地已经装好的 Codex CLI 和 app server 做中转，复用你现有的认证、配置、环境变量、MCP 设置。&lt;/p>
&lt;p>换句话说，如果你的 Codex 已经配好了（模型选择、推理强度、工具权限），插件直接继承这些配置，不用重新设一遍。&lt;/p>
&lt;p>你也可以在项目级别或用户级别的 config.toml 里调默认参数：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">model = &amp;#34;gpt-5.4-mini&amp;#34;
model_reasoning_effort = &amp;#34;xhigh&amp;#34;
&lt;/code>&lt;/pre>&lt;p>五步安装&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None"># 1. 添加插件市场
/plugin marketplace add openai/codex-plugin-cc
# 2. 安装插件
/plugin install codex@openai-codex
# 3. 重载插件
/reload-plugins
# 4. 运行安装检查
/codex:setup
# 5. 如果没登录过 Codex，认证一下
!codex login
&lt;/code>&lt;/pre>&lt;p>/codex:setup 会自动检测你有没有装 Codex CLI，没装的话会提示全局安装。&lt;/p>
&lt;p>前提条件&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>ChatGPT 订阅（免费版也行）或 OpenAI API key&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Node.js 18.18 或更高版本&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Codex 的用量会计入你的 ChatGPT/API 额度&lt;/p>
&lt;p>Review Gate：好用但危险的自动门控&lt;/p>
&lt;p>插件有一个可选功能叫 Review Gate。开启后，Claude Code 每次执行完操作，会自动触发一次 Codex 审查。如果 Codex 发现问题，Claude 会被阻止退出，必须先处理审查意见。&lt;/p>
&lt;p>听起来很美：写完代码自动审查，有问题自动修。&lt;/p>
&lt;p>但 VB Srivastav（插件作者）自己提醒了：这可能导致 Claude 和 Codex 互相触发，形成循环。Claude 改了代码触发 Codex 审查，Codex 提了意见 Claude 又改，改完又触发审查&amp;hellip; 额度会被快速消耗。&lt;/p>
&lt;p>建议： 只在你盯着屏幕的时候开 Review Gate，别开着就去泡茶。&lt;/p>
&lt;p>更大的背景：Codex 插件生态&lt;/p>
&lt;p>codex-plugin-cc 不是一个孤立的动作。OpenAI 同期给 Codex 上线了完整的插件系统，包括：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Skills： 自动化工作流，可以把自然语言指令和脚本打包成可复用的技能&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>MCP 集成： 通过 Model Context Protocol 连接外部服务&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>配置同步： 团队成员之间共享 Codex 配置，避免代码风格不一致&lt;/p>
&lt;p>插件目录里已经有十几个预置集成，能编辑 Google Drive 文件、审查 GitHub 仓库变更等。Anthropic 大约五个月前给 Claude Code 做了类似的生态（子 Agent、第三方工具接入），OpenAI 这次算是正面跟上了。&lt;/p>
&lt;p>codex-plugin-cc 这步棋很巧妙：把 Codex 变成 Claude Code 用户工作流里的一部分。你继续用 Claude Code 写代码，审查和兜底交给 Codex。用着用着，Codex 的存在感就建立起来了。&lt;/p>
&lt;p>已知限制&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>多文件变更的审查可能比较慢，建议用 &amp;ndash;background 后台运行&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Review Gate 有额度消耗失控风险，需要人工监控&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>插件依赖本地 Codex CLI，不是云端服务，你的机器需要保持运行&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>目前只能从 Claude Code 调 Codex，反过来不行&lt;/p>
&lt;p>获取方式&lt;/p>
&lt;p>GitHub 仓库已开源，按上面五步安装即可。不需要额外申请，有 ChatGPT 账号（包括免费版）就能用。&lt;/p>
&lt;p>原推文附有视频演示，可以看到插件在 Claude Code 中的实际操作效果。&lt;/p>
&lt;p>👉 GitHub 仓库 | OpenAI 社区公告 |&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/openai-codex-claude-code/31183880">OpenAI 发布了一个插件 把 Codex 塞进了 Claude Code：竞争对手的代码审查员，现在随叫随到&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>Hermes Agent 一个会自我进化的 AI Agent 越用越强</title><link>https://goodinfo.net/posts/opensource/hermes-agent-%E4%B8%80%E4%B8%AA%E4%BC%9A%E8%87%AA%E6%88%91%E8%BF%9B%E5%8C%96%E7%9A%84-ai-agent-%E8%B6%8A%E7%94%A8%E8%B6%8A%E5%BC%BA/</link><pubDate>Sun, 29 Mar 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/hermes-agent-%E4%B8%80%E4%B8%AA%E4%BC%9A%E8%87%AA%E6%88%91%E8%BF%9B%E5%8C%96%E7%9A%84-ai-agent-%E8%B6%8A%E7%94%A8%E8%B6%8A%E5%BC%BA/</guid><description>Nous Research 开源 Hermes Agent 一个会自我进化的 AI Agent，用越久越强，8.7k Stars Nous Research 开源了 Hermes Agent，一个可以部署在你自己服务器上的自主 AI Agent，内置持久记忆、自动生成技能、跨平台消息网关，MIT</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>Nous Research 开源 Hermes Agent 一个会自我进化的 AI Agent，用越久越强，8.7k Stars&lt;/p>
&lt;p>Nous Research 开源了 Hermes Agent，一个可以部署在你自己服务器上的自主 AI Agent，内置持久记忆、自动生成技能、跨平台消息网关，MIT 协议。&lt;/p>
&lt;p>这不是又一个套壳聊天机器人，也不是绑定在 IDE 里的编程助手。&lt;/p>
&lt;p>Hermes Agent 的核心差异是：它会越用越强。&lt;/p>
&lt;p>它能记住跨会话的上下文，解决过的复杂问题会自动写成可复用的 Skill 文档，下次遇到类似问题直接调用。用得越久，它积累的技能和对你的了解就越多。&lt;/p>
&lt;p>跟 Claude Code / Codex 有什么区别&lt;/p>
&lt;p>Claude Code 和 Codex 是编程助手，主要活在 IDE 或终端里，服务的是写代码这件事。&lt;/p>
&lt;p>Hermes Agent 的定位不一样：&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>简单说：Claude Code 是你坐在电脑前的编程搭档，Hermes Agent 是一个住在服务器上、你不在的时候也能干活的自主体。&lt;/p>
&lt;p>四个核心能力&lt;/p>
&lt;p>① 越用越强的学习闭环&lt;/p>
&lt;p>这是 Hermes Agent 最独特的地方。它有一套多层记忆系统：&lt;/p>
&lt;p>会话记忆： 当前对话的上下文，跟普通 AI 一样。&lt;/p>
&lt;p>持久记忆： 跨会话保留你的偏好、项目信息、历史任务。关掉再开，它还记得你。&lt;/p>
&lt;p>技能记忆： 解决了一个复杂问题后，Agent 会自动把解题过程写成一个 SKILL.md 文件。下次遇到类似问题，它直接调用这个 Skill，不用重新推理。&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>你让它修了一个 Docker 网络问题，它解决后自动生成了一个&amp;quot;Docker 网络排错&amp;quot;的 Skill。三周后你遇到类似问题，它直接调用那个 Skill，几秒钟搞定，不用你再从头描述一遍。&lt;/p>
&lt;p>而且这些 Skill 会在使用中自我改进。用的次数越多，Skill 越精炼。&lt;/p>
&lt;p>② 住在你的服务器上，不绑定笔记本&lt;/p>
&lt;p>大多数 AI 助手都住在你的笔记本上，你合上盖子它就停了。&lt;/p>
&lt;p>Hermes Agent 可以部署在 $5/月的 VPS 上、Docker 容器里、SSH 远程服务器上，甚至 Modal 和 Daytona 这种 serverless 环境（空闲时几乎不花钱）。&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>你在服务器上启动了一个长时间的数据分析任务，然后关掉电脑去吃饭。半小时后手机上 Telegram 弹出消息：&amp;ldquo;分析完了，结果如下……&amp;rdquo;&lt;/p>
&lt;p>它支持六种运行环境：本地、Docker、SSH、Daytona、Singularity、Modal。&lt;/p>
&lt;p>③ 跨平台消息网关&lt;/p>
&lt;p>一个 Agent 同时连接 Telegram、Discord、Slack、WhatsApp、Signal、邮件和 CLI。在任何一个平台发消息都能跟它对话，所有平台共享同一份记忆和技能库。&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>你在电脑上通过 CLI 跟它讨论了一个项目方案，出门后在 Telegram 上继续聊，它记得之前说过的所有内容。&lt;/p>
&lt;p>还支持语音消息自动转文字，以及内置的 cron 定时任务，可以设定&amp;quot;每天早上 8 点给我发一份项目进度简报到 Telegram&amp;quot;。&lt;/p>
&lt;p>④ 子 Agent 并行执行&lt;/p>
&lt;p>可以派出多个隔离的子 Agent 同时处理不同任务，每个子 Agent 有自己独立的对话和终端环境，互不干扰。&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>你让它同时做三件事：一个子 Agent 跑数据清洗，一个子 Agent 做代码审查，一个子 Agent 写文档。三个并行执行，结果汇总给你。&lt;/p>
&lt;p>还支持用 Python 脚本通过 RPC 调用工具，把多步骤流程压缩成单次推理调用，节省 context 消耗。&lt;/p>
&lt;p>40+ 内置工具&lt;/p>
&lt;p>类别 工具 Web 搜索、浏览器自动化（点击/输入/截图） 系统 终端执行、文件系统操作、代码执行 AI 视觉分析、图片生成、文字转语音、多模型推理 规划 任务规划、cron 定时调度、记忆管理 协作 子 Agent 派发、RPC 工具调用&lt;/p>
&lt;p>Skills 方面，内置 40+ 个覆盖 MLOps、GitHub 工作流、研究等场景，兼容 agentskills.io 开放标准，可以从 ClawHub、LobeHub 和 GitHub 安装社区贡献的 Skill。&lt;/p>
&lt;p>安装&lt;/p>
&lt;p>一行命令，60 秒搞定：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash
&lt;/code>&lt;/pre>&lt;p>自动装 Python 3.11、克隆仓库、配置依赖。不需要 sudo。支持 Linux、macOS、WSL2。&lt;/p>
&lt;p>装完之后：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">hermes setup # 交互式配置，选模型
hermes # 开始聊
&lt;/code>&lt;/pre>&lt;p>要连接消息平台：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">hermes gateway setup # 配置 Telegram / Discord / Slack 等
hermes gateway # 启动网关
hermes gateway install # 装成系统服务，开机自启
&lt;/code>&lt;/pre>&lt;p>模型支持&lt;/p>
&lt;p>不锁定任何模型，hermes model 一条命令随意切换模型：&lt;/p>
&lt;p>Nous Portal、OpenRouter（200+ 模型）、OpenAI、z.ai/GLM、Kimi/Moonshot、MiniMax，或者你自己的 endpoint。&lt;/p>
&lt;p>研究用途&lt;/p>
&lt;p>这个部分可能只有做 AI 研究的人关心：Hermes Agent 内置了批量轨迹生成（parallel workers + checkpointing）、Atropos RL 训练集成、ShareGPT 格式导出（含轨迹压缩）。可以用它生成大量 tool-calling 训练数据来微调下一代模型。&lt;/p>
&lt;p>已知限制&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Windows 原生不支持，必须用 WSL2&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>消息网关模式下安全风险较高，一个被入侵的 Telegram 账号等于拿到了 Agent 的全部权限&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Skill 生态还比较年轻，社区贡献的 Skill 数量有限&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>对非 Hermes 系列模型的 tool-calling 兼容性没有充分测试&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>持久记忆依赖本地存储，没有云端同步方案&lt;/p>
&lt;p>背景&lt;/p>
&lt;p>Nous Research 是开源 AI 社区的知名团队，做过 Hermes、Nomos、Psyche 等系列模型。Hermes Agent 是他们从&amp;quot;提供模型权重&amp;quot;扩展到&amp;quot;提供完整 Agent 框架&amp;quot;的第一步。&lt;/p>
&lt;p>2 月 25 日首次发布，一个月内从 44 Stars 涨到 8.7k Stars。v0.3.0 优化了子 Agent 和 cron 调度。&lt;/p>
&lt;p>在 Agent 框架越来越多的当下，Hermes Agent 的差异化很明确：不是帮你写代码的助手，是一个住在服务器上、持续进化、不需要你在线也能干活的自主体。这个定位目前在开源领域还没有太多直接竞品。&lt;/p>
&lt;p>这件事对行业的影响&lt;/p>
&lt;p>从行业角度看，Hermes Agent 代表的是 AI Agent 从&amp;quot;工具&amp;quot;到&amp;quot;基础设施&amp;quot;的转变。&lt;/p>
&lt;p>之前不管是 Claude Code 还是 Codex，本质上都是&amp;quot;你坐在电脑前，AI 帮你干活&amp;quot;。你关掉终端，它就停了。Hermes Agent 打破的是这个前提：Agent 不需要你在线，它自己住在服务器上，24 小时运转，持续学习，主动执行。&lt;/p>
&lt;p>这其实是一个分水岭。当 Agent 不再依赖人类的实时在场，它就不再是&amp;quot;助手&amp;quot;了，它更像是一个&amp;quot;数字员工&amp;quot;，有自己的记忆、自己的技能库、自己的工作节奏。你不是在用一个工具，你是在雇一个不下班的同事。&lt;/p>
&lt;p>开源加上 MIT 协议，意味着任何团队都可以拿来部署自己的&amp;quot;数字员工&amp;quot;。如果这个模式跑通，AI Agent 的竞争焦点就不再是&amp;quot;谁更聪明&amp;quot;，而是&amp;quot;谁积累的技能和记忆更多&amp;quot;，越早部署、用得越久的 Agent 就越强。这个飞轮一旦转起来，后来者很难追。&lt;/p>
&lt;p>👉 官网 | GitHub | 文档&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/hermes-agent-ai-agent/31118826">Hermes Agent 一个会自我进化的 AI Agent 越用越强&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>Pretext: 纯 TypeScript 文本测量引擎 解锁 30 年来 Web 做不到的排版问题</title><link>https://goodinfo.net/posts/opensource/pretext-%E7%BA%AF-typescript-%E6%96%87%E6%9C%AC%E6%B5%8B%E9%87%8F%E5%BC%95%E6%93%8E-%E8%A7%A3%E9%94%81-30-%E5%B9%B4%E6%9D%A5-web-%E5%81%9A%E4%B8%8D%E5%88%B0%E7%9A%84%E6%8E%92%E7%89%88%E9%97%AE%E9%A2%98/</link><pubDate>Sun, 29 Mar 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/pretext-%E7%BA%AF-typescript-%E6%96%87%E6%9C%AC%E6%B5%8B%E9%87%8F%E5%BC%95%E6%93%8E-%E8%A7%A3%E9%94%81-30-%E5%B9%B4%E6%9D%A5-web-%E5%81%9A%E4%B8%8D%E5%88%B0%E7%9A%84%E6%8E%92%E7%89%88%E9%97%AE%E9%A2%98/</guid><description>前 React 核心团队成员、ReasonML 作者、现 Midjourney 工程师 Cheng Lou 开源了 Pretext，一个纯 TypeScript 写的文本测量和排版库。 它能在完全不碰 DOM 的情况下精确计算文本高度、行数、换行位置，让网页排版绕过浏览器里最贵的操作：布局回流（</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>前 React 核心团队成员、ReasonML 作者、现 Midjourney 工程师 Cheng Lou 开源了 Pretext，一个纯 TypeScript 写的文本测量和排版库。&lt;/p>
&lt;p>它能在完全不碰 DOM 的情况下精确计算文本高度、行数、换行位置，让网页排版绕过浏览器里最贵的操作：布局回流（layout reflow）。&lt;/p>
&lt;p>核心就一句话：能让你不用真的把文字放到网页上，就能提前知道文字会占多大空间。&lt;/p>
&lt;p>先打个比方。&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>你装修房子，买了一个书架，想知道放在客厅那面墙能不能放得下。正常人会拿尺子量一下墙的宽度和书架的宽度，对比一下就知道了。&lt;/p>
&lt;p>但浏览器不是这么干的。浏览器的做法是：把书架搬过去，塞进客厅，然后看看放不放得下。放不下？搬走，换个位置再塞一次。每次你想知道&amp;quot;放不放得下&amp;quot;，它就搬一次家具。&lt;/p>
&lt;p>这就是为什么网页有时候会&amp;quot;闪&amp;quot;一下，聊天列表滑着滑着会&amp;quot;跳&amp;quot;一下。&lt;/p>
&lt;p>浏览器在反复搬家具。&lt;/p>
&lt;p>Pretext 做的事情就是给浏览器一把尺子。&lt;/p>
&lt;p>量一下就知道了，不用搬。&lt;/p>
&lt;p>它用纯数学计算文字的高度和行数，不需要真的把文字放到网页上去排版。500 段文字的计算只要 0.09 毫秒，比浏览器&amp;quot;搬家具&amp;quot;快几百倍。&lt;/p>
&lt;p>GitHub 一天 6000+ star，推文 780 万浏览、3.4 万点赞、3.6 万收藏。&lt;/p>
&lt;p>Cheng Lou 自己的原话是&amp;quot;I have crawled through depths of hell to bring you this&amp;quot;（我从地狱深处爬出来把这东西带给你们），语气夸张，但看完 Demo 你会觉得他没吹。&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>Pretext 实时文字排版的效果&lt;/p>
&lt;p>Web 排版 30 年的老毛病&lt;/p>
&lt;p>做过前端的都知道这个痛：想知道一段文字占多高、哪里换行，你得把文字塞进 DOM，让浏览器排一遍版，再用 getBoundingClientRect 或 offsetHeight 读数值出来。&lt;/p>
&lt;p>这叫布局回流，是浏览器最贵的操作之一。改文字、调宽度、加元素，浏览器可能重新算整个页面布局。&lt;/p>
&lt;p>很多高级排版效果需要提前知道文字尺寸：&lt;/p>
&lt;p>瀑布流要知道每个卡片多高，聊天气泡要知道最紧凑的宽度，虚拟长列表要知道每一项占多少空间，文字绕图要知道每行该放几个字。&lt;/p>
&lt;p>传统做法要么粗略估算忍受跳动，要么触发大量回流拖垮性能。这个困境从 CSS 1.0 到今天，30 年了。&lt;/p>
&lt;p>Pretext 的做法&lt;/p>
&lt;p>思路很直接：把文本测量从 DOM 里彻底抽出来。&lt;/p>
&lt;p>prepare() 用 Canvas 的 measureText 做一次性的文字测量（这一步不触发回流），把文本分段、应用换行规则、缓存每段宽度。之后调 layout()，所有计算都是纯数学运算，不再碰 DOM。&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">import { prepare, layout } from &amp;#39;@chenglou/pretext&amp;#39;
const prepared = prepare(&amp;#39;AGI 春天到了. بدأت الرحلة 🚀&amp;#39;, &amp;#39;16px Inter&amp;#39;)
const { height, lineCount } = layout(prepared, 320, 20)
// 320px 宽、20px 行高下的精确高度和行数，不碰 DOM
&lt;/code>&lt;/pre>&lt;p>两行代码。性能差距很大：500 段文本的批次测试里，prepare() 总共 19ms（一次性开销），layout() 只要 0.09ms。算完 500 段文字的高度，连 0.1 毫秒都不到。&lt;/p>
&lt;p>它还处理了各种语言的边缘情况：中文、日文、阿拉伯文（从右到左）、emoji、混合双向文本，全部支持。README 示例里同时出现中文、阿拉伯文和 emoji，实测都能正确处理。&lt;/p>
&lt;p>不只是量高度&lt;/p>
&lt;p>高度测量只是入门。Pretext 的 API 分两层，第二层让你手动控制每一行的排版，能做的事情比想象中多很多。&lt;/p>
&lt;p>文字绕图： 传统 CSS 的 float 能让文字绕图，但控制力极有限。Pretext 的 layoutNextLine() 可以逐行排版，每行给不同宽度。图片旁边的行窄一点，图片下面恢复全宽，文字像杂志一样自然地绕着图片流动。&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">while (true) {
const width = y &amp;lt; image.bottom ? columnWidth - image.width : columnWidth
const line = layoutNextLine(prepared, cursor, width)
if (line === null) break
ctx.fillText(line.text, 0, y)
cursor = line.end
y += 26
}
&lt;/code>&lt;/pre>&lt;p>杂志和报纸排版里最基本的文字绕图，在浏览器里终于能干净地实现了。&lt;/p>
&lt;p>消息气泡收缩包裹： 聊天界面里消息气泡宽度怎么定？太宽浪费空间，太窄多余换行。walkLineRanges() 能找到&amp;quot;保持行数不变的最窄宽度&amp;quot;。这个多行收缩包裹能力，Web 原生一直缺。&lt;/p>
&lt;p>虚拟列表不用瞎猜高度： 做过长列表虚拟化的都知道，最头疼的就是&amp;quot;每一项多高&amp;quot;。以前要么固定高度（丑），要么先渲染再测量（慢），要么给估算值忍受跳动。现在渲染之前就精确知道高度了。&lt;/p>
&lt;p>开发时校验文字溢出： 按钮上的文字会不会换行？标签会不会被截断？以前靠浏览器跑一遍才知道。Pretext 让你在构建阶段就能验证，甚至可以丢给 AI 批量检查，不需要浏览器环境。&lt;/p>
&lt;p>普通用户能感受到什么&lt;/p>
&lt;p>你可能觉得这是前端开发者才关心的事。但你每天都在被这个问题影响：&lt;/p>
&lt;p>聊天列表不&amp;quot;跳&amp;quot;了。 微信、飞书这类应用，滑动聊天记录时偶尔会突然跳一下，因为消息高度算错了。有了 Pretext，不用渲染就能精确算出每条消息的高度，列表就稳了。&lt;/p>
&lt;p>网页不&amp;quot;闪&amp;quot;了。 你打开一篇文章，内容加载出来后页面往下一跳，你正在看的东西跑到了别的位置。因为浏览器一开始不知道文字有多高。Pretext 能提前算好，预留空间，页面就不跳了。&lt;/p>
&lt;p>消息气泡不浪费空间了。 你发一段长消息，气泡宽度按最长那行来，最后一行很短的时候后面全是空白。CSS 做不到&amp;quot;找到保持同样行数的最窄宽度&amp;quot;。Pretext 能算出来，气泡每个像素都不浪费。&lt;/p>
&lt;p>AI 生成界面时知道文字会不会溢出。 AI 生成了一个按钮写着&amp;quot;立即获取限时优惠&amp;quot;，在手机上放不放得下？以前只能渲染出来才知道。有了 Pretext，生成阶段就能算出来，超了就换措辞。&lt;/p>
&lt;p>性能&lt;/p>
&lt;p>在当前基准测试中：&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>layout() 比 prepare() 快 200 倍，因为它完全不碰浏览器。你可以在一帧（16ms）内对几千段文字重新计算布局。&lt;/p>
&lt;p>语言支持&lt;/p>
&lt;p>支持所有语言，包括中文、日文、韩文、阿拉伯文（RTL）、混合双向文本、emoji。Demo 里用的示例文字就是中英阿混合加 emoji 的。&lt;/p>
&lt;p>支持 pre-wrap 模式（保留空格、tab、换行符），适合 textarea 场景。&lt;/p>
&lt;p>安装&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">npm install @chenglou/pretext
&lt;/code>&lt;/pre>&lt;p>MIT 协议，免费开源。&lt;/p>
&lt;p>这件事的意义&lt;/p>
&lt;p>Pretext 做的事情看起来很小（测量文字高度），但它打开了一扇门：让前端开发者能在 DOM 之外做布局计算。&lt;/p>
&lt;p>以前你想做任何涉及&amp;quot;文字有多高&amp;quot;的计算，都绕不开 DOM 和 reflow。Pretext 把这个依赖切断了。文本测量变成了纯函数，可以在 Web Worker 里跑，可以在渲染前跑，可以在 AI 生成 UI 的时候跑。&lt;/p>
&lt;p>对 AI 生成界面这个方向来说，这可能是一个关键的基础设施。AI 生成一个按钮上的文字，目前没有办法在不渲染的情况下知道文字会不会溢出。有了 Pretext，这个验证可以在生成阶段就完成。&lt;/p>
&lt;p>Demo 值得看一遍&lt;/p>
&lt;p>Pretext 的在线 Demo 有七个场景，每个都像&amp;quot;不该在浏览器里存在的东西&amp;quot;：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>手风琴折叠：展开收起高度提前算好，动画丝滑不抖&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>气泡消息：紧凑的多行气泡，同样的文字占更少面积&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>动态排版：障碍物感知的标题路由，文字连续流动&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>编辑引擎：实时文字重排、拉引、多栏排版，全程零 DOM 测量&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>富文本：内联代码、链接、标签混排，标签整体不被拆行&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>瀑布流：用 Pretext 预测高度代替 DOM 读取&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>ASCII 字符画：用比例字体做粒子驱动的 ASCII 艺术&lt;/p>
&lt;p>渲染目标不限于 DOM，Canvas、SVG、WebGL 都行，服务端渲染在路线图上。&lt;/p>
&lt;p>👉 Cheng Lou 原推 | GitHub | 在线 Demo&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/pretext-ts-dom-30-web/31125482">Pretext: 纯 TypeScript 文本测量引擎 解锁 30 年来 Web 做不到的排版问题&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>Meta 刚发了个能模拟人脑的 AI 模型 能预测你脑子是怎么想的</title><link>https://goodinfo.net/posts/opensource/meta-%E5%88%9A%E5%8F%91%E4%BA%86%E4%B8%AA%E8%83%BD%E6%A8%A1%E6%8B%9F%E4%BA%BA%E8%84%91%E7%9A%84-ai-%E6%A8%A1%E5%9E%8B-%E8%83%BD%E9%A2%84%E6%B5%8B%E4%BD%A0%E8%84%91%E5%AD%90%E6%98%AF%E6%80%8E%E4%B9%88%E6%83%B3%E7%9A%84/</link><pubDate>Fri, 27 Mar 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/meta-%E5%88%9A%E5%8F%91%E4%BA%86%E4%B8%AA%E8%83%BD%E6%A8%A1%E6%8B%9F%E4%BA%BA%E8%84%91%E7%9A%84-ai-%E6%A8%A1%E5%9E%8B-%E8%83%BD%E9%A2%84%E6%B5%8B%E4%BD%A0%E8%84%91%E5%AD%90%E6%98%AF%E6%80%8E%E4%B9%88%E6%83%B3%E7%9A%84/</guid><description>兄弟们，Meta 昨天悄悄扔了个炸弹。 不是聊天机器人，也不是图片生成模型，而是一个能模拟人脑的 AI 模型，叫 TRIBE v2（Trimodal Brain Encoder v2）。 简单说就是：给你的大脑做一个数字双胞胎，给它看一段视频、听一段播客，它能直接预测你大脑会怎么反应</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>兄弟们，Meta 昨天悄悄扔了个炸弹。&lt;/p>
&lt;p>不是聊天机器人，也不是图片生成模型，而是一个能&amp;quot;模拟人脑&amp;quot;的 AI 模型，叫 TRIBE v2（Trimodal Brain Encoder v2）。&lt;/p>
&lt;p>简单说就是：给你的大脑做一个&amp;quot;数字双胞胎&amp;quot;，给它看一段视频、听一段播客，它能直接预测你大脑会怎么反应。不是猜，是精确到脑区级别的预测。&lt;/p>
&lt;p>🧠 具体是个什么东西？&lt;/p>
&lt;p>神经科学做了几十年实验，一直面对一个很现实的问题：想研究大脑怎么处理信息，就得找真人躺进 fMRI 机器里扫描，一个实验就是几个月，成本高，样本少，结论还经常只能解释一小块脑区。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>每个实验都需要重新采集脑数据（如 fMRI）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>导致：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>成本高（设备昂贵）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>时间长（数月级别）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>难以规模化&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>数据难以跨实验整合&lt;/p>
&lt;p>Meta 的 FAIR 团队开源的 TRIBE v2，相当于：给人脑的神经活动做了一个 AI 模型，输入视频、声音或文字，它能预测你大脑 7 万个体素（可以理解为大脑的&amp;quot;像素点&amp;quot;）分别会怎么响应。研究者不用再每次都找真人做实验，在电脑上跑一遍就行。&lt;/p>
&lt;p>这个方向有个专门的术语叫 in silico neuroscience，也就是&amp;quot;在硅片上做神经科学&amp;quot;，用计算机模拟来代替真人实验。&lt;/p>
&lt;p>TRIBE v2 能预测人脑对几乎所有视觉和听觉刺激的响应。你看电影、听播客、看图片、读文字，它都能预测你脑子里哪些区域会亮起来，活动强度有多大。&lt;/p>
&lt;p>底层技术用的是 Transformer 架构（对，跟 ChatGPT 同一个技术框架），输入端接了三个模态：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>视觉：V-JEPA 2&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>音频：Wav2Vec2-BERT（来自 Seamless）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>语言：Llama 3.2&lt;/p>
&lt;p>三路信号融合之后，映射到大脑的 fMRI 活动模式上。&lt;/p>
&lt;p>训练数据来自 1000 多小时的 fMRI 记录，涉及 700 多名健康志愿者，他们在扫描仪里看电影、听播客、看图片、读文本，各种日常刺激都覆盖了。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>🔥 到底牛在哪？&lt;/p>
&lt;p>先说几个硬指标。&lt;/p>
&lt;p>分辨率暴涨 70 倍。 之前的版本只能覆盖大约 1000 个脑体素（voxel），现在直接拉到约 70000 个。这意味着从&amp;quot;看个大概&amp;quot;变成了&amp;quot;看得清细节&amp;quot;，能区分你听到耳语和听到巨响时大脑反应的微妙差别。&lt;/p>
&lt;p>零样本预测。 不需要重新训练，就能预测它从未见过的个体的大脑反应，效果比之前的方法提升了 2-3 倍。之前的模型都是&amp;quot;定制款&amp;quot;，给每个人训练一遍才能用。现在是通用的，新人来了直接能预测。&lt;/p>
&lt;p>跨语言泛化。 模型没学过的语言，它也能预测大脑对该语言的反应，不用重新校准。&lt;/p>
&lt;p>比真实扫描还&amp;quot;干净&amp;quot;。 有时候模型生成的预测信号甚至比真实 fMRI 扫描还干净，因为 fMRI 本身噪声很大，而模型能过滤掉这些噪声。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>🔬 这玩意能干啥？&lt;/p>
&lt;p>核心应用场景是 Meta 提出的&amp;quot;计算机模拟神经科学&amp;quot;（in-silico neuroscience）。&lt;/p>
&lt;p>打个比方：航空工程师设计飞机，不用每次都造一架真飞机去吹风洞，用计算机模拟就行。现在神经科学家也一样，不需要每次实验都找真人受试者，用 TRIBE v2 就能快速测试关于大脑功能的假设。&lt;/p>
&lt;p>这对几个方向影响很大：&lt;/p>
&lt;p>神经疾病研究加速。 想研究阿尔茨海默症、癫痫、失语症这些疾病对大脑的影响，以前要招大量患者做 fMRI 扫描，耗时耗力。有了数字大脑模型，可以先用模拟跑一遍，缩小研究范围再做临床验证。&lt;/p>
&lt;p>反哺 AI 系统设计。 Meta 明确说了，要用脑科学的洞察来指导 AI 系统的改进。搞清楚人脑怎么处理多模态信息，能帮助设计更好的 AI 架构。&lt;/p>
&lt;p>BCI（脑机接口）铺路。 虽然 TRIBE v2 本身不是脑机接口产品，但底层研究能直接为 Meta Reality Labs 的 AR/VR 产品提供支撑，比如预测用户感知来优化体验。&lt;/p>
&lt;p>📦 开源情况&lt;/p>
&lt;p>论文、模型权重和代码都以 CC BY-NC 协议开源了，非商业用途随便用。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>模型：huggingface.co/facebook/tribev2&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>代码：github.com/facebookresearch/tribev2&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>论文：ai.meta.com/research/publications/a-foundation-model-of-vision-audition-and-language-for-in-silico-neuroscience/&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Demo：aidemos.atmeta.com/tribev2&lt;/p>
&lt;p>离&amp;quot;理解大脑&amp;quot;还有多远&lt;/p>
&lt;p>这个工作确实很扎实，但离&amp;quot;用 AI 理解大脑&amp;quot;还差得远。&lt;/p>
&lt;p>fMRI 本身就有天花板。它测的是血氧水平变化，时间分辨率在秒级，空间分辨率在毫米级，能捕捉到的只是大脑活动的一个粗略轮廓。神经元层面发生了什么，fMRI 看不到。TRIBE v2 再怎么精准，也是在这个框框里做优化。&lt;/p>
&lt;p>另外，CC BY-NC 4.0 意味着不能商用。对学术研究来说没问题，但如果有人想基于这个做临床产品或者脑机接口应用，需要另外谈授权。&lt;/p>
&lt;p>还有一个根本性的限制：这个模型预测的是&amp;quot;典型大脑&amp;quot;的平均响应，对于研究个体差异、研究病理状态下的脑活动，目前的能力还有限。论文里也承认，对少数被试的预测效果明显不如多数被试。&lt;/p>
&lt;p>不过话说回来，Meta 在脑科学 + AI 交叉领域的布局确实越来越认真了。从去年的 MEG 脑成像解码，到语音大脑活动研究，再到现在的 TRIBE v2，这条线一直没断。这是一个有持续投入的研究方向。&lt;/p>
&lt;p>对神经科学研究者来说，TRIBE v2 是一个实打实有用的工具。它不会取代真人实验，但能大幅降低实验设计阶段的试错成本，加速假设验证的迭代速度。这个价值已经足够实在了。&lt;/p>
&lt;hr>
&lt;p>总结&lt;/p>
&lt;p>TRIBE v2 的意义不在于&amp;quot;Meta 能读你的脑子&amp;quot;，而在于神经科学研究的范式可能要变了。&lt;/p>
&lt;p>以前是：招人，扫脑，分析数据，发论文，一个实验搞几个月。以后可能变成：先用数字大脑模拟跑一遍，筛出最有价值的假设，再用真人验证，效率完全不一样。&lt;/p>
&lt;p>而且这是 Meta 在 AI 领域不走&amp;quot;聊天机器人&amp;quot;路线的一个典型动作。别人在卷对话能力的时候，Meta 在搞 V-JEPA、搞 TRIBE、搞脑科学基础模型。你可以说它不务正业，但也可以说它在布一盘更大的棋。&lt;/p>
&lt;p>项目地址：https://aidemos.atmeta.com/tribev2/&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/meta-ai/31062955">Meta 刚发了个能&amp;quot;模拟人脑&amp;quot;的 AI 模型&amp;quot; 能预测你脑子是怎么想的&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>Lenny Rachitsky 将自己的350 篇顶级产品文章 + 300 集播客全部开源</title><link>https://goodinfo.net/posts/opensource/lenny-rachitsky-%E5%B0%86%E8%87%AA%E5%B7%B1%E7%9A%84350-%E7%AF%87%E9%A1%B6%E7%BA%A7%E4%BA%A7%E5%93%81%E6%96%87%E7%AB%A0-300-%E9%9B%86%E6%92%AD%E5%AE%A2%E5%85%A8%E9%83%A8%E5%BC%80%E6%BA%90/</link><pubDate>Wed, 18 Mar 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/lenny-rachitsky-%E5%B0%86%E8%87%AA%E5%B7%B1%E7%9A%84350-%E7%AF%87%E9%A1%B6%E7%BA%A7%E4%BA%A7%E5%93%81%E6%96%87%E7%AB%A0-300-%E9%9B%86%E6%92%AD%E5%AE%A2%E5%85%A8%E9%83%A8%E5%BC%80%E6%BA%90/</guid><description>上一次 Lenny Rachitsky 只是随手把播客转录丢到网上，社区就炸了：有人用它做了一个宝可梦风格的 RPG 游戏，有人搭了一个育儿智慧网站，有人造了 Twitter 机器人，加起来超过 50 个项目。一个设计师用 Claude Code + Cursor 花 8 小时就做出了 LennyR</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>上一次 Lenny Rachitsky 只是随手把播客转录丢到网上，社区就炸了：有人用它做了一个宝可梦风格的 RPG 游戏，有人搭了一个育儿智慧网站，有人造了 Twitter 机器人，加起来超过 50 个项目。一个设计师用 Claude Code + Cursor 花 8 小时就做出了 LennyRPG，玩家在像素世界里挑战播客嘉宾的产品知识，赢了还能像抓宝可梦一样收集他们。&lt;/p>
&lt;p>这次，Lenny 把赌注加大了：不光是播客转录，连 Newsletter 全文也一起开放。349 篇文章 + 289 集播客，全部转成 AI 友好的 Markdown 格式，附带 MCP 服务器和 GitHub 仓库，直接喂给 Claude Code、Cursor 这类 AI 工具就能用。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>Lenny 是谁，这批数据有什么价值&lt;/p>
&lt;p>如果你做产品但不知道 Lenny Rachitsky，这么说吧：他是硅谷最有影响力的产品经理类内容创作者之一，前 Airbnb 增长产品经理，他的 Lenny&amp;rsquo;s Newsletter 是 Substack 上最大的付费科技 Newsletter 之一。&lt;/p>
&lt;p>这 349 篇文章覆盖了产品管理、增长策略、用户研究、创业方法论等核心话题，播客嘉宾包括 Spotify、Figma、Notion、Stripe 等公司的产品负责人。6 年积累下来，已经是产品管理领域最系统的知识库之一。&lt;/p>
&lt;p>对开发者来说，这可能是目前最高质量的产品管理领域训练数据集之一。&lt;/p>
&lt;p>拿到什么，怎么拿&lt;/p>
&lt;p>数据通过 LennysData.com 获取，分两个层级：&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>有一个限制：最近 3 个月内发布的内容不包含在内。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>技术细节：开发者怎么用&lt;/p>
&lt;p>数据以 ZIP 包形式提供，解压后是标准的 Markdown 文件，每篇文章/每集播客一个文件。仓库根目录有一个 index.json，包含所有内容的元数据：标题、发布日期、字数统计、Newsletter 副标题、播客嘉宾姓名和简介。&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">repository/
├── index.json # 元数据索引
├── newsletters/ # 349 篇文章
├── podcasts/ # 289 集转录
├── LICENSE.md
└── README.md
&lt;/code>&lt;/pre>&lt;p>三种接入方式：
1.&lt;/p>
&lt;p>直接 Clone：git clone 公开的入门仓库，先看样本再决定要不要订阅&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>ZIP 下载：通过 LennysData.com 下载完整压缩包&lt;/p>
&lt;ol start="3">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>MCP 服务器：连接 MCP Server，让 AI 工具直接查询和检索内容，不用自己管数据&lt;/p>
&lt;p>MCP 这条路线最值得关注。AI 工具之间有一套通用的对接标准叫 MCP，Lenny 提供的 MCP 服务器意味着你可以在 Claude Code 或 Cursor 里直接&amp;quot;问&amp;quot;这个数据集问题，AI 代理自动检索相关内容来回答，不需要手动翻文件。&lt;/p>
&lt;p>社区之前造了什么&lt;/p>
&lt;p>上一轮只开放了播客转录（320 集），社区就已经造出了一堆让 Lenny 本人都惊讶的东西：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>LennyRPG：宝可梦风格的产品知识问答游戏，设计师 Ben Shih（Miro 增长设计师）用 Claude Code + Codex + Cursor 花 8 小时做出来的。他先用 RSS 补充了播客元数据，再用 AI 批量生成每集的知识问答题&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Tiny Stakeholders：把播客里的产品管理经验应用到育儿场景&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Lenny Playbook：把转录变成结构化笔记、可视化摘要和聊天界面&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Learn from Lenny：X 上的 AI 代理，用播客内容回答产品问题&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>还有用户研究脚本生成器、信息图自动生成、各种 RAG 搜索工具&lt;/p>
&lt;p>这次数据量翻倍，还加了 Newsletter 全文，能玩的花样明显更多。比如：跨文章+播客的知识图谱、个性化产品顾问、特定领域的深度研究工具。&lt;/p>
&lt;p>社区挑战赛：造点什么出来&lt;/p>
&lt;p>Lenny 同时发起了一个挑战赛：用这批数据构建一个项目，把链接提交到 Newsletter 评论区，他会挑选最优秀的作品，赠送 1 年免费订阅。获胜者将在 4 月 15 日公布。&lt;/p>
&lt;p>之前已经用播客数据做过项目的人也可以把新数据整合进去，重新提交。&lt;/p>
&lt;p>为什么这件事值得产品圈关注&lt;/p>
&lt;p>Lenny 做了一个目前很少有创作者敢做的事：把自己多年积累的核心内容资产，以技术友好的方式完全开放。&lt;/p>
&lt;p>大多数内容创作者把付费内容锁得死死的，Lenny 反过来：把内容变成开发者可以直接调用的数据集，鼓励社区在此基础上构建新产品。这背后的逻辑是：当社区基于你的内容造出 50 个工具，你的品牌影响力和订阅价值反而更高了。LennyRPG 这样的项目本身就是最好的 Newsletter 广告。&lt;/p>
&lt;p>这也是 MCP 生态的一个有趣方向：内容创作者不只是写文章给人看，而是把内容变成 AI 可以调用的知识服务。想象一下，如果更多垂直领域的头部创作者都这么做，AI 工具能查询的专业知识库会比现在丰富得多。&lt;/p>
&lt;p>当然，这模式也有门槛：你的内容首先得有足够的深度和系统性，社区才有动力基于它去构建东西。随便把几百篇博客丢出去，没有人会花时间做项目。Lenny 能玩转这套，是因为他 6 年来积累的内容本身就是产品管理领域最系统的知识库之一。&lt;/p>
&lt;p>对开发者来说，免费版 10 篇文章 + 50 集播客够试水了。觉得数据有价值，再订阅拿完整版。对产品经理来说，就算不写代码，这批数据配合 AI 聊天工具也能变成你的私人产品顾问。&lt;/p>
&lt;p>数据下载：&lt;/p>
&lt;hr>
&lt;blockquote>
&lt;/blockquote>
&lt;p>来源：Lenny Rachitsky 的推文 | LennysData.com | GitHub 公开仓库&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/lenny-rachitsky-350-300/30756464">Lenny Rachitsky 将自己的350 篇顶级产品文章 + 300 集播客全部开源&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>Qwen3.5 去审查版来了 0拒绝 4090就能本地跑</title><link>https://goodinfo.net/posts/opensource/qwen35-%E5%8E%BB%E5%AE%A1%E6%9F%A5%E7%89%88%E6%9D%A5%E4%BA%86-0%E6%8B%92%E7%BB%9D-4090%E5%B0%B1%E8%83%BD%E6%9C%AC%E5%9C%B0%E8%B7%91/</link><pubDate>Mon, 16 Mar 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/qwen35-%E5%8E%BB%E5%AE%A1%E6%9F%A5%E7%89%88%E6%9D%A5%E4%BA%86-0%E6%8B%92%E7%BB%9D-4090%E5%B0%B1%E8%83%BD%E6%9C%AC%E5%9C%B0%E8%B7%91/</guid><description>有人把 Qwen3.5-35B-A3B 的安全拒绝机制给拆了，做了一个完全不拒绝的版本。 测了465个通常会被模型拒绝的提示词，拒绝次数：0。 模型名字叫 Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive，挂在 HuggingFace 上，GGUF</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>有人把 Qwen3.5-35B-A3B 的安全拒绝机制给拆了，做了一个完全不拒绝的版本。&lt;/p>
&lt;p>测了465个通常会被模型拒绝的提示词，拒绝次数：0。&lt;/p>
&lt;p>模型名字叫 Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive，挂在 HuggingFace 上，GGUF 格式，llama.cpp、LM Studio、Jan 都能直接跑。&lt;/p>
&lt;p>先说清楚这是什么，再说怎么跑，最后说说我的看法。&lt;/p>
&lt;p>这个模型是什么&lt;/p>
&lt;p>Qwen3.5-35B-A3B 是阿里通义千问今年 2 月发布的最新模型，总参数 350 亿，但实际每次推理只激活约 30 亿参数（MoE 架构，256 个专家模块里每次只调用 8 个）。&lt;/p>
&lt;p>这意味着一个 350 亿参数的模型，跑起来的资源消耗接近一个 30 亿参数的小模型。阿里官方的说法是：只用 30 亿激活参数，就超过了上一代 2350 亿参数的 Qwen3-235B。&lt;/p>
&lt;p>原版模型本身就很强：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>MMLU-Pro 85.3，GPQA Diamond 84.2&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>SWE-bench 69.2（代码能力）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>支持文本、图片、视频多模态&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>原生 262K 上下文，扩展到 100 万&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>支持 201 种语言&lt;/p>
&lt;p>HauhauCS 做的事情是在这个底座上，用一种叫&amp;quot;abliteration&amp;quot;的技术，把模型的拒绝机制移除了。&lt;/p>
&lt;p>通过识别和移除模型中负责&amp;quot;拒绝回答&amp;quot;的方向向量来实现的，不需要重新训练，不改数据集，不影响模型的原有能力。&lt;/p>
&lt;p>模型 100% 保留了原始作者的设计意图，只是没有了拒绝。偶尔可能会在回答末尾附一句免责声明，那是基础模型训练时烤进去的，不算拒绝，完整内容都会生成。&lt;/p>
&lt;p>这个版本叫 Aggressive（激进版），意思是完全解锁，不留任何安全护栏。&lt;/p>
&lt;p>什么配置能跑 一张 4090 就够&lt;/p>
&lt;p>虽然每次推理只激活 3B 参数，但整个 35B 模型都得加载到显存或内存里。所以硬件门槛看的是 GGUF 文件大小加上下文开销。&lt;/p>
&lt;p>RTX 4090（24GB 显存）&lt;/p>
&lt;p>这是目前最主流的本地推理显卡。推荐跑 Q4_K_M 量化，文件 20GB，加上上下文开销刚好能塞进 24GB。质量和速度的平衡点。如果上下文开很长（比如 128K），显存可能不够，需要把一部分层卸载到 CPU。&lt;/p>
&lt;p>Mac M系列&lt;/p>
&lt;p>Mac 跑 MoE 模型其实很合适，统一内存架构没有 CPU 和 GPU 之间搬数据的瓶颈。36GB 统一内存可以跑 Q4_K_M 到 Q5_K_M。64GB 以上可以直接跑 Q8_0 甚至 BF16 全精度。&lt;/p>
&lt;p>纯 CPU&lt;/p>
&lt;p>没独显也能跑，只要内存够。64GB 内存可以跑 Q8_0。速度会比 GPU 慢，但 MoE 模型在 CPU 上表现比同体量的 dense 模型好，因为每次只算 3B 参数。&lt;/p>
&lt;p>最低门槛&lt;/p>
&lt;p>16GB 显存跑 IQ2_M（11GB），能用但质量有损失。&lt;/p>
&lt;p>完整的量化选择：&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>所有量化版本都用了 imatrix（重要性矩阵）生成，尽量减少去审查后权重的量化损失。&lt;/p>
&lt;p>怎么跑&lt;/p>
&lt;p>用 llama.cpp 最简单：&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;">&lt;code class="language-bash" data-lang="bash">&lt;span style="display:flex;">&lt;span>&lt;span style="color:#75715e"># 纯文本&lt;/span>
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span>llama-cli -m Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf &lt;span style="color:#ae81ff">\
&lt;/span>&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span>&lt;span style="color:#ae81ff">&lt;/span> --jinja -c &lt;span style="color:#ae81ff">131072&lt;/span> -ngl &lt;span style="color:#ae81ff">99&lt;/span>
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span>
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span>&lt;span style="color:#75715e"># 带视觉（需要额外下载 mmproj 文件）&lt;/span>
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span>llama-cli -m Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf &lt;span style="color:#ae81ff">\
&lt;/span>&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span>&lt;span style="color:#ae81ff">&lt;/span> --mmproj mmproj-Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf &lt;span style="color:#ae81ff">\
&lt;/span>&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span>&lt;span style="color:#ae81ff">&lt;/span> --jinja -c &lt;span style="color:#ae81ff">131072&lt;/span> -ngl &lt;span style="color:#ae81ff">99&lt;/span>
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>&amp;ndash;jinja 是必须加的，不加的话聊天模板会出问题。-c 131072 是 128K 上下文，作者建议至少开这么大才能保留思考能力。-ngl 99 是把所有层都放到 GPU 上。&lt;/p>
&lt;p>LM Studio、Jan 这些图形界面工具也能直接加载 GGUF 文件，拖进去就行。LM Studio 里参数列可能会显示 256x2.6B 而不是 35B-A3B，这是元数据的显示问题，不影响实际运行。&lt;/p>
&lt;p>官方推荐的采样参数：&lt;/p>
&lt;p>思考模式（默认）：temperature=1.0，top_p=0.95，top_k=20，presence_penalty=1.5&lt;/p>
&lt;p>写代码等精确任务：temperature=0.6，top_p=0.95，top_k=20&lt;/p>
&lt;p>非思考模式：temperature=0.7，top_p=0.8，top_k=20&lt;/p>
&lt;hr>
&lt;blockquote>
&lt;/blockquote>
&lt;p>HuggingFace 模型页 | Qwen3.5-35B-A3B 官方模型卡&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/qwen3-5-0-4090/30680859">Qwen3.5 去审查版来了 0拒绝 4090就能本地跑
&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>提前1个月精准预测超级碗冠军 陈天桥旗下 AI 团队发布 MiroThinker-1.7 专注深度研究的 Agent 模型</title><link>https://goodinfo.net/posts/opensource/%E6%8F%90%E5%89%8D1%E4%B8%AA%E6%9C%88%E7%B2%BE%E5%87%86%E9%A2%84%E6%B5%8B%E8%B6%85%E7%BA%A7%E7%A2%97%E5%86%A0%E5%86%9B-%E9%99%88%E5%A4%A9%E6%A1%A5%E6%97%97%E4%B8%8B-ai-%E5%9B%A2%E9%98%9F%E5%8F%91%E5%B8%83-mirothinker-17-%E4%B8%93%E6%B3%A8%E6%B7%B1%E5%BA%A6%E7%A0%94%E7%A9%B6%E7%9A%84-agent-%E6%A8%A1%E5%9E%8B/</link><pubDate>Mon, 16 Mar 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/%E6%8F%90%E5%89%8D1%E4%B8%AA%E6%9C%88%E7%B2%BE%E5%87%86%E9%A2%84%E6%B5%8B%E8%B6%85%E7%BA%A7%E7%A2%97%E5%86%A0%E5%86%9B-%E9%99%88%E5%A4%A9%E6%A1%A5%E6%97%97%E4%B8%8B-ai-%E5%9B%A2%E9%98%9F%E5%8F%91%E5%B8%83-mirothinker-17-%E4%B8%93%E6%B3%A8%E6%B7%B1%E5%BA%A6%E7%A0%94%E7%A9%B6%E7%9A%84-agent-%E6%A8%A1%E5%9E%8B/</guid><description>提前1个月精准预测超级碗冠军。 提前3周预测格莱美最大赢家。 提前15天预测黄金价格，误差 0.08%。 陈天桥旗下新加坡 AI 公司 MiroMind 刚发布的研究型智能体 MiroThinker，实现了以上战果… 跟 GPT 不是一个物种 MiroThinker 跟 GPT</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>提前1个月精准预测超级碗冠军。&lt;/p>
&lt;p>提前3周预测格莱美最大赢家。&lt;/p>
&lt;p>提前15天预测黄金价格，误差 0.08%。&lt;/p>
&lt;p>陈天桥旗下新加坡 AI 公司 MiroMind 刚发布的研究型智能体 MiroThinker，实现了以上战果…&lt;/p>
&lt;p>跟 GPT 不是一个物种&lt;/p>
&lt;p>MiroThinker 跟 GPT、Claude 这类通用聊天模型不一样。它不是用来日常对话的，而是专门做&amp;quot;深度研究&amp;quot;的 AI Agent。&lt;/p>
&lt;p>你给它一个复杂问题，它会自己去全网搜资料，看完之后根据搜到的内容再搜下一轮，把不同来源的信息交叉验证，发现矛盾了再查，反复几十甚至上百轮，最后给你一份有理有据的研究报告。&lt;/p>
&lt;p>关键区别在于，它不只是&amp;quot;想&amp;quot;，还能&amp;quot;动手&amp;quot;。一次研究任务里，它能像一个真人研究员一样动手去查。一次研究任务里，它最多能连续调用 300 次工具：执行代码、搜索引擎、API 调用、网页爬取、数据分析&amp;hellip; 一路搜、一路验证、一路修正，直到答案足够扎实。&lt;/p>
&lt;p>整个过程全自动，不需要你一步步指挥。&lt;/p>
&lt;p>三个版本怎么选&lt;/p>
&lt;p>本次共发布了三个版本：&lt;/p>
&lt;p>MiroThinker-1.7：免费开源（Apache 2.0），2350 亿参数，研究能力评分 74.0（BrowseComp 榜单）。开发者可以直接下载部署。&lt;/p>
&lt;p>MiroThinker-1.7-mini：更轻量的版本，300 亿参数，也免费开源。中文研究能力在所有同级别开源模型里排第一。算力有限的话优先考虑这个。&lt;/p>
&lt;p>MiroThinker-H1：最强版本，闭源。研究能力评分 88.2，在所有 AI 模型里排名第一，不管开源还是闭源都算上。它在 1.7 的基础上加了一套&amp;quot;验证机制&amp;quot;，模型每做一步都会自查对不对，做完整个任务还会回头审查所有证据，确保最终答案是证据最充分的那个。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>能做什么&lt;/p>
&lt;p>1、全网搜索和信息整合。 它会通过 Google 搜索找到相关网页，然后用 Jina 爬虫抓取页面内容，再用一个小模型把长网页里的关键信息提取出来。不是搜一次就完了，而是会根据搜到的内容决定下一步搜什么，反复迭代。一个复杂任务可能要搜几十上百轮，模型始终在判断&amp;quot;我还需要找什么信息&amp;quot;。中英文都能搜，中文研究能力在开源模型里目前最强。&lt;/p>
&lt;p>2、写代码和运算。 自带一个代码执行沙盒（E2B），可以直接写 Python 代码跑运算，比如处理数据、做统计分析、画图。不只是&amp;quot;说&amp;quot;，还能&amp;quot;算&amp;quot;，遇到需要数据处理的任务不用你手动介入。&lt;/p>
&lt;p>3、读文档。 支持上传 PDF、Word、PPT、Excel、图片等各种格式的文件，模型可以读取内容然后基于文档做分析。比如你丢一份财报给它，它能帮你提炼关键数据。&lt;/p>
&lt;p>4、生成研究报告。 做完整个调研过程后，它会把所有发现整合成一份结构化的深度研究报告，支持在线预览和分享。这不是那种一段话的简单回答，而是一份有章节、有引用、有结论的正式报告。&lt;/p>
&lt;p>5、金融分析和预测。 这是 MiroMind 一直主打的方向。模型能综合各种数据源来做资产价格、宏观经济趋势的推理判断。在金融搜索基准 FinSearchComp 上拿了最高分。&lt;/p>
&lt;p>6、科学研究辅助。 H1 在 FrontierScience 系列科学基准上超过了很多闭源大模型，做文献综述、分析实验数据、推导复杂数学问题都能用。&lt;/p>
&lt;p>7、事件预测。 体育赛事、颁奖典礼、市场走向，它会综合历史数据和当前信息来做概率判断。MiroMind 之前在字节跳动的 FutureX 预测榜单上连续两周拿第一，这块是强项。&lt;/p>
&lt;p>预测案例&lt;/p>
&lt;p>回到开头提到的三个预测，这三个案例都是事前公开发布、事后可以对照验证的：&lt;/p>
&lt;p>黄金价格预测：2月10日预测2月25日金价 $5,185/盎司，实际结果 $5,181，差了 $4，误差 0.08%，提前15天。&lt;/p>
&lt;p>超级碗冠军：1月6日判断西雅图海鹰队最可能赢，2月8日海鹰队 29-13 击败爱国者队夺冠，提前1个月命中。&lt;/p>
&lt;p>格莱美最大赢家：1月8日预测 Kendrick Lamar 将主导2026格莱美，2月1日他拿下5项大奖成为当晚最大赢家，提前3周。&lt;/p>
&lt;p>当然要说清楚，这些是官方挑出来的成功案例，失败的预测不会拿出来展示。但至少能说明这套系统在信息综合和趋势判断上有一定实力。&lt;/p>
&lt;p>技术上怎么做到的&lt;/p>
&lt;p>MiroMind 的核心观点是：多搜几次不等于搜得好。&lt;/p>
&lt;p>现在很多 AI Agent 的做法是疯狂堆搜索次数和工具调用，短期确实能刷分。但如果每一次搜索、每一次判断的质量不高，多搜几次只会越搜越乱。&lt;/p>
&lt;p>第一个：先把每一步做好&lt;/p>
&lt;p>一般模型训练分三步。MiroThinker 在中间插了一个专门训练&amp;quot;规划、推理、总结&amp;quot;能力的阶段。效果是模型每一步操作都更靠谱，不会搜了一堆资料但最后答案跑偏。&lt;/p>
&lt;p>MiroMind 团队的逻辑是：如果每一步质量不行，多跑几步只会错得更离谱。所以先解决&amp;quot;每一步做对&amp;quot;，再提升&amp;quot;能跑多少步&amp;quot;。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>第二个：让模型学会自己检查（H1 独有）&lt;/p>
&lt;p>H1 在推理过程中有一个检查机制，做两件事：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>走一步查一步： 每做完一步推理，检查方向对不对。AI 有时候会倾向于选&amp;quot;看起来最合理&amp;quot;的路，但那条路可能是错的，检查员会拉回来&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>最后全查一遍： 所有推理完成后，审查整条证据链，确保最终答案是证据最充分的那个&lt;/p>
&lt;p>加了检查机制之后，完成任务用的步骤数反而变少了。因为无效的步骤被过滤掉了，算力集中到了真正有用的环节。&lt;/p>
&lt;p>有意思的是，加了这套检查机制后，模型做事的步骤反而变少了。因为没必要的操作被过滤掉了，算力集中在真正有用的步骤上。做得少但做得对。&lt;/p>
&lt;p>相比上一代升级了啥&lt;/p>
&lt;p>MiroThinker 1.5 是今年1月发的上一代。这次 1.7 的主要变化：参数量从 300 亿拉到 2350 亿，翻了快 8 倍；训练流程加了&amp;quot;中期训练&amp;quot;环节；成绩全面提升；新增了闭源旗舰版 H1。&lt;/p>
&lt;p>上一代 1.5 证明了这条路走得通，1.7 把基础打得更扎实，H1 在这个基础上加了验证机制冲到了天花板。&lt;/p>
&lt;p>MiroMind 是谁&lt;/p>
&lt;p>盛大集团创始人陈天桥创立的 AI 公司。定位很明确：不做通用聊天模型，专攻&amp;quot;发现式智能&amp;quot;。&lt;/p>
&lt;p>目标是造一个&amp;quot;通用求解器&amp;quot;，让 AI 通过 300 步推理达到 99% 的确定性。盛大作为背后资本方，承诺长期投入，不追求短期回报。&lt;/p>
&lt;p>1.7 发布两天后，公司宣布三位 AI 科学家加入：华盛顿大学副教授杜少雷管推理模型，南洋理工终身教授安波管系统架构，前 Meta FAIR 研究员杨凯峪建可验证 AI 实验室。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>怎么用&lt;/p>
&lt;p>普通用户直接去 dr.miromind.ai 体验在线版，不用装任何东西。APP 也有，miromind.ai/download 可以下载。&lt;/p>
&lt;p>开发者的话，开源模型在 Hugging Face 和 GitHub 都有，支持 SGLang 和 vLLM 部署。整个项目除了模型本身，还开源了 Agent 框架 MiroFlow 和训练数据集 MiroVerse（14.7 万条样本），三件套齐全。&lt;/p>
&lt;hr>
&lt;p>参考链接：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>官方博客：https://www.miromind.ai/blog/mirothinker-1.7-h1-towards-heavy-duty-research-agents-via-verification&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>GitHub：https://github.com/MiroMindAI/MiroThinker&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Hugging Face：https://huggingface.co/collections/miromind-ai/mirothinker-17&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在线体验：https://dr.miromind.ai/&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/1-ai-mirothinker-1-7-agent/30688244">提前1个月精准预测超级碗冠军 陈天桥旗下 AI 团队发布 MiroThinker-1.7 专注深度研究的 Agent 模型&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>Qwen3-ASR语音转录模型：52 种语言通吃10 秒处理 5 小时音频 比肩Whisper</title><link>https://goodinfo.net/posts/opensource/qwen3-asr%E8%AF%AD%E9%9F%B3%E8%BD%AC%E5%BD%95%E6%A8%A1%E5%9E%8B52-%E7%A7%8D%E8%AF%AD%E8%A8%80%E9%80%9A%E5%90%8310-%E7%A7%92%E5%A4%84%E7%90%86-5-%E5%B0%8F%E6%97%B6%E9%9F%B3%E9%A2%91-%E6%AF%94%E8%82%A9whisper/</link><pubDate>Sat, 14 Mar 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/qwen3-asr%E8%AF%AD%E9%9F%B3%E8%BD%AC%E5%BD%95%E6%A8%A1%E5%9E%8B52-%E7%A7%8D%E8%AF%AD%E8%A8%80%E9%80%9A%E5%90%8310-%E7%A7%92%E5%A4%84%E7%90%86-5-%E5%B0%8F%E6%97%B6%E9%9F%B3%E9%A2%91-%E6%AF%94%E8%82%A9whisper/</guid><description> 阿里通义千问团队开源了 Qwen3-ASR 系列语音识别模型，1.7B 参数量在多项基准测试中超越 Whisper-large-v3 和 GPT-4o Transcribe，0.6B 轻量版一秒能转写 2000 秒音频。 Apache 2.0 开源协议，免费可商用。 ![image]</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;blockquote>
&lt;/blockquote>
&lt;p>阿里通义千问团队开源了 Qwen3-ASR 系列语音识别模型，1.7B 参数量在多项基准测试中超越 Whisper-large-v3 和 GPT-4o Transcribe，0.6B 轻量版一秒能转写 2000 秒音频。&lt;/p>
&lt;p>Apache 2.0 开源协议，免费可商用。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>三个模型，覆盖三个场景&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>Qwen3-ASR 这次一口气发了三个模型：&lt;/p>
&lt;p>Qwen3-ASR-1.7B 是旗舰版，17 亿参数，基于 Transformer 编码器-解码器架构，底座是通义千问的多模态模型 Qwen3-Omni。&lt;/p>
&lt;p>支持 30 种语言和 22 种中文方言的识别，包括粤语、闽南语、吴语、东北话、四川话等。在多项公开和内部基准测试上都拿到了开源模型里的最好成绩。&lt;/p>
&lt;p>Qwen3-ASR-0.6B 是轻量版，6 亿参数。精度比旗舰版低一些，但速度非常快：首字延迟最低 92 毫秒，在 128 并发下一秒能转写 2000 秒的音频（相当于同时处理 33 分钟的录音），单条音频最长支持 20 分钟。低配 PC 也能跑。&lt;/p>
&lt;p>Qwen3-ForcedAligner-0.6B 是时间戳对齐模型，能给语音和文本精确打上字级时间戳，支持 11 种语言，最长处理 5 分钟的音频。做字幕、做标注、做语音搜索都用得上。&lt;/p>
&lt;p>能力上到底强在哪&lt;/p>
&lt;p>官方做了非常详细的对比测试，横向覆盖了 Whisper-large-v3、GPT-4o Transcribe、Gemini 系列和豆包 ASR 系列。&lt;/p>
&lt;p>英文： 除了常规公开基准全面领先，阿里还自建了一套覆盖 16 个国家口音的英语测试集。结果显示 1.7B 版在整体表现上超过了 GPT-4o Transcribe 和 Whisper-large-v3。这个测试集的设计思路值得注意：公开基准上各家模型差距已经很小了，真正拉开差距的是各种口音和噪音场景。&lt;/p>
&lt;p>中文和方言： 普通话、粤语加 22 种方言，1.7B 版整体领先商用 API 和开源模型。从官方 Demo 来看，绕口令、快语速、高噪音环境下的识别效果都很稳。&lt;/p>
&lt;p>唱歌识别： 这是一个很少有模型认真做的能力。Qwen3-ASR 支持带背景音乐的歌曲转写，中文歌词错误率 13.91%，英文歌词 14.60%。虽然不算完美，但在带 BGM 的条件下这个数据已经很实用了。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>和 Whisper 相比呢&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>Whisper 在语言覆盖数量上仍然占优（99 种 vs 52 种），但在中文场景、流式推理、歌曲识别和推理速度上，Qwen3-ASR 全面领先。特别是 0.6B 版的效率优势很大：参数量只有 Whisper-large-v3 的 40%，速度却快了一个数量级。&lt;/p>
&lt;p>Flash 版本&lt;/p>
&lt;p>在开源模型之后，阿里又推出了 Qwen3-ASR-Flash，这是部署在百炼平台上的 API 服务版本。&lt;/p>
&lt;p>Flash 版本有个很实用的能力：定制化识别。你可以给模型提供一份背景文本，格式随意，可以是词汇表、一段文字、甚至一整篇文档，模型会根据这些上下文来调整识别结果。&lt;/p>
&lt;p>比如你做医疗领域的语音转写，给它一份药品名称和术语表，它识别的时候就会优先匹配这些专业词汇。不需要微调模型，直接在推理时传入上下文就行。&lt;/p>
&lt;p>Flash 版本还支持实时流式识别、情感识别（能分辨惊讶、愉快、悲伤、愤怒等情绪），以及录音文件异步转写（最长支持 12 小时）。&lt;/p>
&lt;p>谁会用到？&lt;/p>
&lt;p>几个典型场景：&lt;/p>
&lt;p>做内容的，会议录音转文字、播客剪辑、视频字幕生成，这些都是高频需求。之前要么用付费 API，要么用识别不太准的免费工具，现在可以本地部署一个 0.6B 的模型，又快又准还免费。&lt;/p>
&lt;p>做业务系统的，客服录音质检、电话回访分析、智能语音助手，需要大批量跑转写的场景，0.6B 版本的吞吐量优势就很明显了。&lt;/p>
&lt;p>做音视频工具的，强制对齐模型可以精准地给每个字词打上时间戳，做字幕自动对齐、语音剪辑定位、TTS 数据标注都用得上。&lt;/p>
&lt;p>做多语言业务的，52 种语言加 22 种中文方言的覆盖面，基本上全球主要语言和中国各地方言都包了。&lt;/p>
&lt;p>这意味着什么&lt;/p>
&lt;p>语音识别这个领域，OpenAI 的 Whisper 从 2022 年开源以来一直是事实标准。大多数开源语音工具链（包括我们日常用的 whisper-cpp）都是围绕它建的。&lt;/p>
&lt;p>Qwen3-ASR 的出现不一定能取代 Whisper 的生态位，但它在几个关键维度上确实拉开了差距：流式推理、中文方言、歌曲识别、推理效率。尤其是 0.6B 版的效率数据（一秒转写 2000 秒音频），对于需要大规模批量处理的场景来说非常有吸引力。&lt;/p>
&lt;p>Apache 2.0 开源协议意味着可以直接商用，这一点和 Whisper 的 MIT 协议一样友好。模型权重、推理框架、评估数据集全部开源，配套了 vLLM 批量推理、异步服务、流式推理等完整工具链。&lt;/p>
&lt;p>语音识别的开源竞争，终于开始卷起来了。&lt;/p>
&lt;p>怎么用？&lt;/p>
&lt;p>开源版本最简单的方式是装 qwen-asr 这个 Python 包，pip install 就行，加载模型时会自动下载权重。也可以用官方 Docker 镜像一键部署。&lt;/p>
&lt;p>想用 API 服务的话，百炼平台上有 Qwen3-ASR-Flash 和 Qwen3-ASR-Flash-Realtime 两个版本，前者处理录音文件，后者做实时流式识别。&lt;/p>
&lt;hr>
&lt;blockquote>
&lt;/blockquote>
&lt;p>来源：Ai-Hakase 的推文 | &lt;a href="https://x.com/ai_hakase_/status/2032291818805584063">https://x.com/ai_hakase_/status/2032291818805584063&lt;/a>
官方博客：https://qwen.ai/blog?id=qwen3asr
GitHub：https://github.com/QwenLM/Qwen3-ASR&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/qwen3-asr-52-whisper/30640678">Qwen3-ASR语音转录模型：52 种语言通吃10 秒处理 5 小时音频 比肩Whisper&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>Fish Audio 开源 S2：4B 参数的 TTS 模型，100ms 出声，还能让 AI 笑出来</title><link>https://goodinfo.net/posts/opensource/fish-audio-%E5%BC%80%E6%BA%90-s24b-%E5%8F%82%E6%95%B0%E7%9A%84-tts-%E6%A8%A1%E5%9E%8B100ms-%E5%87%BA%E5%A3%B0%E8%BF%98%E8%83%BD%E8%AE%A9-ai-%E7%AC%91%E5%87%BA%E6%9D%A5/</link><pubDate>Wed, 11 Mar 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/fish-audio-%E5%BC%80%E6%BA%90-s24b-%E5%8F%82%E6%95%B0%E7%9A%84-tts-%E6%A8%A1%E5%9E%8B100ms-%E5%87%BA%E5%A3%B0%E8%BF%98%E8%83%BD%E8%AE%A9-ai-%E7%AC%91%E5%87%BA%E6%9D%A5/</guid><description>Fish Audio 发布 S2，这是继 S1 之后的新一代旗舰 TTS 模型，在多项公开 benchmark 上，S2 的表现已全面超越 ElevenLabs、MiniMax Speech-02、Qwen3-TTS 等闭源竞品，拿下开源 + 闭源全榜最优 WER。 这次发布的 S2 是他们的新</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>Fish Audio 发布 S2，这是继 S1 之后的新一代旗舰 TTS 模型，在多项公开 benchmark 上，S2 的表现已全面超越 ElevenLabs、MiniMax Speech-02、Qwen3-TTS 等闭源竞品，拿下开源 + 闭源全榜最优 WER。&lt;/p>
&lt;p>这次发布的 S2 是他们的新一代模型，核心卖点三个：开源、快、情感控制粒度细到离谱。&lt;/p>
&lt;p>训练数据超过 1000 万小时音频，覆盖约 80+种语言，模型分为两个版本：S2（基础版）和 S2 Pro（旗舰版）。&lt;/p>
&lt;p>S2 的模型权重、微调代码、推理引擎全部开源，研究和非商用免费，但是商用需要联系授权。&lt;/p>
&lt;p>技术参数：几个数字感受一下&lt;/p>
&lt;p>S2 用了一个叫 Dual-AR 的双层架构。上层 4B 参数负责语义理解，下层 400M 参数负责声学细节，加起来 44 亿参数。&lt;/p>
&lt;p>训练数据量很猛：1000 万小时以上的音频，覆盖约 80 种语言。&lt;/p>
&lt;p>实际跑起来的表现（在 NVIDIA H200 上测的）：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>首次出声延迟：约 100ms&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>实时因子（RTF）：0.195，意思是生成 1 秒语音只需要 0.195 秒&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>吞吐量：每秒 3000+ 个声学 token&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>中文语音识别错误率（WER）：0.54%，英文 0.99%&lt;/p>
&lt;p>放到 benchmark 里比，S2 在 Audio Turing Test（听众分辨真人还是 AI）上拿到 0.515 分，比字节的 Seed-TTS 高了 24%。简单说，已经有一半以上的人分不出这是 AI 生成的声音了。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>最大升级：从固定标签到自然语言情感控制&lt;/p>
&lt;p>这是 S2 和上一代 S1 最本质的区别。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>自然语言情绪控制（最大亮点），S2 支持在文本中任意位置嵌入自由格式的自然语言描述标签，例如 [whisper in small voice]、[professional broadcast tone]、[pitch up]，不再限于预定义的固定标签集合，实现词级别的细粒度表达控制。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>S2 Pro 支持超过 15,000 种独特标签：包括 [pause]、[emphasis]、[laughing]、[excited]、[whisper]、[singing] 等，泛化能力强，未见过的自然语言描述也能有效执行。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>上下文增强表现力，得益于模型上下文的扩展，模型现在可以利用前文信息来提升后续生成内容的表现力，从而提高内容的整体自然度。&lt;/p>
&lt;p>S1 用圆括号固定标签控制情感，比如 (excited) (sad) (laughing)，标签集合是封闭的，你只能从预定义列表里选。&lt;/p>
&lt;p>S2 改成了方括号 + 自由描述。你可以在文本任意位置插入自然语言指令：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>今天的会议结果 [用很沮丧的语气] 不太理想，但 [振作起来] 我们明天继续。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>系统会理解这些描述并直接反映在语音里，而不是匹配固定关键词。官方支持的独特标签超过 15000 个，包括 [pause]、[emphasis]、[laughing nervously]、[whisper in small voice]、[professional broadcast tone]、[pitch up] 等等。由于模型是在开放描述上训练的，即便是训练时没见过的新描述，泛化能力也相当不错。副语言控制单项胜率高达 91.61%。&lt;/p>
&lt;p>这个能力在实际场景里很有用：做有声书可以让角色有情绪起伏，做播客可以让 AI 主播听起来不像在念稿，做游戏配音可以省掉大量录音成本。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>多角色一次生成&lt;/p>
&lt;p>原生多说话人支持，用户只需上传一段包含多个说话人的参考音频，模型通过 &amp;lt;|speaker:i|&amp;gt; token 自动处理每位说话人的特征，单次推理即可生成多人对话，无需再为每个说话人分别上传音频。&lt;/p>
&lt;p>声音克隆也很方便，只需要 10 到 30 秒的参考音频，不用额外微调就能克隆出高度相似的声音。语音克隆时，参考音频 token 放在 system prompt 中，SGLang 自动缓存 KV 状态，同一声音复用时前缀缓存命中率平均达 86.4%，参考音频预填充开销几乎可以忽略。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>语言支持：80+ 种语言&lt;/p>
&lt;p>S2 Pro 支持 80+ 种语言，第一梯队（质量最高）：日语、英语、中文。第二梯队：韩语、西班牙语、葡萄牙语、阿拉伯语、俄语、法语、德语。在 MiniMax 的多语言测试集上，S2 在 24 种语言中有 11 种拿到了最低错误率，17 种拿到了最高说话人相似度。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>推理性能（单卡 H200）&lt;/p>
&lt;p>S2 的 Dual-AR 架构与标准自回归 LLM 在结构上同构，可以直接继承 SGLang 的全套 LLM 原生服务优化，包括连续批处理、分页 KV 缓存、CUDA graph 重放和 RadixAttention 前缀缓存。&lt;/p>
&lt;p>语音克隆时，参考音频 token 放在 system prompt 中，SGLang 自动缓存 KV 状态，同一声音复用时前缀缓存命中率平均达 86.4%，峰值超过 90%，参考音频预填充开销几乎可以忽略不计。&lt;/p>
&lt;p>实测数据：RTF 0.195，首帧延迟约 100ms，吞吐量超过每秒 3000 个 acoustic token。&lt;/p>
&lt;hr>
&lt;p>如何获取&lt;/p>
&lt;p>模型权重和代码完全开源，研究和非商业用途免费：&lt;/p>
&lt;p>GitHub：https://github.com/fishaudio/fish-speech&lt;/p>
&lt;p>HuggingFace：https://huggingface.co/fishaudio/s2-pro&lt;/p>
&lt;p>在线体验：https://fish.audio/s2/&lt;/p>
&lt;p>技术报告：https://arxiv.org/abs/2603.08823&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>本文参考：Fish Audio 官方推文 | 原文链接 | S2 产品页 | 开源博客&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/fish-audio-s2-4b-tts-100ms-ai/30528326">Fish Audio 开源 S2：4B 参数的 TTS 模型，100ms 出声，还能让 AI 笑出来&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>Google 发布 Gemini Embedding 2向量模型 ：升级为多模态 图片、视频、音频都能进行向量搜索</title><link>https://goodinfo.net/posts/opensource/google-%E5%8F%91%E5%B8%83-gemini-embedding-2%E5%90%91%E9%87%8F%E6%A8%A1%E5%9E%8B-%E5%8D%87%E7%BA%A7%E4%B8%BA%E5%A4%9A%E6%A8%A1%E6%80%81-%E5%9B%BE%E7%89%87%E8%A7%86%E9%A2%91%E9%9F%B3%E9%A2%91%E9%83%BD%E8%83%BD%E8%BF%9B%E8%A1%8C%E5%90%91%E9%87%8F%E6%90%9C%E7%B4%A2/</link><pubDate>Wed, 11 Mar 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/google-%E5%8F%91%E5%B8%83-gemini-embedding-2%E5%90%91%E9%87%8F%E6%A8%A1%E5%9E%8B-%E5%8D%87%E7%BA%A7%E4%B8%BA%E5%A4%9A%E6%A8%A1%E6%80%81-%E5%9B%BE%E7%89%87%E8%A7%86%E9%A2%91%E9%9F%B3%E9%A2%91%E9%83%BD%E8%83%BD%E8%BF%9B%E8%A1%8C%E5%90%91%E9%87%8F%E6%90%9C%E7%B4%A2/</guid><description> 以前你想让 AI 同时理解文字、图片和视频，得用好几个不同的模型拼在一起。Google 刚发布的 Gemini Embedding 2 嵌入模型，一个模型就全包了。 嵌入模型是干什么的 你每天用搜索引擎、用知识库问答、用 AI 找相似内容，背后都有个关键环节：把你输入的内容转换成</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;blockquote>
&lt;/blockquote>
&lt;p>以前你想让 AI 同时理解文字、图片和视频，得用好几个不同的模型拼在一起。Google 刚发布的 Gemini Embedding 2 嵌入模型，一个模型就全包了。&lt;/p>
&lt;p>嵌入模型是干什么的&lt;/p>
&lt;p>你每天用搜索引擎、用知识库问答、用 AI 找相似内容，背后都有个关键环节：把你输入的内容转换成一串数字，AI 才能拿去比较、排序、检索。干这件事的就是嵌入模型。&lt;/p>
&lt;p>你搜&amp;quot;苹果&amp;quot;，传统搜索引擎会把&amp;quot;苹果公司&amp;quot;和&amp;quot;苹果水果&amp;quot;的结果混在一起给你，因为它只认关键词。嵌入模型干的事情就是让 AI 真正&amp;quot;理解&amp;quot;你说的是哪个苹果。&lt;/p>
&lt;p>它的工作原理是把文本转换成一组向量（你可以理解为一串带方向的数字），语义相近的内容，向量也相近。这样 AI 就能按意思去比较、排序、检索，而不是死板地匹配关键词。&lt;/p>
&lt;p>你平时用的 AI 搜索、知识库问答、ChatGPT 的&amp;quot;先查资料再回答&amp;quot;，底层都得靠嵌入模型先把内容&amp;quot;翻译&amp;quot;成 AI 能理解的格式。它不像聊天模型那样直接跟你对话，但没有它，AI 的搜索和检索就跑不起来。&lt;/p>
&lt;p>先说它解决什么问题&lt;/p>
&lt;p>相比上一代 Gemini Embedding 2 最大的跨越是：从&amp;quot;只懂文字&amp;quot;升级到&amp;quot;什么都懂&amp;quot;。文字、图片、音频、视频、PDF 文档，全部能放在同一个空间里比较和检索。同时输入上限从以前的 2K 提升到 8K，向量维度从 768 提升到 3072，能装的信息量大了好几倍。&lt;/p>
&lt;p>举个具体场景：你拍了张照片，想在资料库里找类似的图；你有一段会议录音，想找到之前写过的相关笔记；你有份 PDF 合同，想快速定位其他类似条款。以前这些不同类型的内容没法放在一起搜索，你得分别处理再拼结果。现在一个模型直接搞定。&lt;/p>
&lt;p>这些场景有个共同难点：不同类型的内容（文字、图片、音频、视频、文档），AI 以前没法放在同一个维度去比较和检索。你得分别处理，然后想办法拼结果。&lt;/p>
&lt;p>Gemini Embedding 2 就是 Google 给出的方案：把所有这些不同类型的内容，统一转换成 AI 能直接比较和搜索的格式。文字跟图片能比，音频跟文档也能比，全部放在同一个空间里检索。&lt;/p>
&lt;p>具体能处理什么&lt;/p>
&lt;p>支持五种输入类型：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>文本：最多 8192 个 token，大概相当于一篇长文章的量&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>图像：单次最多 6 张图片&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>视频：最长 120 秒&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>音频：直接处理原始音频，不需要先转成文字&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>文档：最多 6 页 PDF&lt;/p>
&lt;p>关键是，这些类型可以混着来。一个请求里同时丢进去一段文字加两张图片，模型能一起处理。支持 100 多种语言。&lt;/p>
&lt;p>一个很实用的设计：精度和成本自己选&lt;/p>
&lt;p>模型输出的维度最高 3072，但你可以根据需求往下调。&lt;/p>
&lt;p>说人话就是：精度要求高的场景（比如法律文档检索），你用高维度，效果最好但占的空间和算力也多；日常搜索够用就行的场景，调低维度，省钱省空间。开发者自己根据业务需求来选，不用一刀切。&lt;/p>
&lt;p>从跑分看，不同维度下表现差距很小。MTEB（主流的文本嵌入测评榜单）上，高维度 68.17 分，最低维度 67.99 分，几乎没掉。这意味着很多场景下完全可以用低维度省成本。&lt;/p>
&lt;p>目前排名第一&lt;/p>
&lt;p>在 MTEB 排行榜上，Gemini Embedding 2 拿到了综合第一。排在后面的是阿里巴巴的 Qwen3-Embedding（开源，Apache 2.0 协议），再后面是 OpenAI 和 Mistral 的模型。&lt;/p>
&lt;p>不过要注意，这个榜主要测的是文本能力。Gemini Embedding 2 真正拉开差距的地方在多模态：目前市面上能同时原生处理文本、图片、视频、音频、文档这五种类型的模型，基本就它一个。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>已经有人用出了效果&lt;/p>
&lt;p>几个早期用户的数据值得看看。&lt;/p>
&lt;p>法律科技公司 Everlaw 用它做法律文档检索，精确度明显提升。做过法律相关工作的应该知道，法律文档里经常是扫描件 PDF 混着文字，传统搜索很难覆盖全，多模态在这个场景天然有优势。&lt;/p>
&lt;p>另一个案例更直观：Sparkonomy 这家公司接入后，检索延迟降低了 70%，内容相似性得分从 0.4 直接升到 0.8。这个提升幅度相当夸张，说明之前用的方案和这个原生多模态方案差距不小。&lt;/p>
&lt;p>一点看法&lt;/p>
&lt;p>嵌入模型这个领域之前一直比较&amp;quot;安静&amp;quot;，大家关注的都是聊天模型谁更强。但实际上，嵌入模型是所有 AI 搜索、知识库、&amp;ldquo;让 AI 先查资料再回答&amp;quot;这类应用的基础设施。基础设施升级了，上面跑的应用才能跟着变好。&lt;/p>
&lt;p>Gemini Embedding 2 最让我觉得有意思的不是跑分第一，而是&amp;quot;原生多模态&amp;quot;这个方向。以前处理多模态都是各搞各的再拼起来，现在一个模型统一处理，架构上干净很多，效果自然也更好。&lt;/p>
&lt;p>对于在做 AI 应用的开发者来说，如果你的产品涉及多种类型内容的搜索和匹配，这个模型值得第一时间试试。目前是预览阶段，免费用。&lt;/p>
&lt;hr>
&lt;blockquote>
&lt;/blockquote>
&lt;p>本文参考：Google AI Studio 的推文 | 原文链接 | Google 官方博客 | VentureBeat 报道&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/google-gemini-embedding-2/30526262">Google 发布 Gemini Embedding 2向量模型 ：升级为多模态 图片、视频、音频都能进行向量搜索&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>Hume AI 发布 TTS 模型：TADA 零幻觉、速度快，能跑在手机上 支持中文</title><link>https://goodinfo.net/posts/opensource/hume-ai-%E5%8F%91%E5%B8%83-tts-%E6%A8%A1%E5%9E%8Btada-%E9%9B%B6%E5%B9%BB%E8%A7%89%E9%80%9F%E5%BA%A6%E5%BF%AB%E8%83%BD%E8%B7%91%E5%9C%A8%E6%89%8B%E6%9C%BA%E4%B8%8A-%E6%94%AF%E6%8C%81%E4%B8%AD%E6%96%87/</link><pubDate>Wed, 11 Mar 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/hume-ai-%E5%8F%91%E5%B8%83-tts-%E6%A8%A1%E5%9E%8Btada-%E9%9B%B6%E5%B9%BB%E8%A7%89%E9%80%9F%E5%BA%A6%E5%BF%AB%E8%83%BD%E8%B7%91%E5%9C%A8%E6%89%8B%E6%9C%BA%E4%B8%8A-%E6%94%AF%E6%8C%81%E4%B8%AD%E6%96%87/</guid><description>做情感 AI 出身的 Hume AI 发布了 TADA，这是一个基于 LLM 架构的 TTS（Text-to-Speech）系统，主打快、准、轻三大特性，在速度、幻觉率和端侧部署能力上均展现出显著优势。 在 1000 多个测试样本中实现了零内容幻觉，比同级别 LLM TTS 快 5 倍，轻到</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>做情感 AI 出身的 Hume AI 发布了 TADA，这是一个基于 LLM 架构的 TTS（Text-to-Speech）系统，主打&amp;quot;快、准、轻&amp;quot;三大特性，在速度、幻觉率和端侧部署能力上均展现出显著优势。&lt;/p>
&lt;p>在 1000 多个测试样本中实现了零内容幻觉，比同级别 LLM TTS 快 5 倍，轻到可以在手机上跑。&lt;/p>
&lt;p>模型基于 Llama 3.2，分两个版本：TADA-1B（英文，轻量端侧部署）和 TADA-3B-ML（多语言，支持中文、日语、德语等 9 种语言）。&lt;/p>
&lt;p>代码和权重全部开源，MIT 协议，商用无限制，pip install hume-tada 一行装好。&lt;/p>
&lt;p>LLM 语音合成核心问题：文本和音频的&amp;quot;长度失配&amp;quot;&lt;/p>
&lt;p>要理解 TADA 的创新，首先需要理解当前 LLM 语音合成面临的一个根本性矛盾。&lt;/p>
&lt;p>每一秒的语音音频，对应的声学信息量远远大于文本信息量。用 token 来衡量的话，一秒语音大约只对应 2-3 个文本 token，但却需要 12.5 到 25 个声学帧来表示。这种严重的数量不对称，直接导致了一系列工程问题：上下文窗口被迅速耗尽，内存消耗居高不下，推理速度受限，而且模型在漫长的音频 token 序列中很容易&amp;quot;跑偏&amp;quot;，出现跳词、幻觉词、漏读等问题。&lt;/p>
&lt;p>现有的主流方案通常有两种应对思路：一种是降低音频帧率，用更少的 token 表示同样长度的音频；另一种是在文本和音频之间引入中间的&amp;quot;语义 token&amp;quot;层作为桥梁。但这两种方法各有代价，要么损失语音表现力，要么增加系统复杂度。&lt;/p>
&lt;p>TADA 的解法：一对一同步对齐&lt;/p>
&lt;p>TADA 全称 Text-Acoustic Dual Alignment，核心思路是让文字和语音严格&amp;quot;一对一锁步&amp;quot;：每一个文字 token 精确对应一段音频，两者在同一个流里同步生成。&lt;/p>
&lt;p>传统方案是文字和音频各跑各的再对齐，TADA 从源头就绑在一起，所以从根上避免了&amp;quot;念多了&amp;quot;或&amp;quot;念漏了&amp;quot;。&lt;/p>
&lt;p>TADA 走了一条完全不同的路。它没有试图压缩音频 token 的数量，而是将音频表征直接对齐到文本 token 上，实现严格的一对一映射：每个文本 token 对应一个连续的声学向量，文本和语音在 LLM 中同步前进。&lt;/p>
&lt;p>具体来说：&lt;/p>
&lt;p>输入侧，一个编码器配合对齐器（aligner），从每个文本 token 对应的音频片段中提取声学特征。&lt;/p>
&lt;p>输出侧，LLM 最后一层的隐藏状态作为条件向量，驱动一个 flow-matching 解码头生成声学特征，再由解码器将其转换为音频波形，并回馈给模型。&lt;/p>
&lt;p>由于 LLM 的每一步推理恰好对应一个文本 token 和一个音频帧，整个生成过程天然更快、计算量更小。更关键的是，这种架构从结构上就杜绝了跳词和幻觉问题，因为模型不可能在文本和音频之间出现&amp;quot;错位&amp;quot;。&lt;/p>
&lt;p>几个关键数据：&lt;/p>
&lt;p>零幻觉：在 LibriTTSR 数据集的 1000 多个测试样本中，没有出现一次内容幻觉。不是&amp;quot;很少&amp;quot;，是零。而且这个模型是用大规模&amp;quot;野外数据&amp;quot;训练的，没有做后训练精调，却达到了和精选小数据集训练的模型同等可靠性。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>速度：实时因子（RTF）0.09，生成 1 秒语音只需要 0.09 秒计算时间，比同级别的 LLM TTS 快 5 倍以上。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>资源消耗：每秒音频只需要 2-3 帧，其他方案通常需要 12.5 到 75 帧。同样 2048 个 token 的上下文，传统系统撑大约 70 秒音频，TADA 能装下 700 秒，差了 10 倍。&lt;/p>
&lt;p>同步转录：生成语音的同时就出文字，不用再跑一遍语音识别，零额外延迟。&lt;/p>
&lt;p>长文本和对话场景：TADA 同步化的 token 方案在上下文效率上具有压倒性优势。传统系统在 2048 token 的上下文窗口下大约只能容纳 70 秒左右的音频，而 TADA 在相同预算下可以支撑约 700 秒，也就是近 12 分钟的语音。这为长篇叙述、长时间对话和多轮语音交互打开了大门。&lt;/p>
&lt;p>语音质量怎么样&lt;/p>
&lt;p>在 EARS 数据集（长篇表达性语音）的人工评估中，说话人相似度 4.18/5.0，自然度 3.78/5.0，综合排名第二，超过了好几个训练数据量比它大得多的系统。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>TADA 的优势不在&amp;quot;听起来最像人&amp;quot;，在&amp;quot;绝对不出错&amp;quot;和&amp;quot;算力消耗极低&amp;quot;。&lt;/p>
&lt;p>这其实是产品策略的选择：Hume AI 自家商业 TTS 产品 OCTAVE 主打情感表达，走高端路线。TADA 开源出来的定位是&amp;quot;基础设施级别的可靠语音生成&amp;quot;，适合对准确性有硬要求但预算有限的场景。&lt;/p>
&lt;p>哪些场景适合用&lt;/p>
&lt;p>对准确性零容忍的场景：医疗报告朗读、金融数据播报、法律文书语音化。零幻觉在这些领域是刚需。&lt;/p>
&lt;p>端侧部署：1B 版本基于 Llama 3.2 1B，配合 0.09 的 RTF，在手机或边缘设备上跑语音合成完全可行。对于设备厂商和 App 开发者来说，这意味着更低的延迟、更好的隐私保护，以及零 API 依赖。&lt;/p>
&lt;p>长内容生成：播客、有声书、课程音频。700 秒的上下文容量意味着可以一口气处理十几分钟的内容，不用反复切段。&lt;/p>
&lt;p>多语言产品：3B 版本覆盖 9 种语言，一个模型搞定多语言语音功能。&lt;/p>
&lt;p>需要同步字幕的场景：直播、视频制作。语音和文字同时出，省掉了后期再跑 ASR 的步骤。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>想先试试效果的，HuggingFace 上有在线 Demo&lt;/p>
&lt;p>可以直接体验：huggingface.co/spaces/HumeAI/tada&lt;/p>
&lt;p>局限性&lt;/p>
&lt;p>Hume AI 在博客和论文里明确列了几个已知问题：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>长音频生成时会出现&amp;quot;说话人漂移&amp;quot;，声音特征慢慢偏离参考音色。官方尝试用拒绝采样缓解但还没完全解决，临时方案是定期重置上下文&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>语音和文字同时生成时存在&amp;quot;模态鸿沟&amp;quot;，文字质量会下降。他们用了一个叫 Speech Free Guidance（SFG）的技术部分改善，但问题仍然存在&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>目前只做了语音续接的预训练，对话助手场景需要额外微调&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>语言覆盖：英语 + 7 种其他语言，还不算广。不过官方透露正在用 Hume 自有数据训练更大的模型，覆盖更多语言放在行业里看&lt;/p>
&lt;p>开源情况&lt;/p>
&lt;p>TADA 现已完全开源，发布了两个基于 Llama 的预训练模型：&lt;/p>
&lt;p>1B 参数英语版：huggingface.co/HumeAI/tada-1b&lt;/p>
&lt;p>3B 参数多语言版：huggingface.co/HumeAI/tada-3b-ml&lt;/p>
&lt;p>在线演示：huggingface.co/spaces/HumeAI/tada&lt;/p>
&lt;p>GitHub：github.com/HumeAI/tada&lt;/p>
&lt;p>技术报告：arxiv.org/abs/2602.23068&lt;/p>
&lt;hr>
&lt;blockquote>
&lt;/blockquote>
&lt;p>Hume AI 的博客 | &lt;a href="https://www.hume.ai/blog/opensource-tada">https://www.hume.ai/blog/opensource-tada&lt;/a>&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/hume-ai-tts-tada/30532893">Hume AI 发布 TTS 模型：TADA 零幻觉、速度快，能跑在手机上 支持中文&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>吴恩达给 AI 编程 Agent 造了一本活字典：Context Hub</title><link>https://goodinfo.net/posts/opensource/%E5%90%B4%E6%81%A9%E8%BE%BE%E7%BB%99-ai-%E7%BC%96%E7%A8%8B-agent-%E9%80%A0%E4%BA%86%E4%B8%80%E6%9C%AC%E6%B4%BB%E5%AD%97%E5%85%B8context-hub/</link><pubDate>Wed, 11 Mar 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/%E5%90%B4%E6%81%A9%E8%BE%BE%E7%BB%99-ai-%E7%BC%96%E7%A8%8B-agent-%E9%80%A0%E4%BA%86%E4%B8%80%E6%9C%AC%E6%B4%BB%E5%AD%97%E5%85%B8context-hub/</guid><description> 你的 AI 编程助手写代码时，用的可能是半年前的 API 文档。 用 Claude Code、Cursor 这些 AI 编程工具写代码的时候，有没有遇到过这种情况：你让它调用某个 API，它信誓旦旦写出一段代码，结果一跑就报错，因为那个参数早就废弃了，或者压根就是它编出来的。 这个</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;blockquote>
&lt;/blockquote>
&lt;p>你的 AI 编程助手写代码时，用的可能是半年前的 API 文档。&lt;/p>
&lt;p>用 Claude Code、Cursor 这些 AI 编程工具写代码的时候，有没有遇到过这种情况：你让它调用某个 API，它信誓旦旦写出一段代码，结果一跑就报错，因为那个参数早就废弃了，或者压根就是它编出来的。&lt;/p>
&lt;p>这个问题在开发者圈子里有个名字，叫 Agent Drift（Agent 漂移）。AI 的训练数据是有截止日期的，但 API 文档天天在更新。训练结束的那一刻，AI 的知识就开始&amp;quot;过期&amp;quot;了。&lt;/p>
&lt;p>斯坦福大学教授、DeepLearning.AI 创始人吴恩达（Andrew Ng）刚刚开源了一个工具来解决这个问题：Context Hub。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>一句话说清它是什么&lt;/p>
&lt;p>Context Hub 是一个命令行工具（CLI），相当于给 AI 编程 Agent 配了一本实时更新的 API 字典。Agent 写代码之前先查字典，拿到最新的官方文档，就不用靠记忆瞎猜了。&lt;/p>
&lt;p>安装就一行命令：&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;">&lt;code class="language-bash" data-lang="bash">&lt;span style="display:flex;">&lt;span>npm install -g @aisuite/chub
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>能干什么&lt;/p>
&lt;ol>
&lt;li>搜索和获取文档&lt;/li>
&lt;/ol>
&lt;p>Agent 可以通过 chub search 搜索需要的 API 文档，用 chub get 拉取对应的最新版本。支持按编程语言筛选（Python 版或 JavaScript 版），只拿需要的内容，不浪费 token。&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;">&lt;code class="language-bash" data-lang="bash">&lt;span style="display:flex;">&lt;span>chub search &lt;span style="color:#e6db74">&amp;#34;stripe payments&amp;#34;&lt;/span> &lt;span style="color:#75715e"># 搜索 Stripe 支付相关文档&lt;/span>
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span>chub get openai/chat --lang py &lt;span style="color:#75715e"># 拉取 OpenAI 聊天 API 的 Python 版文档&lt;/span>
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>目前已经收录了 68 个主流 API 提供商的文档，包括 Stripe、OpenAI、Anthropic、Supabase、Firebase、Twilio、Shopify、AWS 等。&lt;/p>
&lt;ol start="2">
&lt;li>本地注解：Agent 的&amp;quot;长期记忆&amp;quot;&lt;/li>
&lt;/ol>
&lt;p>这是我觉得最有意思的功能。Agent 在调用 API 的过程中发现了一个坑（比如 Stripe 的 webhook 验证必须用原始请求体，不能用解析后的 JSON），它可以把这个经验记下来：&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;">&lt;code class="language-bash" data-lang="bash">&lt;span style="display:flex;">&lt;span>chub annotate stripe/api &lt;span style="color:#e6db74">&amp;#34;Needs raw body for webhook verification&amp;#34;&lt;/span>
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>下次不管是这个 Agent 还是同一台机器上的其他 Agent 再查 Stripe 文档，这条笔记会自动附在文档后面。Agent 不用每次从头踩坑了。&lt;/p>
&lt;ol start="3">
&lt;li>社区反馈：大家一起维护&amp;quot;字典&amp;quot;&lt;/li>
&lt;/ol>
&lt;p>Agent 还能给文档打分，标记&amp;quot;准确&amp;quot;&amp;ldquo;过时&amp;quot;&amp;ldquo;示例有误&amp;quot;等标签。这些反馈会汇总给文档维护者，帮助整个社区保持文档的新鲜度。&lt;/p>
&lt;ol start="4">
&lt;li>MCP Server 原生集成&lt;/li>
&lt;/ol>
&lt;p>Context Hub 还提供了 MCP（Model Context Protocol）Server，Claude Code、Cursor、Windsurf 这些工具可以直接通过 MCP 调用，连命令行都不用敲。&lt;/p>
&lt;p>实际场景&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>调新 API 不踩坑： 让 Agent 调用 OpenAI 最新的 Responses API 时，先 chub get openai/chat &amp;ndash;lang py 拉一份当前版本的文档，避免它用已经过时的 Chat Completions API&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>跨项目复用经验： 在项目 A 里踩过 Firebase Auth 的一个坑，注解写好后，做项目 B 时 Agent 自动就知道了&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>团队协作： 同一台开发机上，不同 Agent 共享本地注解，避免团队成员重复踩同一个坑&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>省 token： 按语言筛选文档、增量拉取，只给 Agent 最精准的上下文&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>技能集成： 在 Claude Code 里创建一个 skill（~/.claude/skills/get-api-docs/），Agent 写代码前自动查文档，形成&amp;quot;查字典→写代码→记笔记&amp;quot;的闭环&lt;/p>
&lt;p>现实地说几句&lt;/p>
&lt;p>Context Hub 目前的定位是&amp;quot;人工策展 + 社区维护&amp;rdquo;。68 个 API 听起来不少，但全球活跃的 API 有几千个，覆盖率还差得远。如果你用的是小众 API 或者企业内部 API，目前是用不上的。&lt;/p>
&lt;p>另外，注解功能目前只存在本地，没有跨机器同步。吴恩达在推文里提到了&amp;quot;长期目标是让 Agent 之间共享学到的知识&amp;rdquo;，但这还是愿景阶段，不是当前能力。&lt;/p>
&lt;p>文档质量也完全依赖社区贡献。GitHub 上目前 3400 多个 star、87 个 commit，活跃度不错，但能不能持续维护、跟上 API 更新的速度，还得看后续。&lt;/p>
&lt;p>怎么在体系中理解它&lt;/p>
&lt;p>如果把 AI 编程工具的知识来源分个层：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>底层： 模型训练数据（静态，会过期）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>中层： RAG / 网页搜索（动态，但噪音大、格式不统一）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>上层： Context Hub（人工策展、格式统一、Agent 可读、可注解）&lt;/p>
&lt;p>Context Hub 想做的是&amp;quot;上层&amp;quot;这个位置。它和 RAG 不冲突，RAG 解决的是&amp;quot;去哪找信息&amp;quot;，Context Hub 解决的是&amp;quot;信息的质量和 Agent 友好度&amp;quot;。&lt;/p>
&lt;hr>
&lt;blockquote>
&lt;/blockquote>
&lt;p>GitHub：https://github.com/andrewyng/context-hub&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/ai-agent-context-hub/30526122">吴恩达给 AI 编程 Agent 造了一本&amp;quot;活字典&amp;quot;：Context Hub&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>Google 发布官方命令行工具 一个 CLI 搞定所有 Google 办公全家桶</title><link>https://goodinfo.net/posts/opensource/google-%E5%8F%91%E5%B8%83%E5%AE%98%E6%96%B9%E5%91%BD%E4%BB%A4%E8%A1%8C%E5%B7%A5%E5%85%B7-%E4%B8%80%E4%B8%AA-cli-%E6%90%9E%E5%AE%9A%E6%89%80%E6%9C%89-google-%E5%8A%9E%E5%85%AC%E5%85%A8%E5%AE%B6%E6%A1%B6-/</link><pubDate>Thu, 05 Mar 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/google-%E5%8F%91%E5%B8%83%E5%AE%98%E6%96%B9%E5%91%BD%E4%BB%A4%E8%A1%8C%E5%B7%A5%E5%85%B7-%E4%B8%80%E4%B8%AA-cli-%E6%90%9E%E5%AE%9A%E6%89%80%E6%9C%89-google-%E5%8A%9E%E5%85%AC%E5%85%A8%E5%AE%B6%E6%A1%B6-/</guid><description>Google 官方发布的一个命令行工具，叫做 gws，专门用来操控整个 Google Workspace 生态。 你平时用 Google Drive 存文件、用 Gmail 发邮件、用 Google Calendar 约会议，这些操作都要打开浏览器手动点。 这个工具让你在命令行里直接干这些事</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>Google 官方发布的一个命令行工具，叫做 gws，专门用来操控整个 Google Workspace 生态。&lt;/p>
&lt;p>你平时用 Google Drive 存文件、用 Gmail 发邮件、用 Google Calendar 约会议，这些操作都要打开浏览器手动点。&lt;/p>
&lt;p>这个工具让你在命令行里直接干这些事，比如：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">gws drive files list # 列出你的 Drive 文件
gws gmail users messages list # 看邮件
&lt;/code>&lt;/pre>&lt;p>更重要的是，它专门为 AI Agent 设计，所有结果都输出 JSON，AI 能直接读懂并操作。&lt;/p>
&lt;p>所以你可以告诉 Claude/Gemini：&amp;ldquo;帮我把今天收到的所有邮件整理成摘要&amp;rdquo;，AI 就能通过这个工具真的去读你的邮件、处理、甚至回复，全自动，不用你动手。&lt;/p>
&lt;p>还支持作为 MCP Server 接入 Claude Desktop，等于给 Claude 开通了操作你整个 Google 工作区的权限。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>核心特点：&lt;/p>
&lt;p>一个 CLI 搞定所有 Google Workspace，包括 Drive、Gmail、Calendar、Sheets、Docs、Chat、Admin 等，所有命令从 Google Discovery Service 动态生成，并内置了 AI agent skills。&lt;/p>
&lt;p>几个亮点：
1.&lt;/p>
&lt;p>动态命令生成，它不是预先写死一堆命令，而是运行时读取 Google 的 Discovery Service 动态构建所有命令，Google Workspace 新增 API 后，gws 自动支持。&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>专为 AI Agent 设计，所有输出都是结构化 JSON，配合内置的 40+ agent skills，LLM 可以直接用它管理 Google Workspace，无需自己写工具。&lt;/p>
&lt;ol start="3">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>内置 MCP Server，gws mcp 可以启动一个 MCP 服务，把 Google Workspace API 暴露成结构化工具，供 Claude Desktop、Gemini CLI、VS Code 等 MCP 客户端直接调用。&lt;/p>
&lt;ol start="4">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>100+ Agent Skills，仓库里附带了 100 多个 SKILL.md 格式的 Agent Skills，覆盖 Gmail、Drive、Docs、Calendar、Sheets 的常用工作流，可以直接安装到 AI agent 框架里用。&lt;/p>
&lt;p>简单来说，这个工具是 Google Workspace 版的&amp;quot;Claude Code&amp;quot;，让 AI Agent 能直接通过命令行操作你的 Google 全家桶，对做 AI 自动化工作流的开发者很有价值，值得关注。用 Rust 写的&lt;/p>
&lt;p>GitHub：https://github.com/googleworkspace/cli&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/google-cli-google/30326175">Google 发布官方命令行工具 一个 CLI 搞定所有 Google 办公全家桶 &lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>WiFi-DensePose ：不用摄像头 通过WiFi 就能看见你的姿势和心跳</title><link>https://goodinfo.net/posts/opensource/wifi-densepose-%E4%B8%8D%E7%94%A8%E6%91%84%E5%83%8F%E5%A4%B4-%E9%80%9A%E8%BF%87wifi-%E5%B0%B1%E8%83%BD%E7%9C%8B%E8%A7%81%E4%BD%A0%E7%9A%84%E5%A7%BF%E5%8A%BF%E5%92%8C%E5%BF%83%E8%B7%B3/</link><pubDate>Mon, 02 Mar 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/wifi-densepose-%E4%B8%8D%E7%94%A8%E6%91%84%E5%83%8F%E5%A4%B4-%E9%80%9A%E8%BF%87wifi-%E5%B0%B1%E8%83%BD%E7%9C%8B%E8%A7%81%E4%BD%A0%E7%9A%84%E5%A7%BF%E5%8A%BF%E5%92%8C%E5%BF%83%E8%B7%B3/</guid><description> 只用普通 WiFi 信号，就能穿墙检测人体姿态、呼吸频率和心跳。 你家的WiFi路由器每秒都在往房间里发射大量无线电波。这些电波穿过墙壁、绕过家具、碰到你的身体后反弹回来。 一直以来，我们只关心这些电波能不能帮我们上网。但有人想到了一个疯狂的主意：如果我们分析这些电波被人体干扰后的</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;blockquote>
&lt;/blockquote>
&lt;p>只用普通 WiFi 信号，就能穿墙检测人体姿态、呼吸频率和心跳。&lt;/p>
&lt;p>你家的WiFi路由器每秒都在往房间里发射大量无线电波。这些电波穿过墙壁、绕过家具、碰到你的身体后反弹回来。&lt;/p>
&lt;p>一直以来，我们只关心这些电波能不能帮我们上网。但有人想到了一个疯狂的主意：如果我们分析这些电波被人体干扰后的变化模式，是不是就能&amp;quot;看到&amp;quot;人在哪里、在做什么，甚至能听到他在呼吸？&lt;/p>
&lt;p>答案是：可以。&lt;/p>
&lt;p>WiFi 信号检测人体姿态这件事，不是科幻。2023 年卡内基梅隆大学（CMU）就发表了论文《DensePose From WiFi》，用 WiFi 信号的信道状态信息（CSI）成功还原了人体姿态，效果接近摄像头方案。这项研究已经被同行评审，发表在正式学术刊物上。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>原理：WiFi信号里藏着&amp;quot;人体指纹&amp;quot;&lt;/p>
&lt;p>要理解这个项目，首先要知道一个概念：信道状态信息（CSI，Channel State Information）。&lt;/p>
&lt;p>普通用户连WiFi时只能看到信号强度（就是手机上那几格信号）。但在底层，WiFi信号其实是由几十个&amp;quot;子载波&amp;quot;组成的，每个子载波都有自己的振幅和相位。当人在房间里移动，甚至只是胸腔因呼吸而微微起伏时，这些子载波的振幅和相位就会发生极其细微的变化。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>WiFi DensePose 的核心就是：捕获这些变化 → 用信号处理算法去噪 → 用 AI 模型解读 → 输出人体姿态和生理指标。&lt;/p>
&lt;p>整个流程可以这样理解：&lt;/p>
&lt;p>WiFi路由器发射信号 → 信号穿过房间碰到人体 → 散射模式发生变化 → ESP32芯片以每秒20次的频率捕获56个子载波的振幅和相位 → 6层信号处理算法清洗数据 → AI骨干网络（RuVector）做注意力计算和图算法 → 神经网络输出17个身体关节点 + 呼吸频率 + 心率 → 实时展示。&lt;/p>
&lt;p>不需要训练用的摄像头，模型能从原始WiFi数据自监督学习。&lt;/p>
&lt;p>它声称能做什么&lt;/p>
&lt;p>WiFi DensePose 的核心卖点是：用 WiFi 信号替代摄像头，实现以下能力。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>这里最让人印象深刻的两个数字：一是54,000帧/秒的处理速度（Rust重写后比Python版快了810倍），二是5米的穿墙深度，意味着它真的能&amp;quot;透视&amp;quot;一堵30厘米厚的混凝土墙。&lt;/p>
&lt;p>只要8美元的硬件&lt;/p>
&lt;p>WiFi DensePose 提供了三种硬件方案：&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>ESP32 Mesh（推荐）：3-6个ESP32-S3芯片加一个WiFi路由器，总成本大约54美元（单个芯片约8美元）。这是唯一能获得完整CSI数据的消费级方案，支持全部功能：姿态估计、呼吸、心跳、运动、在场检测。&lt;/p>
&lt;p>研究级网卡：Intel 5300或Atheros AR9580，50-100美元，需要刷固件，仅限Linux。&lt;/p>
&lt;p>任何普通WiFi：你现有的笔记本就行，但只能获取RSSI数据（就是信号强弱），功能大打折扣，只能做粗略的在场检测。&lt;/p>
&lt;p>换句话说，一个8美元的芯片就能让你的房间具备&amp;quot;感知&amp;quot;能力。&lt;/p>
&lt;p>应用场景：从救命到&amp;quot;细思恐极&amp;quot;&lt;/p>
&lt;p>这个项目列举了极其丰富的应用场景，从温暖到冰冷，覆盖面远超预期。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>温暖的一面&lt;/p>
&lt;p>养老院和居家养老：每个房间放一个ESP32（8美元），就能实现跌倒检测（报警延迟&amp;lt;2秒）、夜间活动监测、睡眠呼吸监测。老人不需要戴任何设备，不需要忍受被摄像头&amp;quot;看着&amp;quot;的感觉。&lt;/p>
&lt;p>医院病房：给非重症病床提供持续的呼吸和心率监测，不需要接线，护士站出现异常自动报警。&lt;/p>
&lt;p>智能家居：穿墙的在场检测意味着再也不会有&amp;quot;你明明在卫生间，客厅的灯自己灭了&amp;quot;的尴尬。灯光、空调、音乐可以精确跟随你在房间之间的移动。&lt;/p>
&lt;p>酒店节能：精确判断房间是否有人，空房自动调低空调，据估算可节省15-30%的暖通能耗。&lt;/p>
&lt;p>专业的一面&lt;/p>
&lt;p>搜救（WiFi-Mat模块）：这是项目中最硬核的部分。地震废墟下，摄像头和热成像仪都进不去的地方，WiFi信号可以穿透混凝土、木材、石膏板。WiFi-Mat能通过检测废墟下微弱的呼吸信号来发现幸存者，还能用START分诊协议自动对伤员分级（红色/黄色/绿色/黑色）。&lt;/p>
&lt;p>消防：在充满浓烟的建筑里，摄像头完全失效，但WiFi信号不受影响。消防员进入之前就能知道里面还有没有被困人员。&lt;/p>
&lt;p>零售客流分析：没有摄像头意味着天然GDPR友好。实时统计各区域客流、停留时间、排队长度，顾客完全无感知。&lt;/p>
&lt;p>&amp;ldquo;细思恐极&amp;quot;的一面&lt;/p>
&lt;p>项目也非常坦率地列出了军事和安全相关的应用：穿墙人员探测、房间清理确认、人质生命体征远距离监测、边境隧道探测、监狱牢房占用验证。&lt;/p>
&lt;p>这让人不由得想到一个问题：如果8美元的芯片就能实现穿墙监控，那大规模隐蔽监控的门槛正在变得极低，而且不需要任何摄像头，传统的反监控手段（比如找摄像头）完全失效。&lt;/p>
&lt;p>技术深度：不只是&amp;quot;WiFi版摄像头&amp;rdquo;&lt;/p>
&lt;p>这个项目在技术上有几个值得关注的亮点。&lt;/p>
&lt;p>Rust重写：810倍加速&lt;/p>
&lt;p>项目最初用Python实现，后来全部用Rust重写。全流程处理速度从每帧15毫秒降到18微秒，提升了810倍。最夸张的是运动检测，从1毫秒降到186纳秒，提速5400倍。Docker镜像从569MB压缩到132MB，测试从41个增加到542+个。&lt;/p>
&lt;p>自学习系统（ADR-024）&lt;/p>
&lt;p>模型只有55KB大小，能直接运行在ESP32芯片上（可用内存520KB中占55KB）。更关键的是，它能从原始WiFi数据自监督学习，不需要标注数据，不需要摄像头辅助。插上电源等10分钟，它就能学会这个房间的&amp;quot;WiFi指纹&amp;quot;。&lt;/p>
&lt;p>它能做到的事情包括：识别不同房间（每个房间有独特的WiFi散射模式）、检测异常（陌生人进入会产生未见过的指纹）、个人识别（每个人干扰WiFi的方式略有不同）。&lt;/p>
&lt;p>跨环境泛化（MERIDIAN）&lt;/p>
&lt;p>WiFi感知领域一直有一个大问题：在A房间训练的模型，搬到B房间准确率暴跌40-70%，因为模型记住了房间特有的多径传播模式，而不是人体运动的通用规律。&lt;/p>
&lt;p>MERIDIAN通过对抗训练解决这个问题：训练一个分类器去猜数据来自哪个房间，同时训练主网络去欺骗这个分类器。最终效果是，模型被迫&amp;quot;忘记&amp;quot;房间特征，只保留人体运动信息。部署到新房间时，用几帧未标注数据就能快速适应。&lt;/p>
&lt;p>信号处理：6个顶会级算法&lt;/p>
&lt;p>项目实现了6个来自顶级学术会议的信号处理算法：SpotFi的共轭乘法（消除载波频偏）、Hampel滤波器（比标准Z-score更抗污染的异常值剔除）、FarSense的菲涅尔区模型（物理建模呼吸信号）、CSI频谱图（时频分解区分呼吸和走动）、WiDance的子载波选择（只用对运动敏感的通道，提升6-10dB信噪比）、Widar 3.0的体速度剖面（跨环境域无关的运动特征）。&lt;/p>
&lt;p>适合谁关注&lt;/p>
&lt;p>硬件/嵌入式开发者： 如果你有 ESP32 开发经验，可以拿来做 CSI 采集实验，项目的信号处理管线可以当学习参考。&lt;/p>
&lt;p>学术研究者： 项目引用了大量 WiFi 感知领域的论文（虽然引用准确性有争议），整体框架可以作为 survey 的补充材料。&lt;/p>
&lt;p>物联网创业者： WiFi 人体感知是个有商业潜力的方向，了解技术边界和当前进展是有价值的。&lt;/p>
&lt;p>普通读者： 了解就好。这个技术离&amp;quot;装个 App 就能用&amp;quot;还有很远的距离。&lt;/p>
&lt;p>30秒体验&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;">&lt;code class="language-bash" data-lang="bash">&lt;span style="display:flex;">&lt;span>docker pull ruvnet/wifi-densepose:latest
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span>docker run -p 3000:3000 ruvnet/wifi-densepose:latest
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span>&lt;span style="color:#75715e"># 打开 http://localhost:3000&lt;/span>
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>没有硬件也能跑，模拟模式会生成合成数据展示完整的信号处理流水线和UI界面。想要真实感知功能，需要准备ESP32-S3硬件。&lt;/p>
&lt;p>一个值得思考的问题&lt;/p>
&lt;p>WiFi DensePose 这个项目本身可能还不成熟，但它指向的技术方向是不可忽视的。&lt;/p>
&lt;p>当你家的路由器不仅能联网，还能&amp;quot;感知&amp;quot;到你在哪个房间、在做什么动作、心跳是否正常的时候，我们对&amp;quot;隐私&amp;quot;的定义可能需要重写。&lt;/p>
&lt;hr>
&lt;blockquote>
&lt;/blockquote>
&lt;p>本文参考：GitHub 项目 ruvnet/wifi-densepose | CMU 论文 DensePose From WiFi (2023)
社区讨论：Hacker News、GitHub Issue #37&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/wifi-densepose-wifi/30202299">WiFi-DensePose ：不用摄像头 通过WiFi 就能&amp;quot;看见&amp;quot;你的姿势和心跳&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>阿里巴巴开源个人 AI 助手：CoPaw</title><link>https://goodinfo.net/posts/opensource/%E9%98%BF%E9%87%8C%E5%B7%B4%E5%B7%B4%E5%BC%80%E6%BA%90%E4%B8%AA%E4%BA%BA-ai-%E5%8A%A9%E6%89%8Bcopaw-/</link><pubDate>Sat, 28 Feb 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/%E9%98%BF%E9%87%8C%E5%B7%B4%E5%B7%B4%E5%BC%80%E6%BA%90%E4%B8%AA%E4%BA%BA-ai-%E5%8A%A9%E6%89%8Bcopaw-/</guid><description>CoPaw，一个可以跑在你自己电脑上的个人 AI 伙伴。三条命令装好，接上钉钉、飞书、QQ 就能用。 功能覆盖范围 - 资讯聚合： 自动抓取小红书、知乎、Reddit 热帖日报，B站/YouTube 视频摘要 - 效率工具： 邮件/日历联系人整理，Newsletter 摘要推送到钉钉</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>CoPaw，一个可以跑在你自己电脑上的个人 AI 伙伴。三条命令装好，接上钉钉、飞书、QQ 就能用。&lt;/p>
&lt;p>功能覆盖范围&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>资讯聚合： 自动抓取小红书、知乎、Reddit 热帖日报，B站/YouTube 视频摘要&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>效率工具： 邮件/日历联系人整理，Newsletter 摘要推送到钉钉/飞书/QQ&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>创作辅助： 描述目标，让它跑一夜，第二天给你草稿&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>研究追踪： 追踪 AI/科技新闻，构建个人知识库&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>桌面操作： 整理文件、读取/摘要文档、在聊天里请求文件&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>定时任务（cron）： 内置调度器，可设定时间自动执行任务&lt;/p>
&lt;p>个人 AI 助手这波浪潮&lt;/p>
&lt;p>今年开年以来，&amp;ldquo;个人 AI 代理&amp;quot;赛道突然火了。最出圈的是一个叫 OpenClaw 的开源项目，在 GitHub 上拿了 6.8 万颗星，被科技圈称为&amp;quot;AI 界的瑞士军刀&amp;rdquo;。&lt;/p>
&lt;p>OpenClaw 能做什么呢？简单说就是你给它接上 Slack、Discord、iMessage，它就变成你的私人助理：帮你读邮件、追踪新闻、管理待办、甚至定时执行各种自动化任务。&lt;/p>
&lt;p>但有一个问题：OpenClaw 对中国用户不太友好。它不支持钉钉、飞书、QQ 这些国内主流通讯工具，安装过程也偏极客，普通人上手有门槛。&lt;/p>
&lt;p>CoPaw 就是通义实验室的回应：做一个中国开发者和普通用户都能用的版本。&lt;/p>
&lt;p>三条命令，从零到可用&lt;/p>
&lt;p>CoPaw 最让我惊喜的是安装体验。真的就三条命令：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">pip install copaw
copaw init --defaults
copaw app
&lt;/code>&lt;/pre>&lt;p>第一条装软件，第二条初始化配置，第三条启动。不需要配 Docker，不需要折腾环境变量，Python 3.10 以上就行。Mac、Windows、Linux 全支持。&lt;/p>
&lt;p>如果你连 Python 都不想装，它还提供一行脚本自动安装（Mac/Linux 用 curl，Windows 用 PowerShell），以及魔搭创空间的一键云端部署。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>核心能力：不只是聊天&lt;/p>
&lt;p>装好之后，CoPaw 能做的事情远超你的想象。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>多渠道接入： 这是 CoPaw 对中国用户最大的杀手锏。它原生支持钉钉、飞书、QQ、Discord、iMessage 和命令行终端。你可以在钉钉群里 @它下指令，在飞书里让它帮你搜资料，在 QQ 里让它给你做日报。&lt;/p>
&lt;p>对比一下 OpenClaw 支持的 Slack、Discord、iMessage、WhatsApp，你就明白区别了：CoPaw 是目前唯一原生支持国内主流通讯工具的开源 AI 助手。&lt;/p>
&lt;p>长期记忆： CoPaw 不是那种聊完就忘的 AI。它会主动记住你的偏好、待办事项和重要决策，下次对话时直接调用。&lt;/p>
&lt;p>这个记忆系统用了本地向量搜索，不需要额外装数据库，数据全存在你自己的电脑上。比如你跟它说过&amp;quot;我每周一需要一份竞品分析报告&amp;quot;，它会记住，到了周一自动提醒你（如果配了定时任务的话，直接帮你生成）。&lt;/p>
&lt;p>定时任务： 你可以给 CoPaw 设定定时任务，让它像闹钟一样到点就干活。每天早上 8 点读一遍科技新闻给你做摘要，每周五下午整理本周的工作文件，每个月 1 号提醒你续费各种订阅服务。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>本地跑模型：数据不出你的电脑&lt;/p>
&lt;p>这是我觉得 CoPaw 最值得关注的一个点。&lt;/p>
&lt;p>现在用在线 AI 工具，你的聊天记录、文件内容、工作数据全都要传到别人的服务器上。虽然各家都说&amp;quot;我们不会用你的数据训练模型&amp;quot;，但数据一旦离开你的电脑，你就失去了控制权。&lt;/p>
&lt;p>CoPaw 支持完全本地运行。它原生兼容三种本地模型方案：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Ollama：最流行的本地模型运行工具，一行命令就能跑 Llama、Qwen 等开源模型&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>llama.cpp：跨平台的轻量级推理引擎，资源占用更少&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>MLX：苹果专门为 Apple Silicon（M1/M2/M3/M4 芯片）优化的框架，在 Mac 上跑模型效率最高&lt;/p>
&lt;p>你也可以接入自己的私有 API 端点，比如公司内网部署的模型。总之，数据走哪条路，完全你说了算。&lt;/p>
&lt;p>这对很多场景非常关键。比如你是律师、医生、财务人员，处理的都是敏感信息，用在线 AI 总觉得不放心。有了 CoPaw，模型和数据都在本地，安心多了。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>乐高式架构：像拼积木一样加功能&lt;/p>
&lt;p>CoPaw 的另一个亮点是它的模块化设计。&lt;/p>
&lt;p>它把所有功能都拆成了一个个独立的&amp;quot;技能&amp;quot;（Skill）。每个技能就是一个小模块，你可以随时启用、禁用、替换。想加一个&amp;quot;自动读新闻&amp;quot;的功能？去技能中心找一个装上就行。想自己写一个&amp;quot;每天早上给我发天气预报&amp;quot;的技能？建个文件夹、写个 SKILL.md 描述就搞定。&lt;/p>
&lt;p>更厉害的是 MCP 热插拔。MCP（Model Context Protocol）是 Anthropic 推出的一个标准协议，让 AI 工具之间能互相&amp;quot;对话&amp;quot;。CoPaw 支持 MCP 热插拔，意思是你加一个新工具进来，不需要重启整个系统，即插即用。&lt;/p>
&lt;p>它还有一个社区技能中心叫 ClawHub，开发者可以把自己做的技能分享出来，其他人一键导入。这跟手机装 App 的体验差不多。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>路线图：接下来还要做什么&lt;/p>
&lt;p>通义实验室给 CoPaw 画了一张不小的饼：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>多模态交互：以后不只能打字，还能语音和视频跟它对话&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>本地专用模型：针对 CoPaw 的核心场景（日程管理、文件处理、信息检索）做专门的微调小模型，本地跑也够快够准&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>大小模型协作：隐私数据交给本地小模型处理，复杂任务（比如写长文、做规划）路由到云端大模型。两全其美&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>技能社区：持续丰富 AgentScope 技能库，让好用的技能更容易被发现&lt;/p>
&lt;p>这个路线图最让我期待的是&amp;quot;大小模型协作&amp;quot;。现在本地模型虽然能跑，但能力和 GPT-4、Claude 这些云端大模型比还差不少。如果能智能分流，隐私归本地、能力归云端，确实是个很好的平衡点。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>适合谁用？&lt;/p>
&lt;p>说实话，CoPaw 目前最适合两类人：&lt;/p>
&lt;p>第一类：有技术基础的开发者。 你熟悉 Python，了解 API 调用，想搭建一个真正属于自己的 AI 工作流。CoPaw 给你足够的自由度和扩展性。&lt;/p>
&lt;p>第二类：团队里的&amp;quot;技术担当&amp;quot;。 你在公司负责效率工具，想给团队搭一个接入钉钉或飞书的智能助手。CoPaw 的多渠道能力加上 Apache 2.0 开源协议，商用没有法律障碍。&lt;/p>
&lt;p>如果你是完全不懂代码的普通用户，现阶段可能还需要找个懂技术的朋友帮你装一下。但考虑到只要三条命令，这个&amp;quot;帮忙&amp;quot;的成本也不高。&lt;/p>
&lt;hr>
&lt;p>小互说： 个人 AI 助手这个赛道，OpenClaw 在海外杀疯了，但对国内用户一直隔着一层纱。CoPaw 不是简单的复制，钉钉/飞书/QQ 原生接入这一点就解决了国内用户最大的痛点。三条命令装好，数据不出本地，MCP 即插即用，阿里通义团队这次确实做了一个实在的东西。&lt;/p>
&lt;p>想试试的，GitHub 地址在这：https://github.com/agentscope-ai/CoPaw&lt;/p>
&lt;p>官网：https://copaw.agentscope.io/&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/ai-copaw/30162186">阿里巴巴开源个人 AI 助手：CoPaw
&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>Vercel 开源 Chat SDK：让你的聊天机器人同时适配各种即时通信软件</title><link>https://goodinfo.net/posts/opensource/vercel-%E5%BC%80%E6%BA%90-chat-sdk%E8%AE%A9%E4%BD%A0%E7%9A%84%E8%81%8A%E5%A4%A9%E6%9C%BA%E5%99%A8%E4%BA%BA%E5%90%8C%E6%97%B6%E9%80%82%E9%85%8D%E5%90%84%E7%A7%8D%E5%8D%B3%E6%97%B6%E9%80%9A%E4%BF%A1%E8%BD%AF%E4%BB%B6/</link><pubDate>Thu, 26 Feb 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/vercel-%E5%BC%80%E6%BA%90-chat-sdk%E8%AE%A9%E4%BD%A0%E7%9A%84%E8%81%8A%E5%A4%A9%E6%9C%BA%E5%99%A8%E4%BA%BA%E5%90%8C%E6%97%B6%E9%80%82%E9%85%8D%E5%90%84%E7%A7%8D%E5%8D%B3%E6%97%B6%E9%80%9A%E4%BF%A1%E8%BD%AF%E4%BB%B6/</guid><description> 你有没有想过，做一个聊天机器人要同时适配四五个平台，光是对接不同平台的接口，代码量就翻了好几倍？Vercel 刚刚开源了一个工具，直接把这个问题解决了。 这是什么 Vercel 发布了一个新的开源项目，叫 Chat SDK：一个用 TypeScript 写的工具包，让开发者只写一</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;blockquote>
&lt;/blockquote>
&lt;p>你有没有想过，做一个聊天机器人要同时适配四五个平台，光是对接不同平台的接口，代码量就翻了好几倍？Vercel 刚刚开源了一个工具，直接把这个问题解决了。&lt;/p>
&lt;p>这是什么&lt;/p>
&lt;p>Vercel 发布了一个新的开源项目，叫 Chat SDK：一个用 TypeScript 写的工具包，让开发者只写一套聊天机器人的代码，就能同时部署到 Slack、GitHub、Microsoft Teams、Discord 这四个主流平台上。&lt;/p>
&lt;p>一套代码，四个平台同时跑。不用为每个平台写一遍逻辑，不用维护四套代码库。&lt;/p>
&lt;p>目前已经进入公开测试阶段，任何人都可以去试用。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>为什么这件事值得关注&lt;/p>
&lt;p>如果你做过任何跟聊天机器人相关的事，你就知道痛点在哪：&lt;/p>
&lt;p>每个平台的消息格式不一样，API 接口不一样，认证方式不一样，甚至连&amp;quot;用户点了一个按钮&amp;quot;这种简单交互，在不同平台上的处理方式都完全不同。&lt;/p>
&lt;p>这意味着什么？一个功能相同的机器人，你要写 4 份代码，维护 4 套逻辑，修一个 bug 要改 4 个地方。&lt;/p>
&lt;p>Chat SDK 做的事情，就是在这些平台之间加了一个&amp;quot;翻译层&amp;quot;。你只需要用统一的方式写逻辑：收到什么消息、怎么回复、怎么处理命令，SDK 自动帮你翻译成各个平台能理解的格式。&lt;/p>
&lt;p>核心技术特性&lt;/p>
&lt;p>事件驱动架构， 内置类型安全的事件处理器，覆盖，&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>@mentions（被提及）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>消息接收&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>表情反应（Reactions）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>按钮点击&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>斜杠命令（Slash Commands）&lt;/p>
&lt;p>JSX 原生 UI 组件， 可以用 JSX 编写卡片（Cards）和弹窗（Modals），SDK 负责将其渲染为各平台原生界面，不需要为每个平台单独写 UI 代码。&lt;/p>
&lt;p>分布式状态管理， 通过可插拔适配器支持，&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Redis&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>ioredis&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>内存存储&lt;/p>
&lt;p>目前的状态&lt;/p>
&lt;p>Chat SDK 现在是 公开测试版（Public Beta），支持的平台包括 Slack、GitHub、Microsoft Teams 和 Discord。&lt;/p>
&lt;p>作为开源项目，代码和文档都可以在 Vercel 官网找到，感兴趣的开发者可以直接上手试用。&lt;/p>
&lt;hr>
&lt;p>Vercel 这次的 Chat SDK 抓住了一个很实际的痛点：跨平台适配太费时间了。&amp;ldquo;写一次，到处跑&amp;quot;这个理念在前端领域已经被验证过了（React Native 就是这么做的），现在轮到聊天机器人了。&lt;/p>
&lt;p>对于想做 AI 机器人的团队来说，这个工具值得关注。&lt;/p>
&lt;p>官方介绍及示例：https://vercel.com/changelog/chat-sdk&lt;/p>
&lt;p>GitHub：https://github.com/vercel/chat&lt;/p>
&lt;p>文档：https://www.chat-sdk.dev/docs&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/vercel-chat-sdk/30084752">Vercel 开源 Chat SDK：让你的聊天机器人同时适配各种即时通信软件&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>用 Claude Code 总怕额度用超？这个菜单栏小工具帮你实时盯着</title><link>https://goodinfo.net/posts/opensource/%E7%94%A8-claude-code-%E6%80%BB%E6%80%95%E9%A2%9D%E5%BA%A6%E7%94%A8%E8%B6%85%E8%BF%99%E4%B8%AA%E8%8F%9C%E5%8D%95%E6%A0%8F%E5%B0%8F%E5%B7%A5%E5%85%B7%E5%B8%AE%E4%BD%A0%E5%AE%9E%E6%97%B6%E7%9B%AF%E7%9D%80/</link><pubDate>Thu, 26 Feb 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/%E7%94%A8-claude-code-%E6%80%BB%E6%80%95%E9%A2%9D%E5%BA%A6%E7%94%A8%E8%B6%85%E8%BF%99%E4%B8%AA%E8%8F%9C%E5%8D%95%E6%A0%8F%E5%B0%8F%E5%B7%A5%E5%85%B7%E5%B8%AE%E4%BD%A0%E5%AE%9E%E6%97%B6%E7%9B%AF%E7%9D%80/</guid><description> 写代码写到一半突然被限速，是 AI 编程最让人崩溃的体验。现在有个免费开源的小工具，把你的 Claude Code、Codex、Cursor 的额度直接钉在菜单栏上，随时能看。 一个真实的痛点 如果你在用 Claude Code、OpenAI Codex 或者 Cursor 写代</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;blockquote>
&lt;/blockquote>
&lt;p>写代码写到一半突然被限速，是 AI 编程最让人崩溃的体验。现在有个免费开源的小工具，把你的 Claude Code、Codex、Cursor 的额度直接钉在菜单栏上，随时能看。&lt;/p>
&lt;p>一个真实的痛点&lt;/p>
&lt;p>如果你在用 Claude Code、OpenAI Codex 或者 Cursor 写代码，你一定遇到过这种情况：&lt;/p>
&lt;p>写到关键时刻，突然弹出&amp;quot;你已达到使用限制，请等待 X 小时后重试&amp;quot;。然后你不得不停下来，打开浏览器登录后台，翻半天才找到用量页面，发现自己的 5 小时窗口已经用完了。&lt;/p>
&lt;p>问题是：这些 AI 工具都不会主动告诉你还剩多少额度。 你只能用到被限速那一刻才知道超了。&lt;/p>
&lt;p>CodexBar 就是为了解决这个问题而生的。&lt;/p>
&lt;p>CodexBar 是什么&lt;/p>
&lt;p>一个 macOS 菜单栏小工具，把你所有 AI 编程工具的用量额度实时显示在屏幕右上角。&lt;/p>
&lt;p>长这样：菜单栏多了一个小图标，上面有两条进度条。上面那条显示当前 5 小时窗口的剩余额度，下面那条细线显示每周总用量。一眼就能看到还能用多少、什么时候重置。&lt;/p>
&lt;p>点击图标展开详细面板，每个 AI 工具的具体用量、重置倒计时、本月花了多少钱，全都一目了然。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>支持哪些 AI 工具&lt;/p>
&lt;p>这是我觉得 CodexBar 最厉害的地方：它不是只支持一两个工具，而是几乎覆盖了市面上所有主流的 AI 编程助手。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>总共 16 个以上的 AI 工具。而且作者更新非常勤快，基本上每周到两周就有新版本，新工具出来很快就会加上。&lt;/p>
&lt;p>它怎么知道你的额度？&lt;/p>
&lt;p>你可能会好奇：它怎么不用登录就能拿到我的用量数据？&lt;/p>
&lt;p>CodexBar 有两种获取数据的方式：&lt;/p>
&lt;p>方式一：读本地日志（默认，最安全）&lt;/p>
&lt;p>Claude Code 和 Codex 在本地运行时会生成日志文件（JSONL 格式）。CodexBar 直接读这些日志来计算你用了多少。完全不需要联网、不需要登录、不需要给任何权限。装上就能用。&lt;/p>
&lt;p>方式二：复用浏览器 Cookie（可选，更精确）&lt;/p>
&lt;p>如果你想看到跟官网后台一模一样的精确数据（比如会员等级对应的具体额度上限），可以手动开启 Cookie 读取。CodexBar 会复用你 Chrome 或 Firefox 里已有的登录状态去拉数据。不存密码，不单独登录，只借用你现有的 Cookie。&lt;/p>
&lt;p>对大多数人来说，方式一就够用了。&lt;/p>
&lt;p>安装和使用&lt;/p>
&lt;p>安装（一行命令）&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;">&lt;code class="language-bash" data-lang="bash">&lt;span style="display:flex;">&lt;span>brew install --cask steipete/tap/codexbar
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>没装 Homebrew 的话，也可以去 GitHub Releases 直接下载 .dmg 安装。&lt;/p>
&lt;p>日常使用&lt;/p>
&lt;p>装完打开就行，不需要任何配置。它会自动检测你本地安装了哪些 AI 编程工具，然后开始显示用量。&lt;/p>
&lt;p>几个实用功能：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>刷新频率可调：1 分钟、2 分钟、5 分钟、15 分钟，或者手动刷新&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>多工具合并显示：如果你同时用好几个工具，可以开启&amp;quot;合并图标&amp;quot;模式，菜单栏不会被挤满&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>桌面小组件：支持 WidgetKit，可以把用量卡片放到桌面上&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>30 天费用统计：自动计算你过去 30 天在每个 AI 工具上花了多少钱&lt;/p>
&lt;p>CLI 命令行&lt;/p>
&lt;p>CodexBar 还自带命令行工具，方便在脚本里用：&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;">&lt;code class="language-bash" data-lang="bash">&lt;span style="display:flex;">&lt;span>&lt;span style="color:#75715e"># 查看 Claude Code 的本地用量和费用&lt;/span>
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span>codexbar cost --provider claude
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span>
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span>&lt;span style="color:#75715e"># 查看 Codex 的用量&lt;/span>
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span>codexbar cost --provider codex
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>安全性怎么样&lt;/p>
&lt;p>这是很多人关心的问题，毕竟它要读你的开发工具数据。说几个关键点：&lt;/p>
&lt;p>作者是谁： Peter Steinberger（GitHub: steipete），iOS 社区知名开发者。2011 年创办 PSPDFKit 并成功出售，13 年以上原生开发经验，目前在 OpenAI 工作。不是匿名作者，有长期公开声誉。&lt;/p>
&lt;p>代码完全开源： MIT 协议，GitHub 上 6600+ stars，78 位贡献者，代码全是 Swift。任何人都可以审查。&lt;/p>
&lt;p>隐私设计合理：&lt;/p>
&lt;ul>
&lt;li>默认只读本地日志，不联网&lt;/li>
&lt;li>Cookie 读取是手动开启的，不是默认行为&lt;/li>
&lt;li>不存储任何密码&lt;/li>
&lt;li>不扫描你的文件系统，只读固定的几个已知路径&lt;/li>
&lt;li>Full Disk Access 只在读 Safari Cookie 时需要（可以用 Chrome 代替，就不需要这个权限）&lt;/li>
&lt;/ul>
&lt;p>我的建议： 放心装。如果你特别谨慎，就用默认的本地日志模式，完全不给额外权限，一样能用。&lt;/p>
&lt;p>为什么推荐这个工具&lt;/p>
&lt;p>说实话，CodexBar 解决的不是什么高深的问题，但它解决的是一个每天都会碰到的小烦恼。&lt;/p>
&lt;p>你不用再：&lt;/p>
&lt;ul>
&lt;li>写到一半被限速才知道额度没了&lt;/li>
&lt;li>打开浏览器翻后台看剩余用量&lt;/li>
&lt;li>心里猜&amp;quot;我这个小时大概还能用多少&amp;quot;&lt;/li>
&lt;li>月底才发现 AI 工具的账单超了预算&lt;/li>
&lt;/ul>
&lt;p>一个菜单栏图标，一眼就知道答案。&lt;/p>
&lt;p>而且它免费、开源、不需要注册账号、不需要给敏感权限。这种工具没有理由不装。&lt;/p>
&lt;hr>
&lt;p>小互说： 我自己每天用 Claude Code 写东西，之前最烦的就是不知道额度还剩多少。装了 CodexBar 之后，瞟一眼右上角就知道了，写到额度快用完会提前收一收，不会再被突然限速打断。如果你也在用 AI 编程工具，强烈建议试试。你平时用什么 AI 工具写代码？额度够用吗？评论区聊聊。&lt;/p>
&lt;hr>
&lt;blockquote>
&lt;/blockquote>
&lt;p>工具信息：&lt;/p>
&lt;ul>
&lt;li>GitHub：steipete/CodexBar&lt;/li>
&lt;li>官网：codexbar.app&lt;/li>
&lt;li>安装：brew install &amp;ndash;cask steipete/tap/codexbar&lt;/li>
&lt;li>协议：MIT 开源&lt;/li>
&lt;li>系统要求：macOS 14+（Apple Silicon + Intel）&lt;/li>
&lt;/ul>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/claude-code-eca325/30083556">用 Claude Code 总怕额度用超？这个菜单栏小工具帮你实时盯着&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>PicoClaw：用 Go 语言打造的超高效 AI 助手 把小龙虾装进任何设备中</title><link>https://goodinfo.net/posts/opensource/picoclaw%E7%94%A8-go-%E8%AF%AD%E8%A8%80%E6%89%93%E9%80%A0%E7%9A%84%E8%B6%85%E9%AB%98%E6%95%88-ai-%E5%8A%A9%E6%89%8B-%E6%8A%8A%E5%B0%8F%E9%BE%99%E8%99%BE%E8%A3%85%E8%BF%9B%E4%BB%BB%E4%BD%95%E8%AE%BE%E5%A4%87%E4%B8%AD/</link><pubDate>Thu, 12 Feb 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/picoclaw%E7%94%A8-go-%E8%AF%AD%E8%A8%80%E6%89%93%E9%80%A0%E7%9A%84%E8%B6%85%E9%AB%98%E6%95%88-ai-%E5%8A%A9%E6%89%8B-%E6%8A%8A%E5%B0%8F%E9%BE%99%E8%99%BE%E8%A3%85%E8%BF%9B%E4%BB%BB%E4%BD%95%E8%AE%BE%E5%A4%87%E4%B8%AD/</guid><description>PicoClaw 是Sipeed发布的一个超轻量级 AI 助手，用 Go 语言编写，主打在极低成本硬件上运行 AI Agent。 > 超轻量级 AI Agent 助手，专为“低成本硬件 + 超低内存”设计。 它不是在本地跑大模型，而是作为一个超轻量的Agent 客户端，通过 API</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>PicoClaw 是Sipeed发布的一个超轻量级 AI 助手，用 Go 语言编写，主打在极低成本硬件上运行 AI Agent。&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>超轻量级 AI Agent 助手，专为“低成本硬件 + 超低内存”设计。&lt;/p>
&lt;p>它不是在本地跑大模型，而是作为一个超轻量的 &amp;ldquo;Agent 客户端&amp;rdquo;，通过 API 调用云端的大模型（比如 Claude、GPT、智谱 GLM 等），同时在本地执行文件操作、网页搜索、任务规划等 Agent 能力。&lt;/p>
&lt;p>官方口号：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>💰 $10 硬件运行&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🧠 &amp;lt; 10MB 内存占用&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>⚡ 1 秒启动&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🦐 “皮皮虾，我们走！&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>之所以能做到这么轻，核心原因是用 Go 语言重写了整个项目。Go 编译出来就是一个单独的二进制文件，不需要 Node.js 运行时，不需要 Python 解释器和一堆依赖包，直接丢到设备上就能跑。&lt;/p>
&lt;p>核心亮点：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>极致轻量：内存占用不到 10MB，启动时间 1 秒（0.6GHz 单核），单个二进制文件跨 RISC-V、ARM、x86 三种架构运行。对比 TypeScript 版的 &amp;ldquo;OpenClaw&amp;rdquo;（需要 1GB+ RAM）和 Python 版的 NanoBot（100MB+ RAM），资源消耗降了 99%。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>超低成本部署：最低可以跑在 9.9 美元的 LicheeRV-Nano 上，也支持 NanoKVM、MaixCAM 等 Sipeed 自家硬件，适合做家庭助手、服务器运维自动化、智能监控等场景。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>AI 自举开发：项目声称 95% 的核心代码是由 AI Agent 自主生成的，灵感来自 HKUDS 的 nanobot 项目，从 Python 重构到 Go 的过程也是 AI 驱动的。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>多渠道接入：支持 Telegram、Discord、QQ、钉钉等聊天平台，配合 OpenRouter、智谱、Anthropic、OpenAI 等多种 LLM 后端，还支持 Brave Search 做网页搜索。&lt;/p>
&lt;p>主要功能特点&lt;/p>
&lt;ol>
&lt;li>全栈 AI Agent 能力&lt;/li>
&lt;/ol>
&lt;p>虽然体积小，但该有的 Agent 功能都有：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>对话交互：支持命令行聊天和交互模式&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>工具调用：可以执行代码、操作文件、做任务规划&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>网页搜索：集成 Brave Search API，能联网查资料&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>语音转文字：配合 Groq 的 Whisper 服务，Telegram 上发语音消息也能识别&lt;/p>
&lt;ol start="2">
&lt;li>多模型后端支持&lt;/li>
&lt;/ol>
&lt;p>不绑定某一家 LLM，支持的模型提供商包括：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>OpenRouter（推荐，一个 key 可以用 Claude、GPT-4 等多种模型）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>智谱 AI（国内用户友好，GLM-4 系列）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Anthropic（Claude 直连）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>OpenAI（GPT 直连）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Google Gemini&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>DeepSeek&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Groq（免费额度，还支持语音转写）&lt;/p>
&lt;ol start="3">
&lt;li>多聊天平台接入&lt;/li>
&lt;/ol>
&lt;p>不只是命令行工具，还能变成你的聊天机器人：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Telegram（推荐，配置最简单）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Discord&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>QQ&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>钉钉&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>飞书（配置文件里有，但还在开发中）&lt;/p>
&lt;p>也就是说，你可以在一块 10 美元的开发板上跑这个程序，然后通过 Telegram 跟它聊天，让它帮你干活。&lt;/p>
&lt;ol start="4">
&lt;li>跨架构单文件部署&lt;/li>
&lt;/ol>
&lt;p>编译后就是一个二进制文件，支持三种 CPU 架构：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>x86_64（普通电脑）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>ARM64（树莓派、手机芯片等）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>RISC-V（Sipeed 自家的低成本开发板）&lt;/p>
&lt;p>不需要安装任何依赖，拷贝过去就能用。&lt;/p>
&lt;ol start="5">
&lt;li>AI 自举开发&lt;/li>
&lt;/ol>
&lt;p>项目号称 95% 的核心代码是 AI Agent 自己写的，灵感来自香港大学的 nanobot 项目（Python 版），整个从 Python 到 Go 的架构迁移和代码优化都是 AI 驱动完成的。&lt;/p>
&lt;p>6.记忆系统（结构很清晰）&lt;/p>
&lt;p>它有一个本地工作空间：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">~/.picoclaw/workspace/
&lt;/code>&lt;/pre>&lt;p>里面包括：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>sessions/ → 对话历史&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>memory/ → 长期记忆&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>cron/ → 定时任务&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>skills/ → 自定义技能&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>AGENTS.md → 行为规则&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>IDENTITY.md → 身份设定&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>SOUL.md → 性格设定&lt;/p>
&lt;p>这个设计很有意思。&lt;/p>
&lt;p>它把 Agent 的：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>人格&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>行为&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>偏好&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>技能&lt;/p>
&lt;p>都文件化。&lt;/p>
&lt;p>这是一种非常“工程化”的 Agent 设计。&lt;/p>
&lt;hr>
&lt;p>适合跑在哪些硬件上？&lt;/p>
&lt;p>9.9美元的LicheeRV-Nano， 有带网口和WiFi6两个版本，是最低成本方案，适合做一个永远在线的家庭AI小助手。&lt;/p>
&lt;p>30到100美元的NanoKVM， 这是一个远程KVM设备，本身就有联网能力和Linux系统，跑PicoClaw之后可以做服务器自动化运维，AI帮你巡检、排故障。&lt;/p>
&lt;p>50到100美元的MaixCAM系列， 自带摄像头，跑PicoClaw之后可以做智能监控，比如检测到有人进入画面就自动通知你。&lt;/p>
&lt;p>当然，这些只是推荐场景。任何能跑Linux的设备都可以，树莓派、旧手机刷Linux、甚至路由器理论上都行。&lt;/p>
&lt;p>项目推荐了几个 Sipeed 自家的硬件场景：&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>当然，任何能跑 Linux 的设备都行，树莓派、旧手机刷 Linux、云服务器都没问题。&lt;/p>
&lt;p>怎么用？分三步&lt;/p>
&lt;p>第一步：安装&lt;/p>
&lt;p>方式一：下载预编译包（最简单）&lt;/p>
&lt;p>去 GitHub Releases 页面 下载对应平台的二进制文件就行。&lt;/p>
&lt;p>方式二：从源码编译（开发者推荐）&lt;/p>
&lt;p>bash&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;">&lt;code class="language-bash" data-lang="bash">&lt;span style="display:flex;">&lt;span>git clone https://github.com/sipeed/picoclaw.git
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span>cd picoclaw
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span>make deps
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span>make build &lt;span style="color:#75715e"># 编译当前平台&lt;/span>
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span>&lt;span style="color:#75715e"># 或者&lt;/span>
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span>make build-all &lt;span style="color:#75715e"># 编译所有平台&lt;/span>
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span>make install &lt;span style="color:#75715e"># 编译并安装到系统路径&lt;/span>
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>第二步：配置&lt;/p>
&lt;p>先初始化：&lt;/p>
&lt;p>bash&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;">&lt;code class="language-bash" data-lang="bash">&lt;span style="display:flex;">&lt;span>picoclaw onboard
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>这会在 ~/.picoclaw/ 目录下生成配置文件。然后编辑 ~/.picoclaw/config.json，核心要填的就是 LLM 的 API Key：&lt;/p>
&lt;p>json&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;">&lt;code class="language-json" data-lang="json">&lt;span style="display:flex;">&lt;span>{
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span> &lt;span style="color:#f92672">&amp;#34;agents&amp;#34;&lt;/span>: {
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span> &lt;span style="color:#f92672">&amp;#34;defaults&amp;#34;&lt;/span>: {
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span> &lt;span style="color:#f92672">&amp;#34;model&amp;#34;&lt;/span>: &lt;span style="color:#e6db74">&amp;#34;glm-4.7&amp;#34;&lt;/span>,
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span> &lt;span style="color:#f92672">&amp;#34;max_tokens&amp;#34;&lt;/span>: &lt;span style="color:#ae81ff">8192&lt;/span>,
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span> &lt;span style="color:#f92672">&amp;#34;temperature&amp;#34;&lt;/span>: &lt;span style="color:#ae81ff">0.7&lt;/span>
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span> }
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span> },
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span> &lt;span style="color:#f92672">&amp;#34;providers&amp;#34;&lt;/span>: {
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span> &lt;span style="color:#f92672">&amp;#34;zhipu&amp;#34;&lt;/span>: {
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span> &lt;span style="color:#f92672">&amp;#34;api_key&amp;#34;&lt;/span>: &lt;span style="color:#e6db74">&amp;#34;你的智谱API Key&amp;#34;&lt;/span>,
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span> &lt;span style="color:#f92672">&amp;#34;api_base&amp;#34;&lt;/span>: &lt;span style="color:#e6db74">&amp;#34;https://open.bigmodel.cn/api/paas/v4&amp;#34;&lt;/span>
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span> }
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span> }
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span>}
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>如果想用网页搜索功能，再加上 Brave Search 的 key（免费额度每月 2000 次查询）：&lt;/p>
&lt;p>json&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;">&lt;code class="language-json" data-lang="json">&lt;span style="display:flex;">&lt;span>{
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span> &lt;span style="color:#f92672">&amp;#34;tools&amp;#34;&lt;/span>: {
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span> &lt;span style="color:#f92672">&amp;#34;web&amp;#34;&lt;/span>: {
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span> &lt;span style="color:#f92672">&amp;#34;search&amp;#34;&lt;/span>: {
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span> &lt;span style="color:#f92672">&amp;#34;api_key&amp;#34;&lt;/span>: &lt;span style="color:#e6db74">&amp;#34;你的Brave Search API Key&amp;#34;&lt;/span>,
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span> &lt;span style="color:#f92672">&amp;#34;max_results&amp;#34;&lt;/span>: &lt;span style="color:#ae81ff">5&lt;/span>
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span> }
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span> }
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span> }
&lt;/span>&lt;/span>&lt;span style="display:flex;">&lt;span>}
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>API Key 从哪来？&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>第三步：开聊&lt;/p>
&lt;p>单次提问：&lt;/p>
&lt;p>bash&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;">&lt;code class="language-bash" data-lang="bash">&lt;span style="display:flex;">&lt;span>picoclaw agent -m &lt;span style="color:#e6db74">&amp;#34;帮我写一个Python脚本，批量重命名文件夹里的图片&amp;#34;&lt;/span>
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>交互模式（持续对话）：&lt;/p>
&lt;p>bash&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;">&lt;code class="language-bash" data-lang="bash">&lt;span style="display:flex;">&lt;span>picoclaw agent
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;p>启动聊天网关（接入 Telegram/Discord 等）：&lt;/p>
&lt;p>bash&lt;/p>
&lt;div class="highlight">&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;">&lt;code class="language-bash" data-lang="bash">&lt;span style="display:flex;">&lt;span>picoclaw gateway
&lt;/span>&lt;/span>&lt;/code>&lt;/pre>&lt;/div>&lt;hr>
&lt;p>常用命令速查&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>典型应用场景&lt;/p>
&lt;p>1️⃣ 家庭 AI 助手&lt;/p>
&lt;p>部署在：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>LicheeRV-Nano（$9.9）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>NanoKVM&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>MaixCAM&lt;/p>
&lt;p>可以作为：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>本地 AI 管家&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>自动化服务器助手&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>智能监控助手&lt;/p>
&lt;hr>
&lt;p>2️⃣ 低成本边缘设备部署&lt;/p>
&lt;p>适合：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>IoT 设备&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>嵌入式 Linux&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>低算力服务器&lt;/p>
&lt;hr>
&lt;p>3️⃣ 自动化运维&lt;/p>
&lt;p>结合 cron + LLM：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>自动巡检&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>自动维护&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>定时报告&lt;/p>
&lt;p>🔗 项目地址：https://github.com/sipeed/picoclaw&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/picoclaw-go-ai/29608276">PicoClaw：用 Go 语言打造的超高效 AI 助手 把小龙虾装进任何设备中&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>DeepSeek发布全新文档理解 OCR 模型：DeepSeek-OCR-2 模拟人类阅读文档</title><link>https://goodinfo.net/posts/opensource/deepseek%E5%8F%91%E5%B8%83%E5%85%A8%E6%96%B0%E6%96%87%E6%A1%A3%E7%90%86%E8%A7%A3-ocr-%E6%A8%A1%E5%9E%8Bdeepseek-ocr-2-%E6%A8%A1%E6%8B%9F%E4%BA%BA%E7%B1%BB%E9%98%85%E8%AF%BB%E6%96%87%E6%A1%A3/</link><pubDate>Tue, 27 Jan 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/deepseek%E5%8F%91%E5%B8%83%E5%85%A8%E6%96%B0%E6%96%87%E6%A1%A3%E7%90%86%E8%A7%A3-ocr-%E6%A8%A1%E5%9E%8Bdeepseek-ocr-2-%E6%A8%A1%E6%8B%9F%E4%BA%BA%E7%B1%BB%E9%98%85%E8%AF%BB%E6%96%87%E6%A1%A3/</guid><description>DeepSeek发布其文档理解 OCR 模型：DeepSeek-OCR-2，其核心目标并非单纯的字符识别，而是实现面向文档结构与语义的 OCR 生成任务。 - 参数规模：3B - 模型支持 动态分辨率输入： - 多块 768×768 patch - 单块 1024×1024</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>DeepSeek发布其文档理解 OCR 模型：DeepSeek-OCR-2，其核心目标并非单纯的字符识别，而是实现面向文档结构与语义的 OCR 生成任务。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>参数规模：3B&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>模型支持 动态分辨率输入：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>多块 768×768 patch&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>单块 1024×1024 全局视图&lt;/p>
&lt;p>模型被定义为：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Image-Text-to-Text&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>多语言&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>面向复杂文档场景（PDF、扫描件、结构化文档）&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>普通 OCR：
👉「图里有哪些字？」&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>DeepSeek-OCR-2：
👉「这是一份什么文档？标题在哪？段落怎么分？表格怎么还原？」&lt;/p>
&lt;p>与传统 OCR 系统相比，该模型将 OCR 任务提升为：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>“基于视觉理解的文本生成问题”&lt;/p>
&lt;p>也就是，不是只认字，而是像人一样“读文档、理解版面、再输出文字”。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>它是一个「视觉 + 语言」大模型&lt;/p>
&lt;p>官方标签是：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>Image-Text-to-Text&lt;/p>
&lt;p>意思是：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">图片（文档、扫描件、截图）
↓
视觉理解（版面、结构）
↓
语言模型（组织文字）
↓
输出文本
&lt;/code>&lt;/pre>&lt;p>其输出目标是：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>结构化文本&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>具备逻辑顺序的段落&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>可直接用于下游语言模型任务的表示形式（如 Markdown）&lt;/p>
&lt;p>该模型本质上是一个文档级生成模型，而非字符识别引擎。&lt;/p>
&lt;p>它的核心理念 👇&lt;/p>
&lt;p>想解决的是什么问题？&lt;/p>
&lt;p>表面问题：OCR 效果不够好&lt;/p>
&lt;p>这不是论文真正关心的点。
字符识别本身并不是瓶颈。&lt;/p>
&lt;p>实际问题：文档的“阅读顺序”和“结构逻辑”&lt;/p>
&lt;p>在复杂文档中（论文、报告、表格密集页面）：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>文本内容本身并不难识别&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>难的是：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>哪些是标题&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>哪些是正文&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>表格应该如何按逻辑顺序展开&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>多栏排版该如何串成一条线性文本&lt;/p>
&lt;p>换句话说，问题不是“认字”，而是“读文档”。&lt;/p>
&lt;p>官方提出一种 Visual Causal Flow 的算法，其整体设计理念，主要体现在以下几个方面：
1.&lt;/p>
&lt;p>视觉层级建模&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>从整体布局到局部区域逐级建模&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>结构优先于文本&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>先判断区域角色（标题、正文、表格），再生成文本&lt;/p>
&lt;ol start="3">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>生成式 OCR&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>文本不是简单读取，而是基于视觉理解进行生成&lt;/p>
&lt;p>也就是模型在“看到整张文档”之后&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>再决定：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>哪些区域应该先被“识别”&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>哪些应该后能被识别&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>阅读顺序应当如何组织&lt;/p>
&lt;p>这一范式更接近人类阅读文档时的处理流程。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;hr>
&lt;p>传统 OCR 的思路（很“机械”）&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">像素 → 边缘 → 字符 → 拼字符串
&lt;/code>&lt;/pre>&lt;hr>
&lt;p>DeepSeek-OCR-2 的思路（更像人）&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">看整体 →
理解这是“文档” →
理解哪里是标题 →
理解段落逻辑 →
再输出文字
&lt;/code>&lt;/pre>&lt;p>👉 先理解“因果和结构”，再生成文字，这就是他们称为的 Visual Causal Flow（视觉因果流）技术。&lt;/p>
&lt;p>模型能力边界与任务范围&lt;/p>
&lt;p>支持的核心任务&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>文档 OCR（含扫描件、截图）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>文档结构识别（标题、段落、列表）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>表格与版面感知文本生成&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>图像到 Markdown 的结构化输出&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>多语言文档识别&lt;/p>
&lt;hr>
&lt;p>非目标任务&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>手写体识别（尤其是自由书写）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>艺术字体或高度装饰性文本&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>实时低延迟移动端 OCR&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>纯字符级精确定位任务&lt;/p>
&lt;hr>
&lt;p>Prompt 机制与控制方式&lt;/p>
&lt;p>DeepSeek-OCR-2 采用 指令驱动式 OCR，即 OCR 行为可通过 prompt 控制。&lt;/p>
&lt;p>结构化输出（推荐）&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">&amp;lt;image&amp;gt;
&amp;lt;|grounding|&amp;gt;Convert the document to markdown.
&lt;/code>&lt;/pre>&lt;p>该指令触发模型的文档结构理解能力，输出具备层级关系的文本。&lt;/p>
&lt;p>非结构化输出&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">&amp;lt;image&amp;gt;
Free OCR.
&lt;/code>&lt;/pre>&lt;p>该模式下模型主要执行文本识别，不强调版面结构。&lt;/p>
&lt;p>实验结果与定量分析&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>总体提升：+3.73%&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>阅读顺序错误显著下降&lt;/p>
&lt;p>与 Gemini-3 Pro 的对比（page 10）&lt;/p>
&lt;p>在相同 token 预算下：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>DeepSeek-OCR 2 的 整体 Edit Distance = 0.100&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Gemini-3 Pro = 0.115&lt;/p>
&lt;p>说明：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>高压缩率下仍保持结构理解优势&lt;/p>
&lt;p>生产环境指标（page 10）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在线图片 OCR 重复率：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>6.25% → 4.17%&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>PDF 生产流水线：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>3.69% → 2.88%&lt;/p>
&lt;p>表明该架构并非仅“学术有效”，而是具备工程可用性。&lt;/p>
&lt;p>方法论意义（Why it matters）&lt;/p>
&lt;p>DeepSeek-OCR 2 的核心贡献不在于“更强 OCR”，而在于：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>将视觉编码从“空间展开”推进到“因果重排”&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>明确提出并验证了 Visual Causal Flow 这一可实现架构&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>为文档理解型 OCR 提供了新的工程与研究范式&lt;/p>
&lt;ol>
&lt;li>重新定义了“视觉编码”的核心问题&lt;/li>
&lt;/ol>
&lt;p>以往视觉模型默认假设：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>视觉 token 的顺序是给定的&lt;/p>
&lt;p>DeepSeek-OCR 2 提出并验证：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>视觉 token 的顺序应当是模型推理的结果&lt;/p>
&lt;p>这是从“被动编码”到“主动建序”的转变。&lt;/p>
&lt;hr>
&lt;ol start="2">
&lt;li>将文档理解问题上升为“因果建模问题”&lt;/li>
&lt;/ol>
&lt;p>该工作表明：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>文档阅读 ≠ 空间扫描&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>文档阅读 = 语义驱动的因果顺序决策&lt;/p>
&lt;p>这使“阅读顺序”成为一个可学习、可优化的模型对象。&lt;/p>
&lt;hr>
&lt;ol start="3">
&lt;li>提供了一条 2D 理解的可行路径&lt;/li>
&lt;/ol>
&lt;p>论文给出一个明确方法论假设：&lt;/p>
&lt;p>图像是 2D，但语言模型是 1D&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>2D 视觉理解 ≈ 两个级联的 1D 因果推理过程&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Encoder：视觉阅读顺序建模&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Decoder：基于顺序的语言生成&lt;/p>
&lt;p>这是对“2D → 1D 映射问题”的一种系统性回答。&lt;/p>
&lt;p>这为后续 VLM 架构提供了一个可复用的设计思路。&lt;/p>
&lt;p>模型下载：https://huggingface.co/deepseek-ai/DeepSeek-OCR-2&lt;/p>
&lt;p>论文：https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf&lt;/p>
&lt;p>GitHub：https://github.com/deepseek-ai/DeepSeek-OCR-2&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/deepseek-ocr-deepseek-ocr-2/29055735">DeepSeek发布全新文档理解 OCR 模型：DeepSeek-OCR-2 模拟人类阅读文档&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>Clawdbot：开源的个人AI助手 在聊天软件里指挥AI干活</title><link>https://goodinfo.net/posts/opensource/clawdbot%E5%BC%80%E6%BA%90%E7%9A%84%E4%B8%AA%E4%BA%BAai%E5%8A%A9%E6%89%8B-%E5%9C%A8%E8%81%8A%E5%A4%A9%E8%BD%AF%E4%BB%B6%E9%87%8C%E6%8C%87%E6%8C%A5ai%E5%B9%B2%E6%B4%BB/</link><pubDate>Sun, 25 Jan 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/clawdbot%E5%BC%80%E6%BA%90%E7%9A%84%E4%B8%AA%E4%BA%BAai%E5%8A%A9%E6%89%8B-%E5%9C%A8%E8%81%8A%E5%A4%A9%E8%BD%AF%E4%BB%B6%E9%87%8C%E6%8C%87%E6%8C%A5ai%E5%B9%B2%E6%B4%BB/</guid><description>Clawdbot 是一个 开源的个人AI助手平台，能在你的电脑上运行，通过 WhatsApp、Telegram、Discord、Slack、Signal、iMessage 等主流聊天应用与你互动。 它不仅能聊天，还能实际执行任务，如： - 清理收件箱、发送邮件 - 管理日历、提醒事项</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>Clawdbot 是一个 开源的个人AI助手平台，能在你的电脑上运行，通过 WhatsApp、Telegram、Discord、Slack、Signal、iMessage 等主流聊天应用与你互动。&lt;/p>
&lt;p>它不仅能聊天，还能实际执行任务，如：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>清理收件箱、发送邮件&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>管理日历、提醒事项&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>自动办理登机手续&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>运行脚本、执行命令&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>浏览网页、填写表单、抓取数据&lt;/p>
&lt;p>它是一个能替代“虚拟助理”的自主AI系统，连接你所有的工具并具备持续记忆与上下文理解能力。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>Clawdbot = 一个住在你自己电脑里的 AI 助手&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>你不是去某个网站用它&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>而是 它在你的电脑上一直运行&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>你通过 微信/WhatsApp/Telegram/Discord 等聊天软件 跟它说话&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>它听懂后，直接在你的电脑上帮你操作&lt;/p>
&lt;p>👉 就像：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>你发消息给一个“24 小时在线、会用电脑的助理”&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>核心理念&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>“Clawdbot 不只是一个聊天机器人，而是一个在你电脑上‘真正工作’的数字助理。”&lt;/p>
&lt;p>核心哲学：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>去云端中心化：你的AI运行在你控制的设备上；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>开放与自定义：用户可编程、可自扩展；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>自我进化：AI可自行生成新技能；&lt;/p>
&lt;p>核心功能&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>1️⃣ 能真正「做事」，不是只回答问题&lt;/p>
&lt;p>普通 AI（比如 ChatGPT）：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>告诉你怎么做&lt;/p>
&lt;p>Clawdbot：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>直接帮你做&lt;/p>
&lt;p>比如：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>帮你 发邮件&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>帮你 整理收件箱&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>帮你 查资料 + 总结&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>帮你 填写网页表单&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>帮你 写代码 + 在电脑上跑&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>帮你 操作文件、运行命令&lt;/p>
&lt;hr>
&lt;p>2️⃣ 可以直接控制你的电脑&lt;/p>
&lt;p>它可以（你授权的前提下）：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>打开浏览器&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>上网搜索&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>填写网站内容&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>读取 / 新建 / 修改文件&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>运行脚本、程序、命令行&lt;/p>
&lt;p>📌 本质上：
它就是一个“会用鼠标和键盘的 AI”&lt;/p>
&lt;hr>
&lt;p>3️⃣ 用聊天软件就能指挥它&lt;/p>
&lt;p>你不需要学新 App。&lt;/p>
&lt;p>你可以在：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>WhatsApp&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Telegram&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Discord&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Slack&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>iMessage&lt;/p>
&lt;p>里直接发消息，比如：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>“帮我把今天没用的订阅邮件退掉”
“查下明天去上海的航班”
“帮我整理这个文件夹”&lt;/p>
&lt;p>它就在你电脑上执行。&lt;/p>
&lt;hr>
&lt;p>4️⃣ 它有「长期记忆」&lt;/p>
&lt;p>它会记住：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>你是谁&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>你的习惯&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>你的偏好&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>你之前让它做过什么&lt;/p>
&lt;p>所以它不是一次性聊天，而是：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>越用越懂你&lt;/p>
&lt;p>像一个长期助理。&lt;/p>
&lt;hr>
&lt;p>5️⃣ 能自己“学新技能”&lt;/p>
&lt;p>如果它不会某件事：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>你可以让它 学&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>或直接说：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>“给自己写个功能，之后每周都这么做”&lt;/p>
&lt;p>它可以：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>写代码&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>加插件&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>扩展能力&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>下次直接用&lt;/p>
&lt;p>👉 这点非常不普通。&lt;/p>
&lt;p>它能用来干什么？（举几个现实例子）&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>🧑‍💼 工作&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>自动回邮件&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>安排会议&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>整理资料&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>写周报、文档&lt;/p>
&lt;p>👨‍💻 技术/开发&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>写代码&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>跑测试&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>修 Bug&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>管 GitHub、服务器&lt;/p>
&lt;p>🏠 生活&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>查航班、办值机&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>管日程、提醒&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>控制智能家居&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>做个性化提醒&lt;/p>
&lt;p>可集成的生态系统（部分示例）&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>支持 50+ 集成，并可自定义扩展。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>下载安装：https://clawd.bot/&lt;/p>
&lt;p>GitHub：https://github.com/steipete/clawdbot&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/clawdbot-ai-ai/28974315">Clawdbot：开源的个人AI助手 在聊天软件里指挥AI干活&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>Agentation ：一个给 AI 编程助手用的“可视化标注工具” 指哪改哪</title><link>https://goodinfo.net/posts/opensource/agentation-%E4%B8%80%E4%B8%AA%E7%BB%99-ai-%E7%BC%96%E7%A8%8B%E5%8A%A9%E6%89%8B%E7%94%A8%E7%9A%84%E5%8F%AF%E8%A7%86%E5%8C%96%E6%A0%87%E6%B3%A8%E5%B7%A5%E5%85%B7-%E6%8C%87%E5%93%AA%E6%94%B9%E5%93%AA/</link><pubDate>Fri, 23 Jan 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/agentation-%E4%B8%80%E4%B8%AA%E7%BB%99-ai-%E7%BC%96%E7%A8%8B%E5%8A%A9%E6%89%8B%E7%94%A8%E7%9A%84%E5%8F%AF%E8%A7%86%E5%8C%96%E6%A0%87%E6%B3%A8%E5%B7%A5%E5%85%B7-%E6%8C%87%E5%93%AA%E6%94%B9%E5%93%AA/</guid><description>Agentation（名字来自 Agent + Annotation）是一个专为开发者和 AI 编程工具设计的“可视化反馈标注工具”。 你可以在自己做的网站页面上，直接用鼠标点出有问题的地方（比如某个按钮、文字、或图片），然后写上反馈，Agentation 会自动生成一段带结构信息的说明。</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>Agentation（名字来自 Agent + Annotation）是一个专为开发者和 AI 编程工具设计的“可视化反馈标注工具”。&lt;/p>
&lt;p>你可以在自己做的网站页面上，直接用鼠标点出有问题的地方（比如某个按钮、文字、或图片），然后写上反馈，Agentation 会自动生成一段带结构信息的说明。&lt;/p>
&lt;p>这段说明你只要复制粘贴给 Claude Code、Cursor、Windsurf 这些 AI 助手，AI 就能立刻在代码里找到对应的地方，修改问题。&lt;/p>
&lt;p>简单说：就是它能让你在自己的网站上“圈出问题”，生成带结构化信息的反馈，然后发给你的 AI 编码助手（比如 Claude Code、Cursor、或 Windsurf）。&lt;/p>
&lt;p>AI 就能精准地定位出问题的代码位置并修复它，而不用再靠你模糊地描述“蓝色按钮那块有 bug”。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>用一句话解释：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>Agentation 让你“用鼠标指出问题”，而不是“用语言解释问题”。&lt;/p>
&lt;p>它帮 AI 明白你到底指的是页面上的哪个元素，从而更准确地修改代码。&lt;/p>
&lt;p>想象一下这个场景&lt;/p>
&lt;p>你让 Claude 帮你写了一个网页。&lt;/p>
&lt;p>网页打开后，你发现：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>按钮太小；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>文案有拼写错误；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>登录弹窗打不开。&lt;/p>
&lt;p>现在你要告诉 Claude 怎么改，你得一个个解释，比如：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>“在首页右下角的那个蓝色按钮上，点击没反应，能帮我修一下吗？”&lt;/p>
&lt;p>Claude 听完后，得猜半天是哪段代码。因为它不知道“右下角蓝色按钮”对应哪一个文件、哪个 class。&lt;/p>
&lt;p>这就浪费了时间。&lt;/p>
&lt;p>而有了 Agentation，你可以：
1.&lt;/p>
&lt;p>在网页上点击某个元素（比如一个按钮、一段文字、一个图片等）；&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>添加你的反馈说明（比如“这个按钮太小了”、“这个文字拼错了”）；&lt;/p>
&lt;ol start="3">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>工具会自动记录该元素的技术信息，比如：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>元素的 class 名称&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>元素在网页中的 CSS 选择器&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>元素的 位置&lt;/p>
&lt;ol start="4">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>然后它会帮你生成一个整齐的 Markdown 格式反馈，像这样👇：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">### Annotation
Selector: .sidebar &amp;gt; .nav-actions &amp;gt; button.primary
Issue: 按钮文字应为“提交”，但目前显示为“送出”
&lt;/code>&lt;/pre>&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>这样一来，当你把这段文字复制给 AI 工具（Claude Code 或 Cursor）时，
AI 可以立刻定位到对应代码文件，并自动修改正确的内容。&lt;/p>
&lt;p>几秒钟就能修好。&lt;/p>
&lt;p>最佳使用技巧（开发者小贴士）&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>它的核心原理是什么？&lt;/p>
&lt;p>Agentation 的原理其实很简单，但非常聪明。&lt;/p>
&lt;p>它做的事情就是：当你点击网页上的某个元素时，它会自动收集这个元素的：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>HTML 选择器（selector）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>类名（class）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>层级路径&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在页面中的位置坐标&lt;/p>
&lt;p>这些信息组合在一起，就能唯一地标识出网页里的那个元素。&lt;/p>
&lt;p>然后 Agentation 把这些数据打包成一段结构化 Markdown 文本。AI 拿到后就能直接在代码里定位这个元素所在的文件或组件。&lt;/p>
&lt;p>换句话说：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>你指的是“看得见的按钮”，
AI 能立刻知道“代码里的哪一行”。&lt;/p>
&lt;p>这就像是你给 AI 配上了“定位眼镜”。&lt;/p>
&lt;p>如何安装使用？（超详细步骤）&lt;/p>
&lt;p>首先要知道：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>Agentation 目前是 桌面端专用工具（Desktop Only），
主要作为一个 浏览器内开发调试插件（前端工具） 来运行。&lt;/p>
&lt;p>⚠️ 当前仅支持桌面端（Desktop only）
需要 React 18+，仅限开发环境使用（dev-only）&lt;/p>
&lt;p>它不是一个 Chrome 插件或 VS Code 插件，
而是一个可以嵌入在本地网页开发环境（如 localhost:3000）中的 React 工具。&lt;/p>
&lt;p>安装依赖包&lt;/p>
&lt;p>在你的 React 项目中运行以下命令之一：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">npm install agentation
&lt;/code>&lt;/pre>&lt;p>或使用其他包管理器：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">yarn add agentation
# 或
pnpm add agentation
# 或
bun add agentation
&lt;/code>&lt;/pre>&lt;hr>
&lt;p>在应用中添加组件&lt;/p>
&lt;p>在你的 React 应用中（建议在根组件中）引入：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">import { Agentation } from &amp;#34;agentation&amp;#34;;
function App() {
return (
&amp;lt;&amp;gt;
&amp;lt;YourApp /&amp;gt;
{process.env.NODE_ENV === &amp;#34;development&amp;#34; &amp;amp;&amp;amp; &amp;lt;Agentation /&amp;gt;}
&amp;lt;/&amp;gt;
);
}
&lt;/code>&lt;/pre>&lt;p>✅ NODE_ENV 检查
确保 Agentation 只在开发模式下加载，
不会在生产环境中运行。&lt;/p>
&lt;hr>
&lt;p>Claude Code 一键集成（可选）&lt;/p>
&lt;p>如果你使用 Claude Code（Anthropic 的 AI 编码工具），
可以自动安装并配置 Agentation：&lt;/p>
&lt;p>1️⃣ 安装技能：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">npx add-skill benjitaylor/agentation
&lt;/code>&lt;/pre>&lt;p>2️⃣ 在 Claude Code 中运行：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">/agentation
&lt;/code>&lt;/pre>&lt;p>Claude Code 会自动：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>检测你的框架；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>安装 Agentation 包；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>创建 Provider；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>自动接入布局文件。&lt;/p>
&lt;p>如何使用&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>1️⃣ 打开 Agentation 工具
它现在是桌面版（Windows、Mac、Linux 都行）。
启动后会在你的网站右下角出现一个小图标。&lt;/p>
&lt;p>2️⃣ 激活标注模式
点击右下角的图标进入“标注状态”。
这时候，当你把鼠标移动到页面上的元素时，
每个元素都会被高亮显示。&lt;/p>
&lt;p>3️⃣ 选择想反馈的元素
比如你看到一个按钮有问题，点击它。&lt;/p>
&lt;p>4️⃣ 填写反馈文字
会弹出一个小框，让你写下你的想法，比如：
“按钮文字太模糊”、“动画卡顿”、“点击没反应”等。&lt;/p>
&lt;p>5️⃣ 生成结果并复制
点击“Add”或“Copy”，
Agentation 会自动生成一段 Markdown 格式的输出。&lt;/p>
&lt;p>6️⃣ 粘贴到你的 AI 编程助手
打开 Claude Code 或 Cursor，把这段文本粘进去。
它会立刻根据那段 selector 信息，在代码里找到问题的源头并修改。&lt;/p>
&lt;p>整个过程完全可视化，几乎不需要动脑子。&lt;/p>
&lt;p>背后的创意：&lt;/p>
&lt;p>Agentation 的灵感来自一位开发者 Benji Taylor。他写了一篇文章 探讨——&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>“为什么开发者和 AI 的沟通效率这么低？”&lt;/p>
&lt;p>他发现：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>人类喜欢用视觉描述（“这里不对”）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>AI 只能读文字（“在文件 X.js 的第 45 行”）&lt;/p>
&lt;p>于是他和两位同事（Dennis Jin 和 Alex Vanderzon）做了一个桥梁：让视觉反馈转成代码可读的信息。&lt;/p>
&lt;p>这就是 “Agent + Annotation” = Agentation 的由来。&lt;/p>
&lt;p>安全说明&lt;/p>
&lt;p>Agentation 的所有操作均在本地浏览器中执行，
不会上传或收集任何数据。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🚫 无网络请求（No network requests）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🧱 所有数据仅在本地处理&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🧩 不存储或追踪任何用户信息&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🧠 仅用于开发环境（Dev-only）&lt;/p>
&lt;p>在线体验：https://agentation.dev/&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/agentation-ai/28918403">Agentation ：一个给 AI 编程助手用的“可视化标注工具” 指哪改哪&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>Qwen3-TTS 正式开源：全能语音生成、克隆与设计系统</title><link>https://goodinfo.net/posts/opensource/qwen3-tts-%E6%AD%A3%E5%BC%8F%E5%BC%80%E6%BA%90%E5%85%A8%E8%83%BD%E8%AF%AD%E9%9F%B3%E7%94%9F%E6%88%90%E5%85%8B%E9%9A%86%E4%B8%8E%E8%AE%BE%E8%AE%A1%E7%B3%BB%E7%BB%9F/</link><pubDate>Fri, 23 Jan 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/qwen3-tts-%E6%AD%A3%E5%BC%8F%E5%BC%80%E6%BA%90%E5%85%A8%E8%83%BD%E8%AF%AD%E9%9F%B3%E7%94%9F%E6%88%90%E5%85%8B%E9%9A%86%E4%B8%8E%E8%AE%BE%E8%AE%A1%E7%B3%BB%E7%BB%9F/</guid><description>阿里巴巴 Qwen 团队发布了全新一代语音合成模型系列 Qwen3-TTS，具备语音克隆、语音设计、超高保真语音生成以及基于自然语言的语音控制等能力，是目前功能最全的开源语音生成系统之一。 该系列基于创新的 Qwen3-TTS-Tokenizer-12Hz 多码本语音编码器，实现了高效压缩与鲁棒</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>阿里巴巴 Qwen 团队发布了全新一代语音合成模型系列 Qwen3-TTS，具备语音克隆、语音设计、超高保真语音生成以及基于自然语言的语音控制等能力，是目前功能最全的开源语音生成系统之一。&lt;/p>
&lt;p>该系列基于创新的 Qwen3-TTS-Tokenizer-12Hz 多码本语音编码器，实现了高效压缩与鲁棒语音表示，可在轻量架构下快速、逼真地还原人声与声学环境。&lt;/p>
&lt;p>它能做到：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🧬 克隆声音：听你说3秒话，就能复刻出你的音色；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🎙️ 自定义音色：你说“来个温柔女声”或“做成热血旁白”，它立刻生成；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🗣️ 自然情绪控制：能听懂文字里的语气，比如“愤怒”、“悲伤”、“调皮”；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🌍 多语言支持：能说中、英、日、韩、法、德、西、俄、葡、意共10种语言；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>⚡ 实时响应：输入一个字，它就开始说，延迟低至 97毫秒，几乎实时。&lt;/p>
&lt;p>版本配置与性能&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>两个版本都支持：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>流式语音生成（边输入边说）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>自然语言控制（直接指令调节语气）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>语音克隆与定制音色&lt;/p>
&lt;p>主要区别：&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>技术亮点&lt;/p>
&lt;p>🌐 1. 全新语音编码器&lt;/p>
&lt;p>用上了一个叫 Qwen3-TTS-Tokenizer-12Hz 的黑科技模块。
它的作用是：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>把复杂语音信号压缩成高效编码；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>同时保留音色、情绪、背景环境音等细节；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>让AI说话更“真”，而且声音不失真。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>👉 它相当于给声音做了“高清压缩”，既轻量又保真。&lt;/p>
&lt;hr>
&lt;p>⚡ 2. “Dual-Track” 双通道流式生成&lt;/p>
&lt;p>这个机制让 Qwen3-TTS 的响应几乎是实时的：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>输入一个字符，它就能马上发声；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>整体延迟只有 97ms，比你眨眼还快。&lt;/p>
&lt;p>适合应用在：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>实时语音助手&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>游戏NPC对话&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>直播配音、互动故事&lt;/p>
&lt;hr>
&lt;p>🎨 3. “自然语言控制”真懂你说什么&lt;/p>
&lt;p>Qwen3-TTS 不需要复杂参数，只要说人话指令就能调整声音，比如：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>「用激动的语气讲一下」
「小声点说，语速慢一点」
「像中年男性播音那样讲」&lt;/p>
&lt;p>它就会自己调节语气、节奏和音高，效果自然流畅。
这意味着你不用懂声音工程，也能轻松“导演”AI怎么说话。&lt;/p>
&lt;hr>
&lt;p>🧬 4. 声音克隆只要3秒&lt;/p>
&lt;p>你录3秒语音，它就能学会你的声线。
无论你是男是女，说中文还是英文，它都能模仿。
甚至能做到跨语言克隆，比如：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>你用中文录音，它能用相同音色说英语或日语！&lt;/p>
&lt;p>官方测试显示：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>平均识别误差（WER）只有 1.8%&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>说话人相似度高达 0.79
这意味着几乎可以“以假乱真”。&lt;/p>
&lt;hr>
&lt;p>🧩 5. 多角色对话 &amp;amp; 长音频生成&lt;/p>
&lt;p>Qwen3-TTS 不仅能生成一句话，还能生成完整的对话、旁白或广播剧。
例如：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>「旁白」语气平稳
「角色A」兴奋
「角色B」紧张&lt;/p>
&lt;p>它会自动给每个角色换音色、调整节奏，甚至保持人物一致性，
做一整段“多角色配音剧”完全没问题。&lt;/p>
&lt;p>🧏 6. 声音质量（真的很强）&lt;/p>
&lt;p>在 InstructTTS-Eval、Seed-tts-eval 等权威测试中，Qwen3-TTS 系列在 指令跟随、表达力、语音稳定性与跨语种能力 上全面超越 MiniMax、SeedTTS、CosyVoice3 与 ElevenLabs 等模型，达到全球开源 TTS 模型的新 SOTA。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>具体来说：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>音色创造任务上，Qwen3-TTS-VoiceDesign 在 InstructTTS-Eval 中指令遵循能力和生成表现力都整体超越 MiniMax-Voice-Design 闭源模型，并大幅领先其余开源模型。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在音色控制任务上，Qwen3-TTS-Instruct 不仅具备单人多语言的泛化能力，平均词错率 2.34%；同时具备保持音色的风格控制能力，InstructTTS-Eval 取得了 75.4% 的分数；此外，也展现出卓越的长语音生成能力，一次性合成 10 分钟语音的中英词错率为 2.36/2.81%。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在音色克隆任务上，Qwen3-TTS-VoiceClone 在 Seed-tts-eval 上中英文克隆的语音稳定性表现上均超越 MiniMax 和 SeedTTS；在 TTS multilingual test set 上 10 个语项上取得了 1.835% 的平均词错误率和 0.789 的说话人相似度，超越 MiniMax 和 ElevenLabs；跨语种音色克隆也超越 CosyVoice3 位居 SOTA。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>使用方式&lt;/p>
&lt;p>Qwen3-TTS 已全面开源，可通过以下渠道体验：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>💻 GitHub&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🤗 HuggingFace 模型页&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🌐 ModelScope&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>☁️ Qwen API 在线接口&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>📃 技术报告&lt;/p>
&lt;p>在线体验：https://huggingface.co/spaces/Qwen/Qwen3-TTS?spm=a2ty_o06.30285417.0.0.2994c921FICm3F&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/qwen3-tts/28923840">Qwen3-TTS 正式开源：全能语音生成、克隆与设计系统&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>在手机上实时监控Claude Code 工作进度并下达指令干活</title><link>https://goodinfo.net/posts/opensource/%E5%9C%A8%E6%89%8B%E6%9C%BA%E4%B8%8A%E5%AE%9E%E6%97%B6%E7%9B%91%E6%8E%A7claude-code-%E5%B7%A5%E4%BD%9C%E8%BF%9B%E5%BA%A6%E5%B9%B6%E4%B8%8B%E8%BE%BE%E6%8C%87%E4%BB%A4%E5%B9%B2%E6%B4%BB/</link><pubDate>Thu, 22 Jan 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/%E5%9C%A8%E6%89%8B%E6%9C%BA%E4%B8%8A%E5%AE%9E%E6%97%B6%E7%9B%91%E6%8E%A7claude-code-%E5%B7%A5%E4%BD%9C%E8%BF%9B%E5%BA%A6%E5%B9%B6%E4%B8%8B%E8%BE%BE%E6%8C%87%E4%BB%A4%E5%B9%B2%E6%B4%BB/</guid><description>你在电脑上用 Claude Code 或 Codex 写代码。 如果你临时出门、拿着手机，也想看看 AI 现在写到哪了？是否遇到问题？ 该怎办？ 这个开源的程序可以帮到你 Happy 是一个 AI 编程助手的“远程控制器”。 它可以让你： - 在手机、网页、平板上查看 Cl</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>你在电脑上用 Claude Code 或 Codex 写代码。&lt;/p>
&lt;p>如果你临时出门、拿着手机，也想看看 AI 现在写到哪了？是否遇到问题？&lt;/p>
&lt;p>该怎办？&lt;/p>
&lt;p>这个开源的程序可以帮到你&lt;/p>
&lt;p>Happy 是一个 AI 编程助手的“远程控制器”。&lt;/p>
&lt;p>它可以让你：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在手机、网页、平板上查看 Claude/Codex 的运行进度；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>直接对话或语音下指令；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>实时切换设备（比如从手机控制切回电脑只需按键）。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>并且整个通信过程是 端到端加密（End-to-End Encrypted） 的，你的代码不会泄露到服务器。&lt;/p>
&lt;p>核心功能概览&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>它不是用来写代码的编辑器，而是一个AI 代码助手的遥控器 + 通信桥。&lt;/p>
&lt;p>也就是说，它不帮你写代码，而是帮你随时随地控制那个帮你写代码的 AI。&lt;/p>
&lt;p>比如说👇&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>你在电脑上让 Claude 写一个 React 项目；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>你去吃饭或出门，手机上打开 Happy App；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>它会显示 Claude 当前在干嘛、输出了什么；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>你还可以直接在手机上输入新指令，甚至用语音说：“Claude，重命名文件夹”；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Claude 会立刻执行，然后 Happy 实时同步更新结果。&lt;/p>
&lt;p>你不用远程桌面、也不用 VPN。&lt;/p>
&lt;p>一切都通过 Happy 自建的加密连接实现。&lt;/p>
&lt;p>项目的工作原理（简单解释）&lt;/p>
&lt;p>Happy 实际上由三部分组成👇：&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>安全 + 隐私&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>“我们不看你的代码，也不保留任何日志。”&lt;/p>
&lt;p>Happy 的所有通信都是 端到端加密（End-to-End Encryption）。
也就是说：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>你写的内容不会上传到他们的服务器；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>就算有人中间拦截，也只能看到加密数据；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>只有你的设备能解密。&lt;/p>
&lt;p>而且项目是 完全开源的，
你可以自己看代码确认它真的没偷数据（他们还写了隐私政策 PRIVACY.md）。&lt;/p>
&lt;p>所以它非常适合那些担心隐私的开发者。&lt;/p>
&lt;p>在哪些设备上能用？&lt;/p>
&lt;p>Happy 几乎支持所有常见平台：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>iPhone / Android 手机：有官方 App；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>网页端：直接登录网页版就能用（happy.engineering）；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>macOS 桌面端：支持通过 Tauri 框架本地运行；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Windows / Linux：通过命令行（CLI）使用。&lt;/p>
&lt;p>而且你可以非常自由地在设备之间来回切换。&lt;/p>
&lt;p>比如，你在电脑上运行 Claude，
走开时拿出手机打开 Happy App，它会立即显示当前 Claude 的状态。
如果想重新在电脑上接管，只要按键盘上的任意键，Claude 就自动切回本地控制。&lt;/p>
&lt;p>这个过程几乎是无缝的。&lt;/p>
&lt;p>怎么用？上手很简单&lt;/p>
&lt;p>Happy 的设计目标就是“让你一分钟内上手”。
以下是一个新手能理解的完整流程👇&lt;/p>
&lt;p>第一步：安装命令行工具&lt;/p>
&lt;p>在电脑上运行这条命令（需要 Node.js 环境）：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">npm install -g happy-coder
&lt;/code>&lt;/pre>&lt;p>第二步：启动 Claude / Codex&lt;/p>
&lt;p>平常你可能直接在命令行输入：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">claude
&lt;/code>&lt;/pre>&lt;p>或者：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">codex
&lt;/code>&lt;/pre>&lt;p>现在只要改成：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">happy
&lt;/code>&lt;/pre>&lt;p>或者：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">happy codex
&lt;/code>&lt;/pre>&lt;p>这样 Claude/Codex 就会在 Happy 的“加密控制模式”下启动。&lt;/p>
&lt;p>第三步：用手机连接&lt;/p>
&lt;p>下载「Happy Coder」App（iOS/Android 都有），
登录后就能看到 Claude 当前的运行状态。&lt;/p>
&lt;p>此时你可以：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>看 Claude 输出的结果；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>让它继续执行任务；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>用语音对它说话；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>或直接在手机上编辑代码段。&lt;/p>
&lt;p>整个过程不需要公网 IP、不需要 VPN，
因为它会自动建立一条加密隧道来同步数据。&lt;/p>
&lt;p>GitHub：https://github.com/slopus/happy&lt;/p>
&lt;p>iOS下载&lt;/p>
&lt;p>安卓下载&lt;/p>
&lt;p>官网：https://happy.engineering/&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/claude-code/28870995">在手机上实时监控Claude Code 工作进度并下达指令干活&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>智谱 AI 发布 GLM-Image 自回归图像生成模型 能精准理解文字语义并生成高保真具知识结构的图像</title><link>https://goodinfo.net/posts/opensource/%E6%99%BA%E8%B0%B1-ai-%E5%8F%91%E5%B8%83-glm-image-%E8%87%AA%E5%9B%9E%E5%BD%92%E5%9B%BE%E5%83%8F%E7%94%9F%E6%88%90%E6%A8%A1%E5%9E%8B-%E8%83%BD%E7%B2%BE%E5%87%86%E7%90%86%E8%A7%A3%E6%96%87%E5%AD%97%E8%AF%AD%E4%B9%89%E5%B9%B6%E7%94%9F%E6%88%90%E9%AB%98%E4%BF%9D%E7%9C%9F%E5%85%B7%E7%9F%A5%E8%AF%86%E7%BB%93%E6%9E%84%E7%9A%84%E5%9B%BE%E5%83%8F/</link><pubDate>Sat, 17 Jan 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/%E6%99%BA%E8%B0%B1-ai-%E5%8F%91%E5%B8%83-glm-image-%E8%87%AA%E5%9B%9E%E5%BD%92%E5%9B%BE%E5%83%8F%E7%94%9F%E6%88%90%E6%A8%A1%E5%9E%8B-%E8%83%BD%E7%B2%BE%E5%87%86%E7%90%86%E8%A7%A3%E6%96%87%E5%AD%97%E8%AF%AD%E4%B9%89%E5%B9%B6%E7%94%9F%E6%88%90%E9%AB%98%E4%BF%9D%E7%9C%9F%E5%85%B7%E7%9F%A5%E8%AF%86%E7%BB%93%E6%9E%84%E7%9A%84%E5%9B%BE%E5%83%8F/</guid><description>智谱 AI 发布 GLM-Image ：一个能“理解复杂语义 + 生成高质量图片”的 AI 图像生成模型。 是世界上第一个开源、工业级的自回归图像生成模型（Auto-regressive Image Generator）。 智谱研究团队在总结现有图像模型时发现两个明显问题： 1. 语义理</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>智谱 AI 发布 GLM-Image ：一个能“理解复杂语义 + 生成高质量图片”的 AI 图像生成模型。&lt;/p>
&lt;p>是世界上第一个开源、工业级的自回归图像生成模型（Auto-regressive Image Generator）。&lt;/p>
&lt;p>智谱研究团队在总结现有图像模型时发现两个明显问题：
1.&lt;/p>
&lt;p>语义理解差
扩散类模型虽然画面漂亮，但经常画错语义。
比如输入“一个医生和一个病人”，模型可能生成两个医生。&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>文字和知识表现弱
大多数模型渲染文字能力很差，尤其是中文。
也无法很好地表达有知识逻辑的图像内容，比如技术示意图、教育海报或科普内容。&lt;/p>
&lt;p>为了解决这两个问题，智谱团队选择了一条不同的路线：用语言模型（LLM）处理语义理解，用扩散模型处理图像生成。&lt;/p>
&lt;p>二者结合，就是 GLM-Image。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>主要功能包括：&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">
1.&lt;/p>
&lt;p>文本生成图像（Text-to-Image）
能根据中文、英文或混合输入生成语义准确、构图合理的图片，
适用于广告创意、科普插图、教育内容等场景。&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>图像编辑与再生成（Image Editing / I2I）
支持局部修改、背景替换、风格迁移等任务，
在保持画面一致性的同时进行精准重绘。&lt;/p>
&lt;ol start="3">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>文字渲染与排版（Text Rendering）
借助 Glyph-byT5 模块，能够在图片中生成结构清晰的中英文文字，
在 CVTG 和 LongText-Bench 测试中表现领先。&lt;/p>
&lt;ol start="4">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>身份与多主体一致性生成
生成过程中能保持人物或物体的身份与动作关系一致，
适合角色设计、故事插画、虚拟人制作。&lt;/p>
&lt;ol start="5">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>知识密集型图像生成（Knowledge-dense Generation）
可根据技术性或教育类文字生成逻辑严谨、信息丰富的图像，
支持图表、流程图、结构图等复杂内容。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>GLM-Image 的架构：两种模型的结合体&lt;/p>
&lt;p>GLM-Image 使用了一种「混合式结构」：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">文字输入 → [自回归生成器] → 语义表示 → [扩散解码器] → 图像输出
&lt;/code>&lt;/pre>&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>这两个模块互相协作：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>第一步：语言模型理解文字 → 生成语义布局；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>第二步：扩散模型据此生成细节 → 输出最终图像。&lt;/p>
&lt;p>💡 理解 → 表达 → 渲染 三步走。&lt;/p>
&lt;p>为什么叫“自回归（Auto-regressive）”？&lt;/p>
&lt;p>“自回归”是一种模型生成方式，它不是“一次生成整张图片”，而是像语言模型一样，“一个 token 一个 token 地生成”。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>想象你在画画：
1.&lt;/p>
&lt;p>先想好主题；&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>再决定布局；&lt;/p>
&lt;ol start="3">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>然后一点点画出细节。&lt;/p>
&lt;p>GLM-Image 的自回归模块做的正是这件事：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>每个 token 对应画面的一个语义片段；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>模型逐步预测下一个“画面单元”；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>直到构思完整。&lt;/p>
&lt;p>这样带来的好处是：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>能保持画面的逻辑一致；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>对长句、多实体描述的理解更准确；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>特别适合“知识密集型”场景（如科普、教育、广告）。&lt;/p>
&lt;p>技术细节（逐层拆解）&lt;/p>
&lt;p>（1）视觉编码：用 Semantic-VQ 表达图像语义&lt;/p>
&lt;p>传统模型（如 DALL·E 或 SDXL）
在训练图像时通常会把图片切割成小块（patch）并编码成向量。&lt;/p>
&lt;p>但不同编码方式的信息保留程度差距很大👇：&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>智谱 AI 经过实验发现：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>使用 语义量化（Semantic-VQ） 的编码方式能让模型更懂内容。&lt;/p>
&lt;p>所以 GLM-Image 采用 X-Omni 的语义量化算法。
每张图被压缩成 16 倍尺寸（16×16 的 patch），
编码为一串“语义 token”，
再输入自回归模块。&lt;/p>
&lt;p>（2）多分辨率训练策略&lt;/p>
&lt;p>GLM-Image 不是一次性训练高分辨率图片，
而是分阶段逐步提升画质：&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>模型最终能生成 最高 2048×2048 的图片。&lt;/p>
&lt;p>这种渐进式策略使模型在每一阶段都能“稳步理解 + 稳定收敛”。&lt;/p>
&lt;p>（3）扩散解码器（Diffusion Decoder）&lt;/p>
&lt;p>当自回归模块生成了语义 token 后，
扩散解码器接手任务，把这些语义信息变成真实的画面。&lt;/p>
&lt;p>它采用了：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>DiT（Diffusion Transformer）结构；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Flow Matching 调度算法（让扩散收敛更快、更稳）；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Glyph-byT5 小模型，用于改进中文字符渲染。&lt;/p>
&lt;p>💬 为什么需要 Glyph-byT5？&lt;/p>
&lt;p>因为中文文字在图像中包含细节笔画结构，传统扩散模型往往渲染错误。&lt;/p>
&lt;p>Glyph-byT5 会把文字分解成字形特征，再让扩散模型“照着笔画画”。&lt;/p>
&lt;hr>
&lt;p>（4）图像编辑机制&lt;/p>
&lt;p>在进行图像编辑（如换背景、改衣服）时，
GLM-Image 同时输入：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>语义-VQ token；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>参考图像的 VAE latent 表征。&lt;/p>
&lt;p>采用 Block-Causal Attention（块级因果注意力），
在计算量减少的同时，能精准保持原图细节。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>相比之下，像 Qwen-Image-Edit 那种“全注意力”方案虽然更精确，但速度更慢。&lt;/p>
&lt;hr>
&lt;p>（5）后训练：强化学习双优化&lt;/p>
&lt;p>GLM-Image 在训练完成后，还进行了一轮“强化微调”：&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>奖励信号包括：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>HPSv3（美学得分）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>OCR 准确率（文字清晰度）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>VLM 对齐（语义准确性）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>LPIPS（视觉感知相似度）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>手部打分模型（提高手部生成质量）&lt;/p>
&lt;p>结果是：GLM-Image 不仅“理解得准”，而且“画得漂亮”。&lt;/p>
&lt;p>性能表现&lt;/p>
&lt;p>GLM-Image 在多个权威基准测试中表现优秀，尤其是在中文任务上。&lt;/p>
&lt;ol>
&lt;li>文本渲染（CVTG-2k）&lt;/li>
&lt;/ol>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在中文、英文、混合排版场景中都表现稳定。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>平均文字识别准确率 0.9116（中文英文双优）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>是所有开源模型中文字渲染最准确的模型。（优于 Qwen-Image 和 SD3.5）&lt;/p>
&lt;ol start="2">
&lt;li>长文本渲染（LongText-Bench）&lt;/li>
&lt;/ol>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>中文准确率 0.979，几乎追平闭源的 Seedream 4.5&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>英文准确率 0.952&lt;/p>
&lt;ol start="3">
&lt;li>综合图像生成（OneIG）&lt;/li>
&lt;/ol>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>英文任务总体得分 0.528&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>中文任务 0.511
（与 Qwen-Image-2512 相当，优于 CogView4）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>特别在 “文本理解” 和 “逻辑推理” 两项指标上表现突出。&lt;/p>
&lt;ol start="4">
&lt;li>知识密集型任务（DPG-Bench）&lt;/li>
&lt;/ol>
&lt;p>在涉及复杂结构、实体关系、属性理解的任务中：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>GLM-Image 得分 84.78，略低于 Qwen-Image（88.3&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>但在关系理解与结构生成方面表现稳定。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>这意味着它在“理性生成任务”中依旧可靠。&lt;/p>
&lt;p>官方介绍：https://z.ai/blog/glm-image&lt;/p>
&lt;p>GitHub：https://github.com/zai-org/GLM-Image&lt;/p>
&lt;p>模型：https://huggingface.co/zai-org/GLM-Image&lt;/p>
&lt;p>文档：https://docs.z.ai/guides/image/glm-image&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/ai-glm-image/28716782">智谱 AI 发布 GLM-Image 自回归图像生成模型 能精准理解文字语义并生成高保真具知识结构的图像&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>Black Forest Labs 推出FLUX.2 [klein]模型：亚秒级速度图像生成 实现0.5秒出图改图</title><link>https://goodinfo.net/posts/opensource/black-forest-labs-%E6%8E%A8%E5%87%BAflux2-klein%E6%A8%A1%E5%9E%8B%E4%BA%9A%E7%A7%92%E7%BA%A7%E9%80%9F%E5%BA%A6%E5%9B%BE%E5%83%8F%E7%94%9F%E6%88%90-%E5%AE%9E%E7%8E%B005%E7%A7%92%E5%87%BA%E5%9B%BE%E6%94%B9%E5%9B%BE-/</link><pubDate>Fri, 16 Jan 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/black-forest-labs-%E6%8E%A8%E5%87%BAflux2-klein%E6%A8%A1%E5%9E%8B%E4%BA%9A%E7%A7%92%E7%BA%A7%E9%80%9F%E5%BA%A6%E5%9B%BE%E5%83%8F%E7%94%9F%E6%88%90-%E5%AE%9E%E7%8E%B005%E7%A7%92%E5%87%BA%E5%9B%BE%E6%94%B9%E5%9B%BE-/</guid><description>Black Forest Labs 发布其最新模型 FLUX.2 [klein]，这是一款兼具亚秒级速度与卓越画质的图像生成模型。 能够在 不到一秒的时间内生成高质量图像，同时保持令人惊叹的细节与美感表现。 FLUX.2 [klein] 专为快速创意开发、风格迁移与视觉编辑任务而设计。用户可</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>Black Forest Labs 发布其最新模型 FLUX.2 [klein]，这是一款兼具亚秒级速度与卓越画质的图像生成模型。&lt;/p>
&lt;p>能够在 不到一秒的时间内生成高质量图像，同时保持令人惊叹的细节与美感表现。&lt;/p>
&lt;p>FLUX.2 [klein] 专为快速创意开发、风格迁移与视觉编辑任务而设计。用户可以轻松完成从概念到成品的全流程创作（即“从 0 → 1”），无需牺牲质量或等待时间。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>⚡ 非常快：0.5 秒内生成或编辑图像&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>💻 消费级显卡即可运行（13GB VRAM 起）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🖼️ 画质好：输出接近商业级成品；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🧩 灵活使用：网页试用、本地部署、API 接入全支持；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🧠 可训练：适合个性化微调；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🪪 部分版本开源（Apache 2.0），可自由商用。&lt;/p>
&lt;p>这使得它特别适用于：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>实时设计与原型制作&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>动态风格切换与艺术探索&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>AI 辅助内容生成与编辑&lt;/p>
&lt;p>四种模型变体&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">
1.&lt;/p>
&lt;p>FLUX.2 [klein] 9B&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>核心旗舰版。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>建立了“质量-延迟”最优平衡点。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在 &amp;lt;0.5 秒内生成结果，质量匹敌比其大 5 倍的模型。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>使用 9B flow model + 8B Qwen3 text embedder。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>支持多图像混合、复杂概念融合与高速迭代。&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>FLUX.2 [klein] 4B&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>轻量完全开源版（Apache 2.0）。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>支持本地部署与边缘计算。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>性能虽小但质量出众。&lt;/p>
&lt;ol start="3">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>Base 模型（9B / 4B）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>未蒸馏（undistilled）版本，保留完整训练信号。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>输出多样性更高，适合科研与自定义控制场景。&lt;/p>
&lt;p>硬件要求与适配性&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>4B 版本只需：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>✅ RTX 3090 / 4070（13GB VRAM 即可）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>✅ 本地运行，支持 Windows / Linux / macOS&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>✅ 开源权重（Apache 2.0）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>9B 版本适合：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🔧 开发者与研究人员（需约 16GB+ VRAM）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🚀 支持 LoRA 微调与自定义训练&lt;/p>
&lt;p>BFL 与 NVIDIA 合作推出 FP8 / NVFP4 量化方案后，
即便是 RTX 3060 / 4060 级别显卡 也能流畅运行。&lt;/p>
&lt;p>主要功能与技术特点&lt;/p>
&lt;p>1️⃣ 统一模型：生成 + 编辑 + 多参考&lt;/p>
&lt;p>传统的图像生成模型通常分为独立的模块&lt;/p>
&lt;p>FLUX.2 [klein] 并非仅仅做生成，而是将以下功能整合进一个模型：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>T2I（Text-to-Image）：从文本生成图像；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>I2I（Image-to-Image）：基于已有图像进行编辑；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Multi-Reference Generation：综合多张图片的视觉特征生成新图像。&lt;/p>
&lt;p>FLUX.2 [klein] 采用统一架构，将这三者融合。&lt;/p>
&lt;p>也就是说，一个模型就能：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>从文字生成图像；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>对已有图像进行修改；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>融合多个图像的风格或内容生成新图像。&lt;/p>
&lt;p>这种整合不仅减少了推理延迟，也使模型能更自然地处理复杂的视觉任务。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;hr>
&lt;p>2️⃣ 亚秒级推理：真正的实时生成&lt;/p>
&lt;p>FLUX.2 [klein] 实现了 低于 0.5 秒的推理时间。
这意味着用户几乎可以实时看到修改后的图像结果。
这种性能突破为：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>交互式创作软件（例如 Photoshop 类产品的 AI 功能），&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>视觉对话系统，&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>AI 设计助手
提供了基础。&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>🔹 以往的扩散模型通常需要 20～50 步推理，而 FLUX.2 通过“step-distillation（步骤蒸馏）”技术，将其压缩至仅 4 步即可完成。&lt;/p>
&lt;hr>
&lt;p>3️⃣ 高效与小型化&lt;/p>
&lt;p>“klein”在德语中意为“小”，暗示了其设计理念：
小体积、低延迟、却保持高性能。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>4B 模型：只需约 13GB VRAM 即可运行，适配 RTX 3090 / 4070 等消费级 GPU。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>9B 模型：虽然更大，但提供旗舰级质量与功能。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>性能对比：
FLUX.2 [klein] 的输出质量可以匹敌甚至超过比其大五倍的模型，而延迟仅为对方的一半以下。&lt;/p>
&lt;hr>
&lt;p>4️⃣ 高保真输出与多样性&lt;/p>
&lt;p>在图像质量上，FLUX.2 [klein] 具备：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>照片级真实感（Photorealism）；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>丰富的图像多样性（Diversity）；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在复杂概念组合中的表现力，例如人物、光线、风格同时变化的场景。&lt;/p>
&lt;p>其“Base”版本（未蒸馏）保留了完整训练信号，允许研究者在多样性与速度之间做权衡。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;hr>
&lt;p>速度与性能&lt;/p>
&lt;p>FLUX.2 [klein] 最大的亮点就是 —— 速度快得惊人。&lt;/p>
&lt;p>根据 BFL.ai 的官方测试：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>生成时间：
🔹 低于 0.5 秒（1024×1024 分辨率）
🔹 在 RTX 4090 或 4070 上几乎是“实时”的&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>推理步数：
仅需 4 步推理（step-distilled），而类似模型通常需要 20~30 步。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>量化版 (FP8 / NVFP4)&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>FP8 模式：快 1.6×，显存节省 40%&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>NVFP4 模式：快 2.7×，显存节省 55%&lt;/p>
&lt;p>➡️ 换句话说：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>以前生成一张图需要 5~10 秒，现在只要不到 1 秒。
这让 AI 绘图第一次真正进入“交互式实时”时代。&lt;/p>
&lt;p>图像质量&lt;/p>
&lt;p>BFL 官方对比显示：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在照片真实感（Photorealism） 与 风格一致性（Style Coherence） 上，
FLUX.2 [klein] ≈ SD3 ≈ Midjourney V6。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在多样性（Diversity） 上，
Base 模型版本 &amp;gt; 蒸馏版（Distilled）&amp;gt; SDXL。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在一致性（Composition Control） 上，
Multi-reference 模式远超 SDXL，可将多个图片/概念融合为一张高质量结果。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>开放与许可政策&lt;/p>
&lt;p>FLUX.2 [klein] 在开放性方面延续了 BFL 一贯的策略：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>4B / 4B Base：采用 Apache 2.0 开源许可，允许商业使用；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>9B / 9B Base：提供 开放权重 (Open Weights)，但限于非商业用途；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>支持在 Hugging Face 平台下载模型权重；&lt;/p>
&lt;p>🧠 支持微调（Fine-tuning）&lt;/p>
&lt;p>FLUX.2 [klein] 的设计充分考虑了二次开发需求。
用户可以在自己的硬件上对模型进行微调，定制特定风格或领域，例如品牌视觉、游戏角色、艺术风格迁移等。
这一功能特别适合企业和高端用户进行个性化 AI 模型训练。&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>📄 相关资源：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🤗 Hugging Face 模型页：black-forest-labs&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🧩 GitHub 项目地址：black-forest-labs/flux&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>📜 许可政策详情：bfl.ai/licensing&lt;/p>
&lt;p>官方介绍：https://bfl.ai/models/flux-2-klein&lt;/p>
&lt;p>在线体验：https://bfl.ai/play&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/black-forest-labs-flux-2-klein-0-5/28687454">Black Forest Labs 推出FLUX.2 [klein]模型：亚秒级速度图像生成 实现0.5秒出图改图 &lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>Google 开源全新翻译模型：TranslateGemma 覆盖 550 种语言 可在各种设备上运行</title><link>https://goodinfo.net/posts/opensource/google-%E5%BC%80%E6%BA%90%E5%85%A8%E6%96%B0%E7%BF%BB%E8%AF%91%E6%A8%A1%E5%9E%8Btranslategemma-%E8%A6%86%E7%9B%96-550-%E7%A7%8D%E8%AF%AD%E8%A8%80-%E5%8F%AF%E5%9C%A8%E5%90%84%E7%A7%8D%E8%AE%BE%E5%A4%87%E4%B8%8A%E8%BF%90%E8%A1%8C/</link><pubDate>Fri, 16 Jan 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/google-%E5%BC%80%E6%BA%90%E5%85%A8%E6%96%B0%E7%BF%BB%E8%AF%91%E6%A8%A1%E5%9E%8Btranslategemma-%E8%A6%86%E7%9B%96-550-%E7%A7%8D%E8%AF%AD%E8%A8%80-%E5%8F%AF%E5%9C%A8%E5%90%84%E7%A7%8D%E8%AE%BE%E5%A4%87%E4%B8%8A%E8%BF%90%E8%A1%8C/</guid><description>机器翻译（MT）模型在过去十年经历了两种技术主流： 1. 传统大型语言模型（LLM）路线： 例如 GPT、Gemini、Claude 等，它们具备翻译能力，但模型庞大、计算昂贵，不便开源，也无法轻易部署在本地或移动设备。 2. 专用翻译模型路线： 如 Facebook 的 NLLB (No</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>机器翻译（MT）模型在过去十年经历了两种技术主流：
1.&lt;/p>
&lt;p>传统大型语言模型（LLM）路线：
例如 GPT、Gemini、Claude 等，它们具备翻译能力，但模型庞大、计算昂贵，不便开源，也无法轻易部署在本地或移动设备。&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>专用翻译模型路线：
如 Facebook 的 NLLB (No Language Left Behind)、Meta 的 SeamlessM4T、Google 自家的 Gemma 系列，它们在开放性和多语言支持上更好，但在模型效率和低资源语言表现上仍有提升空间。&lt;/p>
&lt;p>TranslateGemma 的出现正是为了解决这一矛盾：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>“如何在保持高翻译质量的前提下，让模型更轻、更快、更普及。”&lt;/p>
&lt;p>因此，Google 设计了一个新系列模型 —— TranslateGemma，它能在不同硬件环境中运行，效率高、精度强，并且完全开放。&lt;/p>
&lt;p>TranslateGemma 覆盖 55 种主要语言，并扩展至约 500 个语言对，并推出三种规格（4B / 12B / 27B）。在翻译精度、效率与多模态泛化方面均取得显著提升。&lt;/p>
&lt;p>它的目标：让高质量翻译不再依赖超大模型。&lt;/p>
&lt;p>功能亮点：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🧠 轻量高效：12B 模型性能超越 27B 版本，速度更快、能耗更低；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🌍 广泛语言覆盖：从英语、中文到低资源语言，全面优化；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🔄 智能蒸馏 + 强化学习：融合 Gemini 模型知识，翻译更自然、更准确；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🖼️ 多模态能力：可直接翻译图像中的文字内容；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>💻 多平台适配：可运行在手机、笔记本甚至单张 GPU 上；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🔓 完全开源：Kaggle、Hugging Face、Vertex AI 均可使用。&lt;/p>
&lt;p>TranslateGemma 正在重塑机器翻译的效率边界，让 AI 翻译真正“普惠全球”。 🌏&lt;/p>
&lt;p>技术亮点&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🔍 双阶段训练策略&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>监督微调（SFT）：融合人工平行语料与 Gemini 生成数据；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>强化学习优化（RL）：基于 MetricX-QE + AutoMQM 奖励信号，优化自然度与上下文一致性。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🧠 高效知识蒸馏&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>将 Gemini 系列的语义理解“压缩”进更小模型；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在同等质量下参数减少 50%。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🧩 多模态兼容&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在 Vistra 图像翻译基准上实现零样本提升；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>无需额外微调即可翻译图像文字。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>⚙️ 全平台推理能力&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>4B 可运行于移动端；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>12B 适配笔记本级硬件；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>27B 单卡 GPU 即可部署云端生产级翻译服务。&lt;/p>
&lt;p>模型体系结构：三种规格、同一核心&lt;/p>
&lt;p>TranslateGemma 是建立在 Gemma 3 基座模型上的翻译专用系列，包括以下三种参数规模：&lt;/p>
&lt;p>该系列包含三个不同参数规模的模型：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>4B 参数模型（移动端与边缘设备优化）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>12B 参数模型（个人开发机级别）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>27B 参数模型（高精度云端部署）&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>开放性：所有版本开放下载与使用；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>效率最大化：实现“小模型超过大模型”的性能；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>广语言覆盖：兼顾高资源与低资源语言；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>多模态兼容：可处理图像内文字的翻译任务。&lt;/p>
&lt;p>模型性能与突破：小模型超越大模型&lt;/p>
&lt;p>在 Google 的测试中：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>TranslateGemma-12B 在 WMT24++ 基准上超过 Gemma 3 的 27B 模型；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>TranslateGemma-4B 的表现接近甚至略优于旧版 12B 模型。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>💡 关键指标提升：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>MetricX 指标：比同规模Gemma模型高出约15–20%；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>错误率（Error Rate）：在55种语言中全面下降；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>低资源语言表现：显著提升，特别是非洲及南亚语系。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>这意味着 TranslateGemma 在同等计算资源下可以提供更高质量的翻译输出，是一次参数利用效率的重大突破。&lt;/p>
&lt;p>语言覆盖与低资源适应性&lt;/p>
&lt;p>TranslateGemma 是目前覆盖语言最广的开源翻译模型之一。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>此外，Google 已在研究中扩展训练至 约500个语言对（包括罕见语言组合），以便研究者能在此基础上进行领域适配或低资源微调。&lt;/p>
&lt;p>多模态翻译能力（Multimodal Translation）&lt;/p>
&lt;p>TranslateGemma 延续了 Gemma 3 的多模态结构，具备“图文一体”理解能力。&lt;/p>
&lt;p>🔹 评测基准：Vistra（图像翻译测试）&lt;/p>
&lt;p>结果显示：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>即使未专门进行多模态微调，TranslateGemma 仍能较好地翻译图片中的文字内容；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>模型在 OCR 场景（如文档、图像、海报）中表现优异；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>多模态表现的提升来自基础语言理解能力的强化，而非专门视觉优化。&lt;/p>
&lt;p>这一点说明，TranslateGemma 拥有潜在的跨模态扩展潜力。&lt;/p>
&lt;p>模型的训练方法：两阶段蒸馏体系&lt;/p>
&lt;p>TranslateGemma 的核心训练理念是——&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>“把最强大模型（Gemini）的知识压缩进一个更轻的开源结构中。”&lt;/p>
&lt;p>整个训练分为两个阶段：&lt;/p>
&lt;hr>
&lt;p>第一阶段：监督微调（Supervised Fine-Tuning, SFT）&lt;/p>
&lt;p>🔹 目标：&lt;/p>
&lt;p>让模型学习语言对齐、句法转换和语义映射能力。&lt;/p>
&lt;p>🔹 数据来源：
1.&lt;/p>
&lt;p>高质量人工平行语料（即人工双语翻译对）；&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>Gemini 模型生成的高保真合成翻译数据（synthetic data）。&lt;/p>
&lt;p>🔹 特点：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>包含 高资源语言（如英语、西班牙语、法语、中文）；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>同时扩展至 中低资源语言；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>重点保证语义一致性与上下文流畅性；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>构建更广泛的语言覆盖面。&lt;/p>
&lt;p>通过 SFT，模型获得了对语言结构的“基础直觉”。&lt;/p>
&lt;hr>
&lt;p>第二阶段：强化学习优化（Reinforcement Learning, RL）&lt;/p>
&lt;p>🔹 目的：&lt;/p>
&lt;p>进一步提高翻译结果的自然度与上下文适应性。&lt;/p>
&lt;p>🔹 方法：&lt;/p>
&lt;p>引入奖励模型（Reward Models），通过反馈信号指导模型改进翻译质量。&lt;/p>
&lt;p>🔹 奖励信号包括：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>MetricX-QE：评估翻译文本的上下文质量；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>AutoMQM：基于自动化的多维质量评分；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>参考奖励：由多模型集合（ensemble）判定的语言流畅度和准确性。&lt;/p>
&lt;p>这种基于 RL 的精调方式使模型能学习到人类偏好：
不仅要“对”，还要“自然、顺畅、上下文一致”。&lt;/p>
&lt;p>技术报告：https://arxiv.org/pdf/2601.09012&lt;/p>
&lt;p>模型下载：https://huggingface.co/collections/google/translategemma&lt;/p>
&lt;p>体验：https://colab.research.google.com/github/google-gemini/gemma-cookbook/blob/main/Research/[TranslateGemma]Example.ipynb&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/google-translategemma-550/28676209">Google 开源全新翻译模型：TranslateGemma 覆盖 550 种语言 可在各种设备上运行&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>Google 发布开源医疗模型 MedGemma 1.5 4B 和医疗语音识别模型 MedASR</title><link>https://goodinfo.net/posts/opensource/google-%E5%8F%91%E5%B8%83%E5%BC%80%E6%BA%90%E5%8C%BB%E7%96%97%E6%A8%A1%E5%9E%8B-medgemma-15-4b-%E5%92%8C%E5%8C%BB%E7%96%97%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB%E6%A8%A1%E5%9E%8B-medasr/</link><pubDate>Wed, 14 Jan 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/google-%E5%8F%91%E5%B8%83%E5%BC%80%E6%BA%90%E5%8C%BB%E7%96%97%E6%A8%A1%E5%9E%8B-medgemma-15-4b-%E5%92%8C%E5%8C%BB%E7%96%97%E8%AF%AD%E9%9F%B3%E8%AF%86%E5%88%AB%E6%A8%A1%E5%9E%8B-medasr/</guid><description>Google 在 2024 年发布了 MedGemma 系列：一套开放的医疗生成式AI模型，用于医疗文本与影像任务。 这一系列属于 Health AI Developer Foundations（HAI-DEF） 计划的一部分，允许开发者基于 Google Cloud 和 Vertex AI 自主定</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>Google 在 2024 年发布了 MedGemma 系列：一套开放的医疗生成式AI模型，用于医疗文本与影像任务。
这一系列属于 Health AI Developer Foundations（HAI-DEF） 计划的一部分，允许开发者基于 Google Cloud 和 Vertex AI 自主定制医疗AI应用。&lt;/p>
&lt;p>发布后，MedGemma 模型在 Hugging Face 上被下载数百万次，衍生出数百种社区版本。&lt;/p>
&lt;p>此次更新发布了 MedGemma 1.5 4B 模型（40亿参数），主打：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>支持多模态（文本 + 图像 + 医学报告）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>优化医疗影像的理解与结构化分析&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>可本地运行，也可在云端扩展（Google Cloud / Vertex AI）&lt;/p>
&lt;p>它能理解的内容包括：&lt;/p>
&lt;ol>
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>医学影像：CT、MRI、X光、病理切片等；&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>医学文本：病历记录、化验报告、病理描述等；&lt;/p>
&lt;ol start="3">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>多时间点数据：同一个病人的影像随时间变化，例如对比两次胸片；&lt;/p>
&lt;ol start="4">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>解剖学定位：识别出影像中具体的器官或结构位置；&lt;/p>
&lt;ol start="5">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>实验室数据提取：从化验单中提取数值、单位和检测类型。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>MedGemma 1.5 的性能提升&lt;/p>
&lt;p>Google在这次更新中，不只是增加功能，还大幅提高了准确率。下面是关键指标的变化：&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>影像理解能力更强了，尤其是在CT、MRI、病理和结构定位方面。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>Google还指出，这个模型的3D影像理解能力在开源领域属于“首创”，是第一个公开能解释三维医学数据的开源模型。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>模型的使用方式&lt;/p>
&lt;p>MedGemma 1.5 有多种用法。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>开发者可以用它来训练新的医学 AI 系统；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>医院可以基于它定制特定科室的辅助工具；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>医学研究者可以用它来分析大规模影像数据集。&lt;/p>
&lt;p>这个模型支持DICOM格式，也就是医院通用的医学影像标准文件，所以几乎能无缝地接入现有医疗系统。&lt;/p>
&lt;p>MedASR：专为医疗语音打造的语音识别模型&lt;/p>
&lt;p>除了图像模型，Google 还发布了一个全新的医疗语音识别模型——MedASR。&lt;/p>
&lt;p>在医疗场景里，医生最常用的沟通方式其实是“口述”。
无论是病历录音、影像描述，还是医患交流，都依赖语音。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>这款专为医疗场景优化的语音识别系统（ASR），可以：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>将医生口述的病历、影像描述转成文字；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>与 MedGemma 联动，实现“语音输入 + AI推理”。&lt;/p>
&lt;p>性能对比：&lt;/p>
&lt;p>谷歌将 MedASR 与 OpenAI 的 Whisper large-v3（通用语音模型）进行了比较：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在胸片口述任务中，MedASR 的错误率为 5.2%，Whisper 为 12.5%；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在综合医学口述任务中，MedASR 的错误率为 5.2%，Whisper 为 28.2%。&lt;/p>
&lt;p>也就是说，MedASR 比通用模型的语音识别准确率高出了一倍以上。
对于需要口述病历或生成医疗报告的医生来说，这会极大地提升效率。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>开放性&lt;/p>
&lt;p>Googl继续保持了开放策略：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>所有 HAI-DEF 模型，包括 MedGemma、MedASR、MedSigLIP，都是免费可商用的；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>模型可在 Hugging Face 上下载，也能直接在 Vertex AI 上运行；&lt;/p>
&lt;p>详细内容：https://research.google/blog/next-generation-medical-image-interpretation-with-medgemma-15-and-medical-speech-to-text-with-medasr/&lt;/p>
&lt;p>模型下载：https://huggingface.co/google/medgemma-1.5-4b-it&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/google-medgemma-1-5-4b-medasr/28603292">Google 发布开源医疗模型 MedGemma 1.5 4B 和医疗语音识别模型 MedASR&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>Vercel 发布 “Agent Browser”：专为AI 代理开发的浏览器自动化工具</title><link>https://goodinfo.net/posts/opensource/vercel-%E5%8F%91%E5%B8%83-agent-browser%E4%B8%93%E4%B8%BAai-%E4%BB%A3%E7%90%86%E5%BC%80%E5%8F%91%E7%9A%84%E6%B5%8F%E8%A7%88%E5%99%A8%E8%87%AA%E5%8A%A8%E5%8C%96%E5%B7%A5%E5%85%B7/</link><pubDate>Tue, 13 Jan 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/vercel-%E5%8F%91%E5%B8%83-agent-browser%E4%B8%93%E4%B8%BAai-%E4%BB%A3%E7%90%86%E5%BC%80%E5%8F%91%E7%9A%84%E6%B5%8F%E8%A7%88%E5%99%A8%E8%87%AA%E5%8A%A8%E5%8C%96%E5%B7%A5%E5%85%B7/</guid><description>Vercel 实验室（Vercel Labs）发布全新开源项目 Agent Browser 。该工具是一个为人工智能代理（AI Agents）设计的浏览器自动化命令行工具（CLI），旨在让 AI 模型不仅能理解网页信息，还能直接在网页上执行操作。 Vercel 表示，Agent Browser</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>Vercel 实验室（Vercel Labs）发布全新开源项目 Agent Browser 。该工具是一个为人工智能代理（AI Agents）设计的浏览器自动化命令行工具（CLI），旨在让 AI 模型不仅能理解网页信息，还能直接在网页上执行操作。&lt;/p>
&lt;p>Vercel 表示，Agent Browser 的出现，为 AI 代理与真实互联网交互提供了底层执行能力，标志着从“对话式智能”向“行动式智能”迈出了关键一步。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>零配置（Zero config）：安装即可用，无需手动设置浏览器或依赖。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>高性能（Fast Rust CLI）：底层用 Rust 实现，运行速度远高于传统 Node/Python 工具。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>支持两种模式（Headed / Headless）：既可打开可视化浏览器调试，也能在后台静默执行任务。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>轻量高效（93% 减少上下文）：相比 Playwright MCP，Agent Browser 为 AI 提供更紧凑的数据结构，使交互更高效。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>广泛兼容（Compatible with major AI agents）：支持 Codex、Claude Code、Gemini、Cursor、Copilot、opencode 等主流 AI 工具，以及任何能运行 Bash 命令的系统。&lt;/p>
&lt;p>Agent Browser 是一个为「AI 代理（AI Agents）」设计的浏览器自动化命令行工具。&lt;/p>
&lt;p>它的目标是让 AI 能够像人类一样操作网页，而不仅仅是读取网页内容。&lt;/p>
&lt;p>它不是给人用的「浏览器」，而是一种让 AI 在网页环境中执行操作的底层接口。&lt;/p>
&lt;p>可以理解为：“让 ChatGPT 或 Claude 这样的模型有一双能使用浏览器的手。”&lt;/p>
&lt;p>核心能力概览&lt;/p>
&lt;p>Agent Browser 是一个命令行工具（CLI）。&lt;/p>
&lt;p>它通过简洁的命令让 AI 或脚本直接控制浏览器的行为。&lt;/p>
&lt;p>主要功能包括：&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>AI 专用特性&lt;/p>
&lt;ol>
&lt;li>Snapshot + Ref 模式&lt;/li>
&lt;/ol>
&lt;p>Agent Browser 的设计重点在于让 AI 能稳定、可控地操作浏览器。
项目引入了独特的 Snapshot + Ref 机制：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>AI 先执行 snapshot 命令，获取网页的结构化快照（包含所有交互元素）；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>每个元素拥有唯一引用（例如 @e1, @e2）；&lt;/p>
&lt;p>如：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">@e1 = 登录按钮
@e2 = 邮箱输入框
@e3 = 密码输入框
&lt;/code>&lt;/pre>&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>随后，AI 可通过这些引用精确执行操作：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">agent-browser click @e1
agent-browser fill @e2 &amp;#34;user@test.com&amp;#34;
&lt;/code>&lt;/pre>&lt;p>这种方式既避免了传统CSS/XPath选择器的不稳定问题，也更符合AI的“符号化”思维逻辑。
所有结果均可返回为 JSON 格式，方便AI解析和决策，实现“感知—推理—执行”的闭环。&lt;/p>
&lt;p>这种方式具有三个特点：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>确定性强：不会因页面结构变化出错；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>执行快速：无需重新查找DOM；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>AI可理解：输出为JSON，方便模型解析。&lt;/p>
&lt;hr>
&lt;ol start="2">
&lt;li>JSON 输出模式&lt;/li>
&lt;/ol>
&lt;p>所有命令都可以返回结构化数据：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">agent-browser get text @e1 --json
&lt;/code>&lt;/pre>&lt;p>输出：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">{&amp;#34;success&amp;#34;: true, &amp;#34;data&amp;#34;: &amp;#34;Submit&amp;#34;}
&lt;/code>&lt;/pre>&lt;p>AI 可以直接读取和解析结果，形成“观察—决策—执行”的闭环。&lt;/p>
&lt;hr>
&lt;ol start="3">
&lt;li>Claude / GPT 集成能力&lt;/li>
&lt;/ol>
&lt;p>Vercel 提供了 .claude/skills/agent-browser 模板。
这意味着 Claude Code 或 CoWork 可以自动识别并使用 Agent Browser。
开发者无需额外适配，AI 便能执行网页操作。&lt;/p>
&lt;p>开发者可直接在 .claude/skills/ 目录中加载该工具，使 Claude 自动具备网页操作能力。&lt;/p>
&lt;p>同时，其标准化 CLI 接口和 JSON 输出格式，也便于与 OpenAI、LangChain、LlamaIndex 等生态工具集成。&lt;/p>
&lt;p>Vercel Labs 表示，Agent Browser 将成为构建**具备实际执行力的AI工作流（Agent Workflows）**的重要基础设施。&lt;/p>
&lt;p>技术架构&lt;/p>
&lt;p>Agent Browser 采用双层架构，兼顾性能与可移植性：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">┌─────────────────────────────┐
│ Rust CLI 层 │ ← 解析命令，快速响应
└──────────────┬──────────────┘
│
┌──────────────▼──────────────┐
│ Node.js 守护进程（Daemon） │ ← 管理 Playwright 浏览实例
└──────────────┬──────────────┘
│
┌──────────────▼──────────────┐
│ 浏览器引擎（Chromium / WebKit）│ ← 执行网页操作
└─────────────────────────────┘
&lt;/code>&lt;/pre>&lt;p>运行逻辑：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>用户或AI输入命令；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Rust CLI 解析并传递给 Node.js 守护进程；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>守护进程驱动 Playwright 与浏览器交互；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>命令执行结果返回给调用者（人或AI）。&lt;/p>
&lt;p>优势：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Rust 层高性能（接近原生二进制速度）；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Node 层高兼容性（易部署在各种系统）；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>守护进程常驻（减少浏览器重启开销）。&lt;/p>
&lt;p>可以通过以下方式安装：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">npm install -g agent-browser
agent-browser install
&lt;/code>&lt;/pre>&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>也支持嵌入式部署，例如在云端函数中：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">import { BrowserManager } from &amp;#34;agent-browser&amp;#34;;
const browser = new BrowserManager();
await browser.launch({ headless: true });
&lt;/code>&lt;/pre>&lt;p>典型应用场景&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>AI 办公自动化：AI 自动登录企业系统、下载报表、汇总数据；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>网页测试与质量验证：快速替代 Selenium/Playwright 测试脚本；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>信息采集与监控：智能识别网页结构，自动提取与比对内容；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>多Agent协作：多实例并行操作，实现跨系统任务执行；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>安全分析与验证：在隔离环境中模拟用户行为，测试安全风险。&lt;/p>
&lt;p>GitHub：&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/vercel-agent-browser-ai/28558819">Vercel 发布 “Agent Browser”：专为AI 代理开发的浏览器自动化工具&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>一个能让 Claude 打电话给你的 Claude Code插件</title><link>https://goodinfo.net/posts/opensource/%E4%B8%80%E4%B8%AA%E8%83%BD%E8%AE%A9-claude-%E6%89%93%E7%94%B5%E8%AF%9D%E7%BB%99%E4%BD%A0%E7%9A%84-claude-code%E6%8F%92%E4%BB%B6/</link><pubDate>Sat, 10 Jan 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/%E4%B8%80%E4%B8%AA%E8%83%BD%E8%AE%A9-claude-%E6%89%93%E7%94%B5%E8%AF%9D%E7%BB%99%E4%BD%A0%E7%9A%84-claude-code%E6%8F%92%E4%BB%B6/</guid><description>Call Me 是一个为 Claude Code插件 当你让 Claude 全自动任务，你出去潇洒的施工和，如何它遇到问题、或需要你做决定时，它会主动打电话找你帮助。😂 告诉你它遇到的问题、请你做决定、或者汇报结果。 比如： - Claude 跑完代码后给你打电话说： “我测试完了</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>Call Me 是一个为 Claude Code插件&lt;/p>
&lt;p>当你让 Claude 全自动任务，你出去潇洒的施工和，如何它遇到问题、或需要你做决定时，它会主动打电话找你帮助。😂&lt;/p>
&lt;p>告诉你它遇到的问题、请你做决定、或者汇报结果。&lt;/p>
&lt;p>比如：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Claude 跑完代码后给你打电话说：
“我测试完了，你要我继续部署吗？”&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Claude 卡在一个报错时打电话说：
“出错了，你要我重启服务吗？”&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Claude 在你外出时打电话说：
“我写完接口了，还有一个改进建议。”&lt;/p>
&lt;p>就像 AI 成了一个“会打电话的助手”，帮你盯着任务。&lt;/p>
&lt;p>你可以：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>通过手机、手表直接和 Claude 语音对话&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>而且Claude 还可以一边讲电话，一边查资料&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>安装步骤也不复杂：注册电话平台（Telnyx/Twilio）、设置环境变量、装上插件，就能让 Claude 给你打电话了。&lt;/p>
&lt;p>价格也很低：一分钟通话几分钱。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>主要功能&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>✅ 单一功能：让 Claude 能打电话给你，无需复杂设置。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🔄 多轮对话：可以在电话中来回交流。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🌍 多设备兼容：手机、智能手表、甚至座机都能用。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🧩 可组合工具：Claude 可以在通话时同时进行其他任务（如网页搜索）。&lt;/p>
&lt;p>怎么实现的？（原理）&lt;/p>
&lt;p>简单说，就是下面这条链路👇：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">Claude → Call Me 插件 → ngrok（网络通道） → 电话服务商（Telnyx/Twilio） → 你的手机
&lt;/code>&lt;/pre>&lt;p>也就是：
1.&lt;/p>
&lt;p>Claude决定要打电话时，&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>它调用 Call Me 插件，&lt;/p>
&lt;ol start="3">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>插件通过 ngrok 建一个安全通道到外部网络，&lt;/p>
&lt;ol start="4">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>再联系到一个电话服务平台（Telnyx 或 Twilio），&lt;/p>
&lt;ol start="5">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>电话平台拨打你的号码，&lt;/p>
&lt;ol start="6">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>你接电话后，AI 说话的内容通过 OpenAI 的语音功能转成声音，&lt;/p>
&lt;ol start="7">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>你说的话再被转成文字发回 Claude。&lt;/p>
&lt;p>于是你和 AI 就真的能“打电话聊天”了。📞🤖&lt;/p>
&lt;p>怎么用？&lt;/p>
&lt;p>这部分看起来复杂，但其实照着一步步来很简单 👇&lt;/p>
&lt;p>① 你需要准备 3 个账号：&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>② 配置环境变量（告诉插件账号信息）&lt;/p>
&lt;p>就像给插件一份“电话通讯录”和“凭证”。&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">{
&amp;#34;env&amp;#34;: {
&amp;#34;CALLME_PHONE_PROVIDER&amp;#34;: &amp;#34;telnyx&amp;#34;,
&amp;#34;CALLME_PHONE_ACCOUNT_SID&amp;#34;: &amp;#34;你的Telnyx连接ID&amp;#34;,
&amp;#34;CALLME_PHONE_AUTH_TOKEN&amp;#34;: &amp;#34;你的Telnyx API密钥&amp;#34;,
&amp;#34;CALLME_PHONE_NUMBER&amp;#34;: &amp;#34;+15551234567&amp;#34;, // Claude打出的号码
&amp;#34;CALLME_USER_PHONE_NUMBER&amp;#34;: &amp;#34;+15559876543&amp;#34;, // 你的手机号
&amp;#34;CALLME_OPENAI_API_KEY&amp;#34;: &amp;#34;sk-xxx&amp;#34;, // 用于语音功能
&amp;#34;CALLME_NGROK_AUTHTOKEN&amp;#34;: &amp;#34;你的ngrok token&amp;#34;
}
}
&lt;/code>&lt;/pre>&lt;hr>
&lt;p>③ 安装插件命令&lt;/p>
&lt;p>在 Claude Code 里输入命令：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">/plugin marketplace add ZeframLou/call-me
/plugin install callme@callme
&lt;/code>&lt;/pre>&lt;p>然后重启 Claude Code。搞定。&lt;/p>
&lt;p>插件能干的几件事&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>举个实际例子：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">const { callId } = await initiate_call({
message: &amp;#34;我完成注册系统了，要不要加上限流？&amp;#34;
});
await speak_to_user({
call_id: callId,
message: &amp;#34;好的，我查一下接口性能。&amp;#34;
});
await continue_call({
call_id: callId,
message: &amp;#34;我发现系统每分钟可处理500请求，要不要再优化？&amp;#34;
});
await end_call({
call_id: callId,
message: &amp;#34;好的，那我开始干活啦！&amp;#34;
});
&lt;/code>&lt;/pre>&lt;p>是不是就像你和一个远程助理打完一次工单电话？&lt;/p>
&lt;p>打电话要花多少钱？&lt;/p>
&lt;p>其实非常便宜 💵👇&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>➡️ 总成本大概 $0.03~$0.04 一分钟
也就是一块人民币能聊十几分钟。&lt;/p>
&lt;p>GitHub：https://github.com/ZeframLou/call-me&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/claude-claude-code/28477695">一个能让 Claude 打电话给你的 Claude Code插件&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>MiroThinker 1.5：全球最强搜索智能体</title><link>https://goodinfo.net/posts/opensource/mirothinker-15%E5%85%A8%E7%90%83%E6%9C%80%E5%BC%BA%E6%90%9C%E7%B4%A2%E6%99%BA%E8%83%BD%E4%BD%93/</link><pubDate>Thu, 08 Jan 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/mirothinker-15%E5%85%A8%E7%90%83%E6%9C%80%E5%BC%BA%E6%90%9C%E7%B4%A2%E6%99%BA%E8%83%BD%E4%BD%93/</guid><description>MiroThinker 是由 MiroMindAI 团队 开发的开源研究代理（search agent），旨在提升 AI 的“工具增强推理（tool-augmented reasoning）”与“信息检索”能力。 - 模型参数规模： - MiroThinker-v1.5-30B -</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>MiroThinker 是由 MiroMindAI 团队 开发的开源研究代理（search agent），旨在提升 AI 的“工具增强推理（tool-augmented reasoning）”与“信息检索”能力。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>模型参数规模：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>MiroThinker-v1.5-30B&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>MiroThinker-v1.5-235B&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>主要特性：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>支持 256K 上下文窗口。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>支持 400 次工具调用。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>强化 多步推理与长程任务管理。&lt;/p>
&lt;p>传统大模型的路线是 “把世界背进参数里”，依赖统计与记忆。&lt;/p>
&lt;p>而 MiroMind 的理念是：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>“真正的智能不靠全知，而靠研究能力。”&lt;/p>
&lt;p>也就是说，
智能体不应只是“会答题（做题家）”，
而应像“科学家”那样：
1.&lt;/p>
&lt;p>主动查证；&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>识别不确定；&lt;/p>
&lt;ol start="3">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>自我修正；&lt;/p>
&lt;ol start="4">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>通过证据收敛得到可靠结论。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>MiroThinker 不仅仅是一个模型，而是一整套可复现、可扩展的 AI 研究代理框架（Research Agent Framework），能够在复杂的真实世界任务中实现：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>自动化信息搜索；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>支持多步思考与自我纠错；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>具备长时记忆与上下文理解&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>工具调用与执行；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>研究级信息整合与评估。&lt;/p>
&lt;p>你可以把它理解为：&lt;/p>
&lt;p>👉 一个会思考、能查资料、还能动手实验的 ChatGPT。&lt;/p>
&lt;p>它不是单纯的“对话机器人”，而是一个能：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>打开网页、抓取信息；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>能运行代码并分析结果；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>汇总研究结果；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>还会自己检查答案准确性；
的智能“研究助理”。&lt;/p>
&lt;p>MiroThinker v1.5 在广泛的基准测试中展现了强大的通用研究性能，在 HLE-Text、BrowseComp、BrowseComp-ZH 和 GAIA-Val-165 上分别达到 39.2%、69.8%、71.5% 和 80.8%。&lt;/p>
&lt;p>超越了之前的开源代理，创造了新的业界领先 BrowseComp 性能。&lt;/p>
&lt;p>MiroThinker-v1.5-30B 仅用 1/30 的参数规模跑出了比肩众多 1T 模型的性能表现，其 235B 的版本在多个搜索智能体基准测试中跻身全球第一梯队。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>它能干什么？（主要功能）&lt;/p>
&lt;p>MiroThinker 能完成的事情可以分为四大类👇：&lt;/p>
&lt;p>主体智能体（MiroThinker）&lt;/p>
&lt;p>这就是“AI 大脑”。
它能理解问题、规划步骤，然后调用各种工具去解决任务。&lt;/p>
&lt;p>比如：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>你问它：“请总结过去一个月AI领域的新研究趋势。”&lt;/p>
&lt;p>它会：
1.&lt;/p>
&lt;p>自动去 Google 搜索；&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>抓取各个论文网页；&lt;/p>
&lt;ol start="3">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>提取信息；&lt;/p>
&lt;ol start="4">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>分析关键词；&lt;/p>
&lt;ol start="5">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>最后写出一篇总结。&lt;/p>
&lt;p>整个过程 全自动 完成！&lt;/p>
&lt;hr>
&lt;p>工具系统（MiroFlow）&lt;/p>
&lt;p>MiroThinker 的“手脚”。
它提供了各种可以被调用的工具，比如：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🔍 搜索（Serper API）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🧾 网页抓取（Jina）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🧠 LLM摘要（小模型总结内容）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>💻 执行 Python 代码（E2B 沙盒环境）&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>举个例子：
MiroThinker 发现要算某个统计结果，它会自己用 E2B 执行 Python 代码。&lt;/p>
&lt;hr>
&lt;p>核心技术概念&lt;/p>
&lt;p>1️⃣ 工具增强推理（Tool-Augmented Reasoning）&lt;/p>
&lt;p>MiroThinker 通过内置的工具接口系统（Tool API），
使模型能在推理过程中主动调用外部工具（搜索引擎、爬取器、代码执行环境等）以辅助推理。&lt;/p>
&lt;p>支持的典型工具包括：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Serper API：访问 Google 搜索；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Jina API：网页抓取与语义摘要；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>E2B Sandbox：代码执行与结果验证；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>LLM-as-a-Judge：基于 GPT 或 Qwen 的模型评估器。&lt;/p>
&lt;p>这一设计使模型能够执行如：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>“搜索论文 → 抓取内容 → 提取要点 → 执行验证脚本 → 汇总结论”
的完整研究任务流程。&lt;/p>
&lt;p>🧠 优势&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>提升了模型的“信息访问能力（Information Access Capability）”；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>减少幻觉（Hallucination）；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>能处理真实世界任务（如科研报告生成、技术文档分析）。&lt;/p>
&lt;hr>
&lt;p>2️⃣ 交互扩展（Interactive Scaling）&lt;/p>
&lt;p>传统性能扩展依赖于：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>模型规模（parameters）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>上下文长度（context window）&lt;/p>
&lt;p>MiroThinker 提出了第三维：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>交互深度（interaction depth）&lt;/p>
&lt;p>即模型在任务中能主动进行多轮外部环境交互，
例如多次搜索、分析、运行代码、再验证。&lt;/p>
&lt;p>MiroThinker 引入 “交互维度” 作为性能第三维：&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>🧠 核心机制&lt;/p>
&lt;p>通过 memory-managed multi-round reasoning：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>保留最近 5 次对话上下文；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>清理无关历史；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>维持信息完整性与低资源开销。&lt;/p>
&lt;p>这种交互循环让模型具备了“自主探究式学习（self-directed inquiry）”能力。&lt;/p>
&lt;p>在 v1.5 版本中，单任务可支持 多达400次工具交互，
使模型能在复杂任务中形成递归式、层级化的推理链。&lt;/p>
&lt;p>MiroThinker vs DeepResearch 有什么不同&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>🧠 MiroThinker 架构 = 「AI 大脑 + 工具生态 + 环境交互」&lt;/p>
&lt;p>它采用模块化设计：&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>🔧 支持外部 API 工具（如 Serper、Jina、E2B），能：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>搜索网页；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>抓取文本；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>执行 Python 代码；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>评估结果。&lt;/p>
&lt;p>➡️ 你可以理解为：
它是一个完整的 AI 研究操作系统，不只是一个模型。&lt;/p>
&lt;p>🔍 DeepResearch 架构 = 「网页爬虫 + 推理引擎 + 内容压缩器」&lt;/p>
&lt;p>DeepResearch（尤其是 DeepResearcher、DeepSearchQA 等）更多是：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>聚焦于信息检索 + 内容理解；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>强调“深度网页搜索”和“内容压缩总结”。&lt;/p>
&lt;p>结构更轻量，通常包括：
1.&lt;/p>
&lt;p>搜索模块（基于 Google / Bing API）&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>抓取模块（BeautifulSoup / Jina）&lt;/p>
&lt;ol start="3">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>LLM 总结模块（通常是 GPT-4/5）&lt;/p>
&lt;ol start="4">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>结果聚合模块（评分 + 排序）&lt;/p>
&lt;p>➡️ 它更像一个智能搜索引擎 + 总结机器人。&lt;/p>
&lt;p>举例说明：两者在同一任务下的行为差异&lt;/p>
&lt;p>任务：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>“请总结过去一个月人工智能安全领域的主要研究成果。”&lt;/p>
&lt;hr>
&lt;p>🔍 DeepResearch 的做法：
1.&lt;/p>
&lt;p>搜索 “AI safety research December 2025 site:arxiv.org”&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>抓取前5页；&lt;/p>
&lt;ol start="3">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>提取摘要；&lt;/p>
&lt;ol start="4">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>拼接总结（无代码执行，无引用验证）。&lt;/p>
&lt;p>输出结果：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>“近期AI安全领域关注模型可解释性与鲁棒性，多篇论文聚焦于&amp;hellip;（简略）”&lt;/p>
&lt;p>优点：快。
缺点：浅，缺乏验证或多源交叉。&lt;/p>
&lt;hr>
&lt;p>🧠 MiroThinker 的做法：
1.&lt;/p>
&lt;p>搜索 arXiv 最新论文；&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>抓取 + 提取多篇；&lt;/p>
&lt;ol start="3">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>运行文本聚类分析；&lt;/p>
&lt;ol start="4">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>对比引用来源；&lt;/p>
&lt;ol start="5">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>生成结构化总结（附论文编号）。&lt;/p>
&lt;p>输出结果：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>“在2025年12月，AI安全研究主要集中在三大方向：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>对抗鲁棒性（6篇）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>AI伦理检测与防护（4篇）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>LLM溯源与安全验证（3篇）
主要代表作包括 arXiv:2512.1034、arXiv:2512.2155 等。”&lt;/p>
&lt;p>优点：全面、有分析、有出处。
缺点：执行时间更长。&lt;/p>
&lt;p>想了解更多？&lt;/p>
&lt;p>官方网站：🌐 &lt;a href="https://miromind.ai">https://miromind.ai&lt;/a>
GitHub 项目页：📦 &lt;a href="https://github.com/MiroMindAI/MiroThinker">https://github.com/MiroMindAI/MiroThinker&lt;/a>
论文引用：&lt;/p>
&lt;p>在线体验：https://dr.miromind.ai/&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/mirothinker-1-5/28399936">MiroThinker 1.5：全球最强搜索智能体&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>Spatial Lingo：一款沉浸式语言学习VR+AI应用</title><link>https://goodinfo.net/posts/opensource/spatial-lingo%E4%B8%80%E6%AC%BE%E6%B2%89%E6%B5%B8%E5%BC%8F%E8%AF%AD%E8%A8%80%E5%AD%A6%E4%B9%A0vrai%E5%BA%94%E7%94%A8/</link><pubDate>Wed, 07 Jan 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/spatial-lingo%E4%B8%80%E6%AC%BE%E6%B2%89%E6%B5%B8%E5%BC%8F%E8%AF%AD%E8%A8%80%E5%AD%A6%E4%B9%A0vrai%E5%BA%94%E7%94%A8/</guid><description>Meta发布了一个令人惊喜的开源项目：Unity-SpatialLingo。 用于在 Meta Quest（AR/VR头显） 上开发混合现实（MR）语言学习体验。 通过 现实世界物体识别 + 自然语言 AI 交互 的方式，用户能够在真实的物理空间中，与AI一起练习语言。 也就是不用担心没</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>Meta发布了一个令人惊喜的开源项目：Unity-SpatialLingo。&lt;/p>
&lt;p>用于在 Meta Quest（AR/VR头显） 上开发混合现实（MR）语言学习体验。&lt;/p>
&lt;p>通过 现实世界物体识别 + 自然语言 AI 交互 的方式，用户能够在真实的物理空间中，与AI一起练习语言。&lt;/p>
&lt;p>也就是不用担心没有语言环境了。&lt;/p>
&lt;p>无论你身处卧室、办公室还是客厅，Spatial Lingo 都能识别你周围的物品（如椅子、桌子、电脑），并在虚拟空间中为它们贴上对应语言的单词。&lt;/p>
&lt;p>你可以听AI发音、跟读练习、得到即时评分，还能与虚拟语言导师互动。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>它能识别你房间里的物体，比如看到“桌子”就会说：“这在法语里叫 la table。”&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>你可以跟它对话，它会听你的发音并打分，能学习不同语言。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>有个可爱的虚拟角色 “Golly Gosh” 带着你边看实物边学语言。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>还能用手势或控制器操作，完全沉浸式学习。&lt;/p>
&lt;p>你不再对着屏幕背单词，而是——当你看到桌子、书本或咖啡杯时，AI会告诉你它们在不同语言中的名称，并和你进行语音互动。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>这不是游戏，而是一种“空间语言学习体验”。&lt;/p>
&lt;p>学习方式：AI + 现实空间 = “沉浸式语言练习”&lt;/p>
&lt;p>🏡 “用真实环境学语言”&lt;/p>
&lt;p>Spatial Lingo 让语言学习不再停留在书本或屏幕上。
当你环顾四周，系统会识别出房间中的物体并显示对应外语名称。
例如：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>当看到“书”时，系统显示 book；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>当识别到“灯”时，会提示 lamp，并播放标准发音。&lt;/p>
&lt;p>这种视觉与空间记忆结合的学习方式，帮助你用真实场景强化记忆。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>主要功能&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>玩法与体验方式&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🎮 单人体验（Single User）
玩家独自与虚拟角色互动，通过“语言任务”学习新词。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🏠 Roomscale 模式
需要你在有一定空间的现实环境中移动，让系统识别不同的物体。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>✋ 支持多种输入方式&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>手势识别（Hand Tracking）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>语音交互（Voice）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>控制器操作（Touch Controllers）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>💬 实时反馈机制
说错发音时，AI 会实时指出问题，并播放标准发音。&lt;/p>
&lt;p>核心技术&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>GitHub：https://github.com/oculus-samples/Unity-SpatialLingo&lt;/p>
&lt;p>有设备的可以体验：https://www.meta.com/en-gb/experiences/spatial-lingo-language-practice/24846121391731831/&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/spatial-lingo-vr-ai/28370406">Spatial Lingo：一款沉浸式语言学习VR+AI应用&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>开源版Veo 3：LTX-2 宣布开源 支持音视频同步输出</title><link>https://goodinfo.net/posts/opensource/%E5%BC%80%E6%BA%90%E7%89%88veo-3ltx-2-%E5%AE%A3%E5%B8%83%E5%BC%80%E6%BA%90-%E6%94%AF%E6%8C%81%E9%9F%B3%E8%A7%86%E9%A2%91%E5%90%8C%E6%AD%A5%E8%BE%93%E5%87%BA/</link><pubDate>Wed, 07 Jan 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/%E5%BC%80%E6%BA%90%E7%89%88veo-3ltx-2-%E5%AE%A3%E5%B8%83%E5%BC%80%E6%BA%90-%E6%94%AF%E6%8C%81%E9%9F%B3%E8%A7%86%E9%A2%91%E5%90%8C%E6%AD%A5%E8%BE%93%E5%87%BA/</guid><description>LTX-2 是由 Lightricks 开发的 DiT（Diffusion Transformer）架构的音视频基础模型，支持灵活的生成控制、快速推理、以及音视频同步输出。 它是目前首个公开发布的、在单一模型中整合 视觉、听觉、语言理解 的音视频生成系统。 该模型在质量、速度与同步精度上均达</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>LTX-2 是由 Lightricks 开发的 DiT（Diffusion Transformer）架构的音视频基础模型，支持灵活的生成控制、快速推理、以及音视频同步输出。&lt;/p>
&lt;p>它是目前首个公开发布的、在单一模型中整合 视觉、听觉、语言理解 的音视频生成系统。&lt;/p>
&lt;p>该模型在质量、速度与同步精度上均达到开源领域的领先水平。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>LTX-2 是首个真正开源的音视频生成模型，发布了完整的模型权重和训练代码。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>原生支持 4K / 50 FPS 输出，支持最长 20 秒高保真视频生成。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>音视频同步：同时生成动作、对白、环境音与音乐，保持时间一致性。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>模型可在消费级 RTX 显卡上本地运行。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>开源内容包括：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>完整模型权重及精简版本&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>可控的 LoRA 模块（用于摄像头、结构、条件控制）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>多模态训练器&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>基准测试、评估脚本及文档&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>模型支持音视频同步生成、多关键帧、细粒度控制，所有功能原生集成。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>提供完整工作流支持，包括摄像头控制与 IC LoRA 条件输入。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>提供 LTX API，支持开发者在生产环境中直接调用模型，快速集成视频生成能力。&lt;/p>
&lt;p>之前有介绍：&lt;/p>
&lt;p>该模型具备以下特性：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>音视频同步生成&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>高保真视频质量&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>多种性能模式&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>可生产级输出&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>模型版本及特点&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>1、开源内容清单&lt;/p>
&lt;p>这一开源版本不仅仅是模型权重，而是提供了构建与再训练完整系统所需的所有组件，包括：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>完整模型权重&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>精简（蒸馏）版本：用于更轻量级部署。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Controllable LoRAs（低秩适配器）：控制以下方面：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Camera（摄像头视角/运动）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Structure（结构布局）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Conditioning（输入条件/上下文）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>多模态训练器（multimodal trainer）：支持训练和微调。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>基准测试工具、评估脚本与详细文档。&lt;/p>
&lt;p>这套发布堪称“完整栈”（full stack）开源。&lt;/p>
&lt;p>2、原生音视频同步与控制功能&lt;/p>
&lt;p>LTX-2 将音频和视频生成功能内建于一个单一模型中，支持：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>原生的 音视频同步生成&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>多关键帧支持，适合生成动态视频而非单一场景&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>细粒度控制，例如控制视角、结构、语音内容等，全部在模型内部支持，而非依赖后处理或外挂脚本&lt;/p>
&lt;p>该模型完全可检视（inspectable）和可复现（reproducible），保证研究性和透明度。&lt;/p>
&lt;p>3、工作流优先设计&lt;/p>
&lt;p>与以研究为导向的模型不同，LTX-2 强调工作流适配性：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>摄像头控制和 IC LoRA 被设计为模型的一级输入项（first-class conditioning inputs）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>支持开发者基于这些控制项进行微调（fine-tune）和扩展（extend）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>适用于 生产级工作流程，如影视、游戏、虚拟人等场景&lt;/p>
&lt;p>4、本地部署与性能优化&lt;/p>
&lt;p>LTX-2 专门为本地运行优化：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在 RTX 消费级 PC 上实现“高保真度 + 实用速度”&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>提供 量化模型检查点（quantized checkpoints），可有效降低内存消耗同时保持输出质量&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>所有这些功能完全在本地运行，无需连接云服务&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>主要技术特点&lt;/p>
&lt;p>1️⃣ 统一的音视频生成架构&lt;/p>
&lt;p>LTX-2 采用 双流 Transformer 结构（Dual-Stream Diffusion Transformer）：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>视频流（14B 参数）负责画面生成；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>音频流（5B 参数）负责声音生成；
两者通过 双向跨模态注意力（Cross-Modal Attention） 实时交换信息，
确保声音与画面在时间上精确同步（如嘴型、动作、环境变化等）。&lt;/p>
&lt;p>这种设计避免了传统“先视频后加音”方式的延迟和错位问题。&lt;/p>
&lt;hr>
&lt;p>2️⃣ 非对称架构与高效推理&lt;/p>
&lt;p>音频和视频在信息密度上差异很大。
LTX-2 通过“非对称架构”为视频分配更多计算资源、为音频流减轻负担，
从而在保证质量的同时显著提升推理速度。&lt;/p>
&lt;p>在相同硬件条件下：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>LTX-2 的生成速度约为 Wan-2.2 模型的 18 倍；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>能生成 最长 20 秒、1080p 分辨率 的同步音视频。&lt;/p>
&lt;hr>
&lt;p>3️⃣ 多层文本理解与“思考Token”机制&lt;/p>
&lt;p>模型使用 Gemma-3 大型语言模型 作为文本理解模块，
并提取其所有层的语义特征，而非只使用最终层输出。
此外引入“Thinking Tokens（思考Token）”，
帮助模型在正式生成前建立更完整的语义与情境理解。&lt;/p>
&lt;p>这一机制显著提升了：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>语音内容与嘴型的匹配度；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>语音语调、情感、节奏的自然性；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>对复杂、多句 Prompt 的理解能力。&lt;/p>
&lt;hr>
&lt;p>4️⃣ 高保真的音频生成系统&lt;/p>
&lt;p>音频部分采用 Causal Audio VAE + 改进版 HiFi-GAN Vocoder。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>将原始音频压缩为 128 维潜空间表示，保证高效训练与推理；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>最终输出 24 kHz 双声道立体声，保真度高、空间感强。&lt;/p>
&lt;hr>
&lt;p>5️⃣ 模态感知引导（Modality-Aware CFG）&lt;/p>
&lt;p>在推理阶段引入新的 双向指导机制，
可以分别调节：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>文本对生成的影响强度（st）；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>音视频之间的同步强度（sm）。&lt;/p>
&lt;p>这使生成过程更加稳定且可控。&lt;/p>
&lt;hr>
&lt;p>6️⃣ 多尺度、多块推理（Multi-Scale &amp;amp; Multi-Tile）&lt;/p>
&lt;p>模型先生成低分辨率基础视频，再通过潜空间上采样与局部细化，
实现高分辨率（最高 1080p）输出，显著节省显存占用。&lt;/p>
&lt;hr>
&lt;p>7️⃣ 训练与数据系统&lt;/p>
&lt;p>LTX-2 在 LTX-Video 数据集的子集上训练，
并使用 Lightricks 自研的音视频联合字幕系统进行数据标注，
确保每个样本同时包含：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>精确的画面描述；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>环境声、对白内容；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>说话者身份、语言与口音等元信息。&lt;/p>
&lt;p>这种高质量三模态数据是其同步效果突出的关键。&lt;/p>
&lt;hr>
&lt;p>Prompt（提示词）建议&lt;/p>
&lt;p>LTX-2 的视频生成效果极大依赖于 prompt 的写法。
Lightricks 官方建议按“导演分镜”思路写：&lt;/p>
&lt;p>✅ 写得好的 Prompt 示例：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>A cinematic shot of a woman standing on a rainy street, neon reflections on wet asphalt, the camera slowly zooms in.&lt;/p>
&lt;p>❌ 写得差的 Prompt 示例：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>A woman in rain.&lt;/p>
&lt;p>📘 关键技巧：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>详细描述镜头动作（zoom, pan, tilt）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>指出时间、光线、环境&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>保持时序清晰，一段文字讲完一个场景&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>控制字数在 200词以内&lt;/p>
&lt;p>在线体验&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>LTX-Studio Text-to-Video&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>LTX-Studio Image-to-Video&lt;/p>
&lt;p>直接在浏览器中输入文字或上传图片，即可生成视频。&lt;/p>
&lt;p>LTX-2 已内置于 ComfyUI，可以在图形界面里用拖拽节点方式生成视频。&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>安装方法：在 ComfyUI Manager 搜索 “LTXVideo” 即可。&lt;/p>
&lt;p>GitHub：https://github.com/Lightricks/LTX-2&lt;/p>
&lt;p>模型下载：https://huggingface.co/Lightricks/LTX-2&lt;/p>
&lt;p>模型介绍：https://ltx.io/model&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/veo-3-ltx-2/28356521">开源版Veo 3：LTX-2 宣布开源 支持音视频同步输出&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>波士顿动力推出新款 Atlas 机器人 能自主执行任务 快速学习新任务 可快速部署到企业生产中</title><link>https://goodinfo.net/posts/opensource/%E6%B3%A2%E5%A3%AB%E9%A1%BF%E5%8A%A8%E5%8A%9B%E6%8E%A8%E5%87%BA%E6%96%B0%E6%AC%BE-atlas-%E6%9C%BA%E5%99%A8%E4%BA%BA-%E8%83%BD%E8%87%AA%E4%B8%BB%E6%89%A7%E8%A1%8C%E4%BB%BB%E5%8A%A1-%E5%BF%AB%E9%80%9F%E5%AD%A6%E4%B9%A0%E6%96%B0%E4%BB%BB%E5%8A%A1-%E5%8F%AF%E5%BF%AB%E9%80%9F%E9%83%A8%E7%BD%B2%E5%88%B0%E4%BC%81%E4%B8%9A%E7%94%9F%E4%BA%A7%E4%B8%AD/</link><pubDate>Tue, 06 Jan 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/%E6%B3%A2%E5%A3%AB%E9%A1%BF%E5%8A%A8%E5%8A%9B%E6%8E%A8%E5%87%BA%E6%96%B0%E6%AC%BE-atlas-%E6%9C%BA%E5%99%A8%E4%BA%BA-%E8%83%BD%E8%87%AA%E4%B8%BB%E6%89%A7%E8%A1%8C%E4%BB%BB%E5%8A%A1-%E5%BF%AB%E9%80%9F%E5%AD%A6%E4%B9%A0%E6%96%B0%E4%BB%BB%E5%8A%A1-%E5%8F%AF%E5%BF%AB%E9%80%9F%E9%83%A8%E7%BD%B2%E5%88%B0%E4%BC%81%E4%B8%9A%E7%94%9F%E4%BA%A7%E4%B8%AD/</guid><description>Boston Dynamics 在2026年CES展会上正式发布了其 Atlas类人机器人 的产品版本，并宣布将立即开始生产。新的Atlas机器人将在 现代汽车集团的机器人超工厂应用中心（RMAC）和 Google DeepMind 部署，预计2027年将扩展到更多客户。 这是他们开发的企业级类</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>Boston Dynamics 在2026年CES展会上正式发布了其 Atlas类人机器人 的产品版本，并宣布将立即开始生产。新的Atlas机器人将在 现代汽车集团的机器人超工厂应用中心（RMAC）和 Google DeepMind 部署，预计2027年将扩展到更多客户。&lt;/p>
&lt;p>这是他们开发的企业级类人机器人，旨在为未来的工业和制造业提供更加灵活和智能的自动化解决方案。&lt;/p>
&lt;p>新版Atlas 机器人拥有：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>强大的力量与动作范围；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>精确的操作能力；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>高度的智能适应性。&lt;/p>
&lt;p>这些特点使得 Atlas 成为企业自动化的新选择，推动了下一代工业革命。&lt;/p>
&lt;hr>
&lt;p>核心功能与特点&lt;/p>
&lt;ol>
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>高适应性与灵活性&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>无须重建基础设施：Atlas 能够直接在现有工作环境中投入使用，无需额外的设备或基础设施改造。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>可替代人类执行重复性或高风险体力劳动；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>与人类和其他机器人共享空间：能够与人和其他机器协作，最大化生产效率。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>适用于标准温度范围（-20°C 至 40°C），高机械耐受性和环境适应性。&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>增强安全性&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>内置安全系统，能够自动识别附近的人或车辆，避免与人发生碰撞。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>“无围栏安全区”模式（fenceless guarding）：有人靠近时自动暂停；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>具有 软质外壳 和 防夹设计，确保工作场所的安全性。&lt;/p>
&lt;ol start="3">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>持久作业能力&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Atlas 的电池续航为 4小时，并且能 自动更换电池，实现24小时不间断工作。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>可在**标准电压（110V/220V）**条件下工作，无需复杂的电力基础设施改造。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>控制与操作&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>自主工作：Atlas 可以完全自主地执行任务，不需要人为干预。Atlas能够自主执行任务，快速学习新任务，并能在电池电量低时自动导航到充电站，更换电池后继续工作。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>远程控制：可以通过VR 头盔或平板控制器进行远程操作，并且可以实时监控机器人的工作状况。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>与其他企业系统集成：通过 Orbit™ 平台，Atlas 能与现有的企业系统（如制造执行系统 MES、仓库管理系统 WMS）无缝对接。&lt;/p>
&lt;p>Orbit 平台的功能包括：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>机器人队列管理；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>性能监控与数据分析；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>与企业系统集成（MES、WMS、RFID、条码系统等）；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>支持云端、本地或虚拟化部署；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>通过 SOC2 Type II 安全认证，支持 SSO 与多级权限管理。&lt;/p>
&lt;p>硬件与设计&lt;/p>
&lt;p>Atlas是一款全电动类人机器人，专为企业级应用设计，能够执行广泛的工业任务，如物料搬运、订单履行和搬运重物（最高可达 50 kg (110 lbs)）。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>灵活性：Atlas拥有 56个自由度，具有完全可旋转的关节，最大工作范围可达 2.3米（7.5英尺），能够在不同环境和工作条件下灵活操作，且可在 -20°C 到 40°C 的温度&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>耐用设计：Atlas 的硬件具有 IP67防水防尘等级，能在各种恶劣环境下工作，且易于清洁。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>快速维修与维护：所有部件可以在现场 5分钟内 更换，便于维护和修理。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;hr>
&lt;p>企业级应用&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>立即产生回报：Atlas 旨在帮助企业从第一天起就实现 投资回报（ROI），大多数客户会在两年内看到明显效益。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>扩展与升级：随着时间的推移，Atlas 的功能可以随着需求的变化进行扩展和升级。&lt;/p>
&lt;p>Atlas 的软件系统基于最新AI算法，可在一天内完成应用定制。
支持多种工业任务：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>物料搬运；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>机器上料（machine tending）；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>拣选与分拣；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>零件排序（part sequencing）；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>订单履行（order fulfillment）。&lt;/p>
&lt;p>学习过的任务可快速扩展至整个 Atlas 机器人队列。&lt;/p>
&lt;hr>
&lt;p>智能与AI：Boston Dynamics × Google DeepMind&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>快速学习与适应：Atlas 利用先进的AI技术能够快速学习新任务，并能在 一天之内 定制和配置到特定工作场景中。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>与 DeepMind 合作：DeepMind 的 AI 技术使 Atlas 更加智能，能在复杂环境中理解任务和做出判断，提高效率。&lt;/p>
&lt;p>在 2026 CES（国际消费电子展） 上，全球最厉害的两家科技公司宣布强强联手：&lt;/p>
&lt;p>一起开发一种全新的智能系统，把 DeepMind 的超级AI“大脑”Gemini Robotics，装进 Boston Dynamics 的“类人身体”里。&lt;/p>
&lt;p>简单说就是：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>🧠 DeepMind 负责大脑（AI）
🤖 Boston Dynamics 负责身体（机器人）
两者合体，造出真正“懂人话、能干活”的机器人！&lt;/p>
&lt;p>双方的目标是：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>建立具备自主学习、视觉理解、语言推理与任务执行能力的通用型类人机器人平台。&lt;/p>
&lt;p>此合作将结合：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Boston Dynamics 的新一代 Atlas® 类人机器人平台；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>DeepMind 的 Gemini Robotics AI 模型（源自多模态 Gemini 基础模型）。&lt;/p>
&lt;p>这标志着机器人从“机械化执行”向“认知化操作”转变的关键阶段。&lt;/p>
&lt;p>Gemini Robotics 模型&lt;/p>
&lt;p>Gemini Robotics 是 DeepMind 近期发布的机器人专用AI基础模型。
它建立在多模态 Gemini 架构上，融合了视觉、语言、动作与推理能力。&lt;/p>
&lt;p>主要特性包括：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>环境感知：通过视觉与传感数据理解物理空间；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>语义推理：将自然语言指令转化为可执行动作计划；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>工具使用能力：具备操作与组合使用工具的能力；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>自适应学习：通过经验不断优化任务策略。&lt;/p>
&lt;p>新一代 Atlas®&lt;/p>
&lt;p>Boston Dynamics 的 Atlas 机器人以类人外形和高动态运动能力著称。
新版 Atlas 在机械灵活性、平衡控制与手部精度上均有重大改进。
通过集成 DeepMind 模型，该平台可实现：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>自主任务规划；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>动态环境中的自我调整；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>无需人类逐步编程即可完成新任务。&lt;/p>
&lt;p>合作将重点开发：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>视觉-语言-动作（VLA）模型：将多模态输入（图像、语言、动作反馈）统一到决策层；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>泛化学习体系：使机器人能在不同工业任务间迁移知识；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>安全与可扩展性机制：确保机器人在开放环境中安全执行任务。&lt;/p>
&lt;p>Alberto Rodriguez（Boston Dynamics Atlas 项目负责人）：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>“我们正在构建全球最先进的类人机器人。DeepMind 是唯一能够帮助我们开发可靠、可扩展视觉-语言-动作模型的合作伙伴。”&lt;/p>
&lt;p>Carolina Parada（DeepMind 机器人部门高级总监）：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>“Gemini Robotics 模型的目标是让AI进入物理世界。与 Boston Dynamics 的合作，将加速我们实现这一愿景，并确保大规模机器人部署的安全与效率。”&lt;/p>
&lt;p>产业化与应用场景&lt;/p>
&lt;ol>
&lt;li>初步落地领域：制造业&lt;/li>
&lt;/ol>
&lt;p>合作的首个应用重点是 工业自动化，特别是汽车制造业。
目标是让机器人能在复杂生产线中执行多样化任务，如：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>装配与检测；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>零件搬运；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>工具操作；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>故障识别与恢复。&lt;/p>
&lt;ol start="2">
&lt;li>中长期应用方向&lt;/li>
&lt;/ol>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>仓储与物流自动化：在动态环境中自主搬运、分拣；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>精密制造与电子装配：实现高精度操作；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>服务型机器人：辅助医疗、维护、建筑等领域；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>危险环境作业：如灾害救援、核设施维护等。&lt;/p>
&lt;hr>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/atlas-2fb49c/28313170">波士顿动力推出新款 Atlas 机器人 能自主执行任务 快速学习新任务 可快速部署到企业生产中&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>Claude-scientific-skills：一套 Claude 的科学技能库 138个即插即用的科学技能 覆盖20+领域</title><link>https://goodinfo.net/posts/opensource/claude-scientific-skills%E4%B8%80%E5%A5%97-claude-%E7%9A%84%E7%A7%91%E5%AD%A6%E6%8A%80%E8%83%BD%E5%BA%93-138%E4%B8%AA%E5%8D%B3%E6%8F%92%E5%8D%B3%E7%94%A8%E7%9A%84%E7%A7%91%E5%AD%A6%E6%8A%80%E8%83%BD-%E8%A6%86%E7%9B%9620%E9%A2%86%E5%9F%9F/</link><pubDate>Mon, 05 Jan 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/claude-scientific-skills%E4%B8%80%E5%A5%97-claude-%E7%9A%84%E7%A7%91%E5%AD%A6%E6%8A%80%E8%83%BD%E5%BA%93-138%E4%B8%AA%E5%8D%B3%E6%8F%92%E5%8D%B3%E7%94%A8%E7%9A%84%E7%A7%91%E5%AD%A6%E6%8A%80%E8%83%BD-%E8%A6%86%E7%9B%9620%E9%A2%86%E5%9F%9F/</guid><description>Claude Scientific Skills 是由 K-Dense Inc. 团队开发的开源项目，旨在为 Anthropic 的 Claude 模型提供系统化的 科学计算与研究能力扩展插件集。 该项目包含 138 个预构建科学技能（Scientific Skills），覆盖从 生命科学、化学</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>Claude Scientific Skills 是由 K-Dense Inc. 团队开发的开源项目，旨在为 Anthropic 的 Claude 模型提供系统化的 科学计算与研究能力扩展插件集。&lt;/p>
&lt;p>该项目包含 138 个预构建科学技能（Scientific Skills），覆盖从 生命科学、化学、医学、材料科学、物理学、工程学到机器学习 的主要科研领域。&lt;/p>
&lt;p>项目通过 MCP（Model Context Protocol） 框架使 Claude 能够直接调用高水平科研工具和数据库，实现从数据检索到建模分析、从多组学集成到报告生成的全流程科研任务自动化。&lt;/p>
&lt;p>Claude Scientific Skills 的核心目标是：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>将 Claude 从通用语言模型扩展为具备专业科研能力的 AI 研究助理（AI Co-Scientist）。&lt;/p>
&lt;p>它通过标准化接口封装科研工具，使 Claude 能够：
1.&lt;/p>
&lt;p>调用专业数据库与科学计算库；&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>执行复杂多步科研分析流程；&lt;/p>
&lt;ol start="3">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>生成可重复、可审查的科学结果；&lt;/p>
&lt;ol start="4">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>进行科学写作、文献综述与可视化。&lt;/p>
&lt;p>该体系的核心优势在于 跨领域融合 —— 用户无需自行集成不同的科学库与API，Claude可在单一环境中完成从数据采集 → 分析建模 → 结果可视化 → 科学写作的全流程任务。&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>一句话就是：一个能让 Claude变成“AI 科学家”的工具箱。它为 Claude 加上了 138 个科学技能，能自动完成科研分析、建模、图表制作，甚至撰写论文。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>主要功能与模块&lt;/p>
&lt;p>Claude Scientific Skills 包含 138 项科学技能，分布在多个科研领域中：&lt;/p>
&lt;p>1️⃣ 生物与医学类&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>生物信息学与基因组学：序列分析、单细胞RNA-seq、变异注释、系统生物学等。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>化学与药物发现：分子性质预测、虚拟筛选、分子对接、药物优化（RDKit、DiffDock、DeepChem）。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>蛋白质组学与质谱学：LC-MS/MS 分析、蛋白鉴定与定量。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>临床研究与精准医疗：药物安全性分析、临床试验检索、变异解释、药物基因组学。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>医学影像与病理学：DICOM 图像分析、数字病理切片识别。&lt;/p>
&lt;p>2️⃣ AI与计算科学类&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>机器学习与AI：深度学习、强化学习、时序分析、贝叶斯推断、模型可解释性。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>多组学整合与系统生物学：多模态整合、通路富集、网络生物学。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>材料科学与物理：晶体结构分析、量子计算（Qiskit、PennyLane）。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>工程与仿真：系统建模、优化仿真、流体动力学。&lt;/p>
&lt;p>3️⃣ 数据与科研支持类&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>数据分析与可视化：统计分析、网络可视化、出版级图表绘制（Matplotlib、Seaborn）。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>实验室自动化：实验协议自动化、LIMS系统集成、Opentrons控制。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>科学传播与写作：文献综述、同行评审、论文写作、幻灯片与海报生成。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>研究方法学：假设生成、科研思维、基金申请、学者评估。&lt;/p>
&lt;p>典型科研工作流实例&lt;/p>
&lt;ol>
&lt;li>药物筛选与分子优化&lt;/li>
&lt;/ol>
&lt;blockquote>
&lt;/blockquote>
&lt;p>任务：筛选潜在的 EGFR 抑制剂用于肺癌治疗。&lt;/p>
&lt;p>自动化流程：
1.&lt;/p>
&lt;p>查询 ChEMBL 获取已知 EGFR 抑制剂（IC50 &amp;lt; 50nM）；&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>使用 RDKit 分析分子结构与SAR关系；&lt;/p>
&lt;ol start="3">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>借助 Datamol 生成衍生物并评估ADMET性质；&lt;/p>
&lt;ol start="4">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>利用 DiffDock 进行虚拟对接；&lt;/p>
&lt;ol start="5">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>查询 COSMIC 获取突变背景；&lt;/p>
&lt;ol start="6">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>使用 PubMed 搜索耐药机制文献；&lt;/p>
&lt;ol start="7">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>生成整合报告。&lt;/p>
&lt;p>涉及技能： RDKit, DiffDock, DeepChem, PubMed, COSMIC, ReportLab&lt;/p>
&lt;hr>
&lt;ol start="2">
&lt;li>单细胞RNA-seq分析&lt;/li>
&lt;/ol>
&lt;blockquote>
&lt;/blockquote>
&lt;p>任务：分析10X Genomics单细胞数据集，识别细胞类型并进行通路富集。&lt;/p>
&lt;p>执行步骤：
1.&lt;/p>
&lt;p>读取10X数据 → Scanpy进行质量控制；&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>移除双细胞并整合Cellxgene数据库；&lt;/p>
&lt;ol start="3">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>基于 NCBI Gene 标记识别细胞类型；&lt;/p>
&lt;ol start="4">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>使用 PyDESeq2 进行差异表达分析；&lt;/p>
&lt;ol start="5">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>通过 Reactome/KEGG 进行通路富集；&lt;/p>
&lt;ol start="6">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>自动生成报告与可视化图表。&lt;/p>
&lt;p>涉及技能： Scanpy, Arboreto, KEGG, Reactome, PyDESeq2&lt;/p>
&lt;hr>
&lt;ol start="3">
&lt;li>临床变异解释&lt;/li>
&lt;/ol>
&lt;blockquote>
&lt;/blockquote>
&lt;p>任务：解读VCF文件以评估遗传性肿瘤风险。&lt;/p>
&lt;p>执行步骤：
1.&lt;/p>
&lt;p>使用 pysam 解析VCF文件；&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>查询 Ensembl VEP 注释变异；&lt;/p>
&lt;ol start="3">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>联合 ClinVar / COSMIC 获取致病性信息；&lt;/p>
&lt;ol start="4">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>查询 ClinPGx 提取药物基因组学关联；&lt;/p>
&lt;ol start="5">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>使用 ReportLab 自动生成临床报告。&lt;/p>
&lt;p>涉及技能： pysam, Ensembl, ClinVar, COSMIC, ClinPGx, ReportLab&lt;/p>
&lt;p>安装与配置流程（技术说明）&lt;/p>
&lt;p>环境要求&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Python ≥ 3.9（推荐3.12）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>系统：macOS / Linux / Windows (WSL2)&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>依赖管理工具：uv&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>客户端：Claude Code / Cursor / 任意MCP兼容客户端&lt;/p>
&lt;p>安装示例&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None"># 1. 安装 Claude Code
curl -fsSL https://claude.ai/install.sh | bash
# 2. 注册科学技能插件
/plugin marketplace add K-Dense-AI/claude-scientific-skills
# 3. 安装技能集
Open Claude Code → Plugins → Install “scientific-skills”
&lt;/code>&lt;/pre>&lt;p>Claude 将自动检测科研任务并加载对应技能。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🌐 GitHub地址：https://github.com/K-Dense-AI/claude-scientific-skills&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>📄 许可证：MIT（允许商业使用）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>⭐ Star 数：4.2k+&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🧑‍💻 作者：K-Dense Inc.&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🧩 兼容平台：Claude Code、Cursor IDE、任意 MCP 客户端（包括 ChatGPT、OpenAI Agent SDK 等）&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/claude-scientific-skills-claude-138-20/28278512">Claude-scientific-skills：一套 Claude 的科学技能库 138个即插即用的科学技能 覆盖20+领域&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>Antigravity-Manager ：为 Antigravity 提供一键无缝账号切换功能</title><link>https://goodinfo.net/posts/opensource/antigravity-manager-%E4%B8%BA-antigravity-%E6%8F%90%E4%BE%9B%E4%B8%80%E9%94%AE%E6%97%A0%E7%BC%9D%E8%B4%A6%E5%8F%B7%E5%88%87%E6%8D%A2%E5%8A%9F%E8%83%BD/</link><pubDate>Sat, 03 Jan 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/antigravity-manager-%E4%B8%BA-antigravity-%E6%8F%90%E4%BE%9B%E4%B8%80%E9%94%AE%E6%97%A0%E7%BC%9D%E8%B4%A6%E5%8F%B7%E5%88%87%E6%8D%A2%E5%8A%9F%E8%83%BD/</guid><description>Antigravity-Manager 是一个集 AI 账号管理、协议中转、智能调度于一体的“本地 AI 控制中心”。 它能帮你： ✅ 一键切换多个 AI 账号 ✅ 稳定调用 Claude / GPT / Gemini ✅ 自动修复限流错误 ✅ 节省 Token 与时间 帮你统一管理和中转多</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>Antigravity-Manager 是一个集 AI 账号管理、协议中转、智能调度于一体的“本地 AI 控制中心”。&lt;/p>
&lt;p>它能帮你：
✅ 一键切换多个 AI 账号
✅ 稳定调用 Claude / GPT / Gemini
✅ 自动修复限流错误
✅ 节省 Token 与时间&lt;/p>
&lt;p>帮你统一管理和中转多家 AI 服务的账号（如 OpenAI、Claude、Gemini 等），并将不同厂商的接口协议转换成统一的 API 标准。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>换句话说：
它让你在一个应用里就能 一键切换账号 + 调用不同模型 + 自动中转请求，
不再需要记 token、改 API URL、手动登录登出。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>✅ 一键切换账号（不用反复登录/登出）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>✅ 自动检测失效账号&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>✅ 兼容多个 AI 协议（OpenAI / Claude / Gemini）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>✅ 智能分流和修复请求&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>✅ 本地运行，无隐私风险&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>✅ 图形界面 + 命令行都支持&lt;/p>
&lt;p>核心功能&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>① 智能仪表盘（Smart Dashboard）&lt;/p>
&lt;p>💡 一眼看清所有 AI 账号的状态。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>实时显示：各账号的剩余额度、状态（健康/封禁/限流）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>自动推荐最优账号：系统根据配额、延迟、速率，动态推荐最合适的账号调用&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>快照记录：每个账号的更新时间和使用率&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>🧠 举例：
你有 3 个 Claude 账号、2 个 Gemini 账号，它会告诉你哪个快用完了，哪个最空闲，并自动优先使用最稳定的那个。&lt;/p>
&lt;hr>
&lt;p>② 强大的账号管家（Account Manager）&lt;/p>
&lt;p>💡 让账号管理彻底自动化。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>支持 OAuth 2.0 登录（自动生成授权链接）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>支持 批量导入 JSON 配置（一次添加几十个账号）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>自动识别 403 封禁 / 401 失效&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>可视化管理界面 + 拖拽排序&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>一键禁用 / 启用账号&lt;/p>
&lt;p>🧩 小功能亮点：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>拖拽调整账号顺序，常用账号置顶&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>自动保存排序偏好，下次启动直接生效&lt;/p>
&lt;hr>
&lt;p>③ 协议转换（API Proxy）&lt;/p>
&lt;p>💡 把不同厂商的接口统一成标准格式。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>🔄 自动修复：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>当遇到限流（429）或 Token 过期时，系统会自动切换账号继续请求&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>完全无感知，调用不中断&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>📈 应用场景：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>你可以把它当作「本地中转服务器」，
让任何 AI 客户端（Cursor、Claude CLI、Cherry Studio）
都统一走一个 Base URL。&lt;/p>
&lt;hr>
&lt;p>④ 模型智能路由（Model Router）&lt;/p>
&lt;p>💡 把复杂的模型体系自动分层调度。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>自动分类模型家族（如 GPT-4 → gemini-3-pro-high）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>按账号类型（Ultra / Pro / Free）自动优先级排序&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>高级模型优先供前台对话，后台任务自动降级（省 Token）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>支持正则匹配自定义映射&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>🧠 举例：
当你跑 Claude CLI 时，它能自动识别“后台摘要任务” → 降级到 Flash 模型；
而主要对话仍用高级模型（Sonnet / Gemini 3 Pro）。&lt;/p>
&lt;hr>
&lt;p>⑤ 多模态与图像生成功能（Imagen 3 支持）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>支持图片生成与识别（4K 高清）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>支持多种分辨率：1024×1024、16:9、21:9、2K&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>支持自动参数映射：size=1024x1024 → 匹配合适的 Imagen 3 模型&lt;/p>
&lt;p>🧩 适用范围：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>文本转图像&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>图片理解（OCR / 视觉输入）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>UI 原型生成&lt;/p>
&lt;hr>
&lt;p>⑥ 智能错误恢复（Self-Healing System）&lt;/p>
&lt;p>遇到错误时自动修复，不需要你手动干预。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>🧠 意思是：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>你的请求基本不会失败。系统会自己“想办法重试”，直到成功。&lt;/p>
&lt;hr>
&lt;p>⑦ 高级调度系统（Scheduling Engine）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>账号池支持三种模式：
1️⃣ Exclusive 专属模式：单账号独享
2️⃣ Pooled 池化模式：多个账号轮流使用
3️⃣ Fallback 模式：备用账号自动顶替&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>内置 3 层限流保护机制&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>全局 Session 粘性（同一会话始终用同一账号）&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;hr>
&lt;p>⑧ 日志系统与可视化监控&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>实时显示请求、响应、耗时、Token 使用量&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>日志等级（INFO / DEBUG / TRACE）分层&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>可搜索、过滤、导出&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>请求完成时自动标记 Token 消耗与账号来源&lt;/p>
&lt;p>安装与使用&lt;/p>
&lt;hr>
&lt;p>🖥️ 方式一：macOS（推荐）&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">brew tap lbjlaq/antigravity-manager https://github.com/lbjlaq/Antigravity-Manager
brew install --cask --no-quarantine antigravity-tools
&lt;/code>&lt;/pre>&lt;hr>
&lt;p>🪟 方式二：Windows&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>直接下载 .msi 安装包&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>或下载 portable 便携版（可放 U 盘运行）&lt;/p>
&lt;hr>
&lt;p>🐧 方式三：Linux&lt;/p>
&lt;p>下载 .AppImage 或 .deb，命令行执行：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">chmod +x AntigravityTools.AppImage
./AntigravityTools.AppImage
&lt;/code>&lt;/pre>&lt;hr>
&lt;p>🧠 五、接入示例（Claude / Gemini / Python）&lt;/p>
&lt;p>Claude CLI:&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">export ANTHROPIC_API_KEY=&amp;#34;sk-antigravity&amp;#34;
export ANTHROPIC_BASE_URL=&amp;#34;http://127.0.0.1:8045&amp;#34;
claude
&lt;/code>&lt;/pre>&lt;p>Python SDK:&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">import openai
client = openai.OpenAI(
api_key=&amp;#34;sk-antigravity&amp;#34;,
base_url=&amp;#34;http://127.0.0.1:8045/v1&amp;#34;
)
response = client.chat.completions.create(
model=&amp;#34;gemini-3-flash&amp;#34;,
messages=[{&amp;#34;role&amp;#34;: &amp;#34;user&amp;#34;, &amp;#34;content&amp;#34;: &amp;#34;写一个Python快速排序&amp;#34;}]
)
print(response.choices[0].message.content)
&lt;/code>&lt;/pre>&lt;p>项目信息&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🌍 GitHub： &lt;a href="https://github.com/lbjlaq/Antigravity-Manager">https://github.com/lbjlaq/Antigravity-Manager&lt;/a>&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/antigravity-manager-antigravity/28229121">Antigravity-Manager ：为 Antigravity 提供一键无缝账号切换功能&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>IQuest-Coder-V1-40B：2026开年全球代码智能模型性能冠军</title><link>https://goodinfo.net/posts/opensource/iquest-coder-v1-40b2026%E5%BC%80%E5%B9%B4%E5%85%A8%E7%90%83%E4%BB%A3%E7%A0%81%E6%99%BA%E8%83%BD%E6%A8%A1%E5%9E%8B%E6%80%A7%E8%83%BD%E5%86%A0%E5%86%9B/</link><pubDate>Sat, 03 Jan 2026 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/iquest-coder-v1-40b2026%E5%BC%80%E5%B9%B4%E5%85%A8%E7%90%83%E4%BB%A3%E7%A0%81%E6%99%BA%E8%83%BD%E6%A8%A1%E5%9E%8B%E6%80%A7%E8%83%BD%E5%86%A0%E5%86%9B/</guid><description>IQuest Coder 是一个面向软件工程和算法竞赛的代码大模型体系。 它目前拥有多个规模版本： - 7B（基础版本） - 14B（中型版本） - 40B（高性能版本） - 40B-Loop（基于创新架构的优化版本） 所有模型均支持 128K</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>IQuest Coder 是一个面向软件工程和算法竞赛的代码大模型体系。
它目前拥有多个规模版本：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>7B（基础版本）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>14B（中型版本）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>40B（高性能版本）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>40B-Loop（基于创新架构的优化版本）&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>所有模型均支持 128K tokens 的长上下文输入，
可在单张高端 GPU（如 RTX 3090/4090）上运行。&lt;/p>
&lt;p>IQuest Coder 通过多阶段训练策略、创新架构和推理强化机制，
在多个代码任务基准测试中（如 SWE-Bench、LiveCodeBench、Terminal Bench）均取得领先表现。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>技术创新：从“写代码”到“理解开发过程”的模型&lt;/p>
&lt;p>大多数代码模型（如 CodeLlama、Codex）只是学习“代码片段”或“函数模式”。&lt;/p>
&lt;p>IQuest-Coder 的创新在于，它不是学“结果”，而是学“过程”。&lt;/p>
&lt;p>它的核心目标是：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>🧠 让 AI 理解代码如何演化、为什么修改、如何推理出修复方案。&lt;/p>
&lt;p>这就是所谓的 「Code-Flow 训练范式（Code Flow Training Paradigm）」 ——
它是 IQuest-Coder 最大的技术创新。&lt;/p>
&lt;p>创新一：Code-Flow 训练范式（核心突破）&lt;/p>
&lt;p>传统代码模型的训练数据是：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>“单个文件或函数 + 文本描述。”&lt;/p>
&lt;p>而 IQuest-Coder 的训练数据是：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>“完整项目仓库 + 多次提交记录 + 差异（diff） + 修复说明 + PR 讨论。”&lt;/p>
&lt;p>🔍 训练步骤：&lt;/p>
&lt;p>1️⃣ 阶段一：静态学习（Base）
学习通用语法、代码结构、函数设计。&lt;/p>
&lt;p>2️⃣ 阶段二：动态学习（Stage 1）
学习仓库的变更历史（commit diff），理解 bug 修复、重构、代码演化。&lt;/p>
&lt;p>3️⃣ 阶段三：Code Flow 推理
通过序列化代码演化过程，训练模型预测「下一次变更」的逻辑。&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>🧩 意义：模型开始理解“为什么代码这样改”，而不是“这段代码长什么样”。&lt;/p>
&lt;p>📈 效果：在 SWE-Bench Verified（真实代码修复测试） 上达到 81.4% 准确率，
远超其他模型（多数仅在 60~70% 之间）。&lt;/p>
&lt;p>创新二：Loop Transformer 架构（循环式语言模型）&lt;/p>
&lt;p>传统 Transformer 的注意力是“一次性”的：
输入 → 输出，一步到位。&lt;/p>
&lt;p>IQuest-Coder 引入了 Loop Transformer（循环结构）：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>模型会在内部“思考两遍”，共享参数但重复推理，像人类审查答案一样。&lt;/p>
&lt;p>🧩 原理：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>第一轮推理：生成初步答案&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>第二轮推理：复用隐藏状态，重新评估输出&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>输出更稳定、更少逻辑漏洞&lt;/p>
&lt;p>💡 优势：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>推理更深、回答更准&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>显存消耗不翻倍（因为权重共享）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在复杂任务（如算法解释、长代码阅读）中显著优于普通架构&lt;/p>
&lt;p>创新三：Grouped Query Attention (GQA)&lt;/p>
&lt;p>GQA 是一种高效注意力机制（源自 LLaMA2/3），
IQuest-Coder 在此基础上进行了强化优化。&lt;/p>
&lt;p>🧠 工作原理：&lt;/p>
&lt;p>把多头注意力（Multi-Head Attention）分组，
每组共享部分计算 → 降低显存占用，提高推理速度。&lt;/p>
&lt;p>📊 效果：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>降低推理延迟约 30%&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>使得 40B 模型能流畅运行在 8×A100 配置上&lt;/p>
&lt;p>这也是为什么它可以原生支持 128K 长上下文 而不崩。&lt;/p>
&lt;p>创新四：双路径模型设计&lt;/p>
&lt;p>（Thinking 模式 vs Instruct 模式）&lt;/p>
&lt;p>这是 IQuest 系列区别于所有其他模型的关键设计理念。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>💡 这样用户可以根据场景选择：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>要速度：用 Instruct；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>要逻辑深度：用 Thinking。&lt;/p>
&lt;p>这种「同底层、双人格」的架构设计，在当前开源模型中非常罕见。&lt;/p>
&lt;p>创新五：RRL（Reasoning-driven Reinforcement Learning）&lt;/p>
&lt;p>普通 RLHF（人类反馈强化学习）主要训练模型「听懂人话」。&lt;/p>
&lt;p>而 IQuest-Coder 的 RRL 则训练模型「会推理」。&lt;/p>
&lt;p>🔬 工作方式：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>模型先生成解题步骤；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>系统自动验证逻辑正确性；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>根据推理链条得分（不是答案分），奖励正确推理。&lt;/p>
&lt;p>这样训练出的模型能：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>🔍“解释为什么这么写”，而不是“只是写对”。&lt;/p>
&lt;p>💡 结果：模型在 长逻辑问题（如算法推导） 中性能大幅提升。&lt;/p>
&lt;p>创新七：原生 128K 上下文支持&lt;/p>
&lt;p>多数模型（如 CodeLlama）通过外部扩展（如 RoPE Scaling）实现长上下文，精度会衰减。
而 IQuest-Coder 是“原生支持 128K”，即训练时就使用长序列。&lt;/p>
&lt;p>💡 价值：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>可以一次性加载整个大型项目；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>跨文件引用、依赖分析更加准确；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在真实企业代码环境中可用性极高。&lt;/p>
&lt;p>创新八：Loop Self-Reflection（循环自省）&lt;/p>
&lt;p>IQuest-Coder 的 Loop 模型具备一种“自省机制”：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>模型在一次回答中可以“回顾自己前面的思路”，并进行修正。&lt;/p>
&lt;p>这类似于人类写完一段代码后“自检”的过程。&lt;/p>
&lt;p>💡 体现为：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>生成结果逻辑更严密；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>错误率明显降低；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>输出更简洁、更稳定。&lt;/p>
&lt;p>与其他模型对比（直观表）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>SWE-Bench Verified：81.4%（代理式软件工程任务）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>BigCodeBench：49.9%&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>LiveCodeBench v6：81.1% 这些分数在40B规模模型中领先，据称接近或超过Claude 4.5 Sonnet、GPT-5.1等更大闭源模型（社区有讨论是否过度优化基准）。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在 综合代码任务 上，IQuest 已经与 GPT-5.1、Claude 4.5 平级；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在 bug 修复、全栈开发、SQL 理解 上反而更强；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在 算法题与对话逻辑性 上略低于 GPT-5.1；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>最大优势在于：完全开源 + 可本地部署。&lt;/p>
&lt;p>官方介绍：https://iquestlab.github.io/&lt;/p>
&lt;p>GitHub：https://github.com/IQuestLab/IQuest-Coder-V1&lt;/p>
&lt;p>模型下载：https://huggingface.co/IQuestLab/IQuest-Coder-V1-40B-Instruct&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/iquest-coder-v1-40b-2026/28229017">IQuest-Coder-V1-40B：2026开年全球代码智能模型性能冠军&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>Claude Code Workflow Studio： Claude Code 可视化工作流编辑器</title><link>https://goodinfo.net/posts/opensource/claude-code-workflow-studio-claude-code-%E5%8F%AF%E8%A7%86%E5%8C%96%E5%B7%A5%E4%BD%9C%E6%B5%81%E7%BC%96%E8%BE%91%E5%99%A8/</link><pubDate>Tue, 30 Dec 2025 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/claude-code-workflow-studio-claude-code-%E5%8F%AF%E8%A7%86%E5%8C%96%E5%B7%A5%E4%BD%9C%E6%B5%81%E7%BC%96%E8%BE%91%E5%99%A8/</guid><description>Claude Code Workflow Studio 是为 Anthropic Claude Code CLI 打造的 可视化工作流编辑器，支持拖拽式 AI 工作流设计，无需编程即可创建和导出自动化流程。 它让用户能 用图形界面创建、修改、运行 Claude code 的自动化流程。 比如</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>Claude Code Workflow Studio 是为 Anthropic Claude Code CLI 打造的 可视化工作流编辑器，支持拖拽式 AI 工作流设计，无需编程即可创建和导出自动化流程。&lt;/p>
&lt;p>它让用户能 用图形界面创建、修改、运行 Claude code 的自动化流程。&lt;/p>
&lt;p>比如：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>你可以设计一个自动“文档总结”机器人；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>也可以创建一个“代码分析+修复建议”的工作流；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>甚至能做一个“网页爬取+内容提取+结果汇报”的自动流程。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>它能帮你做什么？&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>功能亮点：&lt;/p>
&lt;ol>
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>可视化拖拽编辑器&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>通过拖放节点（Prompt、Sub-Agent、Skill、MCP、IfElse、AskUserQuestion）构建复杂工作流。&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>AI 辅助迭代式工作流改进&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>使用自然语言描述修改需求，Claude AI 会根据上下文逐步优化工作流。&lt;/p>
&lt;ol start="3">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>一键导出&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>自动生成 .claude/agents/&lt;em>.md 与 .claude/commands/&lt;/em>.md 文件，可直接在 Claude Code CLI 中运行。&lt;/p>
&lt;ol start="4">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>Slack 集成（Beta）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>允许将工作流分享至 Slack，并支持一键导入。&lt;/p>
&lt;ol start="5">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>本地安全执行&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>所有操作在本地运行（除 MCP 节点外可能依赖网络连接）。&lt;/p>
&lt;ol start="6">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>国际化支持&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>支持五种语言：英语、日语、韩语、简体中文、繁体中文。&lt;/p>
&lt;p>工作流组件详解&lt;/p>
&lt;p>你在 VSCode 打开 Claude Code Workflow Studio 后，会看到一个“画布”界面：&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Prompt Nodes：模板化提示词节点（支持变量与动态替换）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Sub-Agent Nodes：独立智能体，具有自定义系统提示、模型选择（Opus、Sonnet、Haiku）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Skill Nodes：可引用或创建 Claude Code Skills（带 YAML 元数据的技能模块）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>MCP Tool Nodes：基于 Model Context Protocol 的外部工具集成节点（如数据库、API、Playwright 浏览器）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Conditional Branching：IfElse、Switch 实现条件分支逻辑&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>AskUserQuestion Nodes：用户交互节点，支持多选项分支&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>每个节点之间用“线”连起来，形成一个完整的自动化流程。&lt;/p>
&lt;p>AI 辅助编辑（最强功能）&lt;/p>
&lt;p>这部分是 Claude Code Workflow Studio 最独特的亮点。&lt;/p>
&lt;p>传统工具要手动修改流程逻辑；
但在这里，你可以用“自然语言”告诉 AI 你想改什么。&lt;/p>
&lt;p>例如：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>“帮我在开始节点后添加一个验证用户输入的步骤。”
“把输出结果改成保存成文件。”
“增加一个判断：如果文本超过1000字，就分段处理。”&lt;/p>
&lt;p>AI 会自动：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>理解你的意图；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>修改流程；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>调整布局；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>确保逻辑正确；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>并让你审查、接受或撤销更改。&lt;/p>
&lt;p>它不仅帮你生成，还能帮你“反复改进”流程。&lt;/p>
&lt;p>如何安装和使用？&lt;/p>
&lt;p>🪜 1. 安装依赖&lt;/p>
&lt;p>首先你需要安装 Claude Code CLI：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">https://claude.com/claude-code
&lt;/code>&lt;/pre>&lt;p>安装完成后输入：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">claude --version
&lt;/code>&lt;/pre>&lt;p>确认可以正常运行。&lt;/p>
&lt;hr>
&lt;p>🧩 2. 安装插件&lt;/p>
&lt;p>两种方法：&lt;/p>
&lt;p>✅ 从 VSCode 商店安装
1.&lt;/p>
&lt;p>打开 VSCode；&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>按 Ctrl+Shift+X；&lt;/p>
&lt;ol start="3">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>搜索 Claude Code Workflow Studio；&lt;/p>
&lt;ol start="4">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>点击安装。&lt;/p>
&lt;p>💻 从源码安装&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">git clone https://github.com/breaking-brake/cc-wf-studio.git
cd cc-wf-studio
npm install
npm run build
npx vsce package
&lt;/code>&lt;/pre>&lt;p>然后在 VSCode 扩展管理器中选择“从 VSIX 安装”。&lt;/p>
&lt;hr>
&lt;p>🎨 3. 打开编辑器&lt;/p>
&lt;p>在 VSCode 命令面板中输入：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">Claude Code Workflow Studio: Open Editor
&lt;/code>&lt;/pre>&lt;p>首次使用会启动一个交互式教学向导（带演示动画），
一步步教你如何添加节点、连接线、配置参数。&lt;/p>
&lt;hr>
&lt;p>🧠 4. 创建一个简单工作流&lt;/p>
&lt;p>举个例子：&lt;/p>
&lt;p>目标：创建一个“自动问候”工作流。
1.&lt;/p>
&lt;p>添加一个 Prompt Node
内容：你好，我是Claude！&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>添加一个 AskUserQuestion 节点
内容：你现在感觉如何？（开心 / 忙碌 / 放松）&lt;/p>
&lt;ol start="3">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>添加一个 Sub-Agent 节点
根据不同回答生成回应。&lt;/p>
&lt;ol start="4">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>点击“导出”
自动生成 .claude/commands/greeting.md 文件。
现在你可以直接用 Claude CLI 执行！&lt;/p>
&lt;hr>
&lt;p>Skill 与 MCP：让 Claude 更聪明&lt;/p>
&lt;p>💡 Skill（技能）&lt;/p>
&lt;p>类似“Claude 的插件”。
比如你有一个 PDF 解析技能，Claude 就能在工作流里自动用它读文件。&lt;/p>
&lt;p>技能文件定义在：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>个人技能：~/.claude/skills/&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>项目技能：.claude/skills/&lt;/p>
&lt;p>每个技能都是一个带 SKILL.md 的 Markdown 文件，里面写着：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">name: pdf-reader
description: 从PDF中提取文本
tools: [Read]
&lt;/code>&lt;/pre>&lt;p>然后你只需在可视化编辑器中选择该 Skill，Claude 就能用它。&lt;/p>
&lt;hr>
&lt;p>🌐 MCP（Model Context Protocol）&lt;/p>
&lt;p>MCP 是 Claude 的“扩展接口系统”。
你可以让 Claude 调用外部 API 或本地工具。&lt;/p>
&lt;p>例如：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Playwright MCP → 控制浏览器；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>API MCP → 访问网络接口；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Database MCP → 查询数据库；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Filesystem MCP → 访问文件系统。&lt;/p>
&lt;p>添加 MCP 节点后，只需选择：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>服务器（MCP Server）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>工具名（Tool）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>参数配置（自动生成表单）&lt;/p>
&lt;p>即可完成配置。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;hr>
&lt;p>常见问题（FAQ 精选）&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;hr>
&lt;p>📘 总结一句话：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>Claude Code Workflow Studio 就是一个「让你像搭积木一样创建 AI 自动化工作流」的 VSCode 插件。&lt;/p>
&lt;p>无需编程，只需想好流程，拖几个模块、点几下、和 AI 聊两句，它就能帮你生成一个真正能运行的智能系统。&lt;/p>
&lt;hr>
&lt;p>GitHub：https://github.com/breaking-brake/cc-wf-studio&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/claude-code-workflow-studio-claude-code/28120737">Claude Code Workflow Studio： Claude Code 可视化工作流编辑器&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>AntV Infographic：一句话自动生成漂亮、结构化的信息图</title><link>https://goodinfo.net/posts/opensource/antv-infographic%E4%B8%80%E5%8F%A5%E8%AF%9D%E8%87%AA%E5%8A%A8%E7%94%9F%E6%88%90%E6%BC%82%E4%BA%AE%E7%BB%93%E6%9E%84%E5%8C%96%E7%9A%84%E4%BF%A1%E6%81%AF%E5%9B%BE/</link><pubDate>Sun, 28 Dec 2025 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/antv-infographic%E4%B8%80%E5%8F%A5%E8%AF%9D%E8%87%AA%E5%8A%A8%E7%94%9F%E6%88%90%E6%BC%82%E4%BA%AE%E7%BB%93%E6%9E%84%E5%8C%96%E7%9A%84%E4%BF%A1%E6%81%AF%E5%9B%BE/</guid><description>AntV Infographic 是阿里巴巴 AntV 团队推出的一个新一代 信息图生成与渲染框架。 它的目标是： > “让文字变成图形，让数据开口说话。” 也就是说，你只需要输入几句话描述信息，系统就能自动生成一张漂亮、结构化的信息图（Infographic）。 ![image]</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>AntV Infographic 是阿里巴巴 AntV 团队推出的一个新一代 信息图生成与渲染框架。&lt;/p>
&lt;p>它的目标是：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>“让文字变成图形，让数据开口说话。”&lt;/p>
&lt;p>也就是说，你只需要输入几句话描述信息，系统就能自动生成一张漂亮、结构化的信息图（Infographic）。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>这项技术让“AI自动可视化”成为现实，非常适合教学、数据展示、报告、AI输出可视化等场景。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>AI原生：语法和结构都为AI生成优化，兼容ChatGPT、Gemini等大模型。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>声明式图形语言：用文字描述图，不需要复杂坐标或绘图命令。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>高质量SVG输出：输出的图是矢量的（SVG），不会失真，可直接放进PPT或网页。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>模板丰富：200+ 信息图样式一键调用。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>多主题风格：支持“手绘风”“渐变风”“卡通风”“商务风”等主题，可自定义。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>实时可视化：流式渲染技术，让AI能“边说边画”。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>内置编辑器：有一个网页编辑器，可以手动微调AI生成的图。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>流式渲染：当AI模型一边“说话”一边输出内容时，图也能边生成边出现。就像AI在“画思维导图”一样。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>开发者友好：完整API、可扩展架构、可定制样式。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>GitHub： &lt;a href="https://github.com/antvis/Infographic?tab=readme-ov-file">https://github.com/antvis/Infographic?tab=readme-ov-file&lt;/a>&lt;/p>
&lt;p>网站：https://infographic.antv.vision/&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/antv-infographic/28086814">AntV Infographic：一句话自动生成漂亮、结构化的信息图&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>阿里巴巴发布全新开源语音交互大模型 Fun-Audio-Chat 超低延迟富有同理心、能理解语调和情感</title><link>https://goodinfo.net/posts/opensource/%E9%98%BF%E9%87%8C%E5%B7%B4%E5%B7%B4%E5%8F%91%E5%B8%83%E5%85%A8%E6%96%B0%E5%BC%80%E6%BA%90%E8%AF%AD%E9%9F%B3%E4%BA%A4%E4%BA%92%E5%A4%A7%E6%A8%A1%E5%9E%8B-fun-audio-chat-%E8%B6%85%E4%BD%8E%E5%BB%B6%E8%BF%9F%E5%AF%8C%E6%9C%89%E5%90%8C%E7%90%86%E5%BF%83%E8%83%BD%E7%90%86%E8%A7%A3%E8%AF%AD%E8%B0%83%E5%92%8C%E6%83%85%E6%84%9F/</link><pubDate>Wed, 24 Dec 2025 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/%E9%98%BF%E9%87%8C%E5%B7%B4%E5%B7%B4%E5%8F%91%E5%B8%83%E5%85%A8%E6%96%B0%E5%BC%80%E6%BA%90%E8%AF%AD%E9%9F%B3%E4%BA%A4%E4%BA%92%E5%A4%A7%E6%A8%A1%E5%9E%8B-fun-audio-chat-%E8%B6%85%E4%BD%8E%E5%BB%B6%E8%BF%9F%E5%AF%8C%E6%9C%89%E5%90%8C%E7%90%86%E5%BF%83%E8%83%BD%E7%90%86%E8%A7%A3%E8%AF%AD%E8%B0%83%E5%92%8C%E6%83%85%E6%84%9F/</guid><description>阿里云 Tongyi Fun 团队 发布全新的开源语音大模型 Fun-Audio-Chat ，在实现 自然、低延迟的语音交互（Voice Interaction），专为实现自然、低延迟的语音交互而设计。 你不需要打字，只要用语音对它说话，它就能实时理解、思考、回答你，并用自然流畅的语音回复。</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>阿里云 Tongyi Fun 团队 发布全新的开源语音大模型 Fun-Audio-Chat ，在实现 自然、低延迟的语音交互（Voice Interaction），专为实现自然、低延迟的语音交互而设计。&lt;/p>
&lt;p>你不需要打字，只要用语音对它说话，它就能实时理解、思考、回答你，并用自然流畅的语音回复。&lt;/p>
&lt;p>它可以：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>回答语音问题（比如“帮我总结这段语音”）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>理解语音内容（比如识别情绪、音色、命令）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>按语音执行任务（比如“帮我打开音乐”、“拨打电话”）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>语音生成语音（你说话它直接“开口”回应）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>模拟语音情感（比如开心、温柔、严肃）&lt;/p>
&lt;p>它可以完成端到端的语音问答、语音理解、语音函数调用、语音指令执行与语音共情等任务。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>该模型的设计目标是：
1.&lt;/p>
&lt;p>在低延迟条件下实现自然的语音交互体验；&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>在保持大语言模型语义理解能力的同时增强语音感知与生成能力；&lt;/p>
&lt;ol start="3">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>提供统一框架支持语音→语音、语音→文本等多模态任务。&lt;/p>
&lt;p>技术创新&lt;/p>
&lt;p>Fun-Audio-Chat 的核心目标是：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>在统一的大语言模型框架下，实现自然、实时的语音理解与语音生成。&lt;/p>
&lt;p>为此，它引入两个核心创新：&lt;/p>
&lt;p>🧩 1. 双分辨率语音表示（Dual-Resolution Speech Representations）&lt;/p>
&lt;p>传统语音模型采样频率高（12.5Hz 或 25Hz），虽然声音细节多，但计算量很大、延迟高。
Fun-Audio-Chat 采用了一种聪明的折中方法：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>主干部分（5Hz）：负责理解语音的“意思”，计算量低；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>精细部分（25Hz）：负责保留声音细节，让语音听起来自然。&lt;/p>
&lt;p>👉 好处：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>推理速度快（延迟低）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>将 GPU 成本降低约 50%&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>声音依旧高质量自然&lt;/p>
&lt;p>这就像你看电影时，主干剧情是5帧/秒，人物表情用25帧补足，看起来流畅又省资源。&lt;/p>
&lt;hr>
&lt;p>🧪 2. 核心混合训练（Core-Cocktail Training）&lt;/p>
&lt;p>它结合了“语音模型”和“文本大模型”的训练方式：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>从 文本大模型（LLM） 那里学到理解能力；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>从 语音模型 那里学到听觉与说话能力。&lt;/p>
&lt;p>👉 这样，它既能像 ChatGPT 一样理解语义，又能像 Siri 一样“听懂说话”。&lt;/p>
&lt;p>🔷 3.模型架构&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Encoder：把语音转成语义特征（听懂你说啥）；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>LLM Backbone：理解语义、做推理（想清楚怎么回答）；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>TTS Head (CosyVoice)：把结果转成自然语音（说出来）。&lt;/p>
&lt;p>🔄 4.全双工语音交互（Full-Duplex Interaction）&lt;/p>
&lt;p>传统语音助手是“单工”的：说完一句 → 等回答。
Fun-Audio-Chat 实现了全双工语音，即边说边听、可打断、可轮换发言。&lt;/p>
&lt;p>技术上，它通过：
1.&lt;/p>
&lt;p>模拟重叠语音数据；&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>加入“轮次控制（Turn-taking Control）”信号；&lt;/p>
&lt;ol start="3">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>同步语音输入与输出流。&lt;/p>
&lt;p>实验显示：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在 Turn-Taking 精度上，Fun-Audio-Chat-Duplex 达到 100%；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>响应延迟 &amp;lt; 400ms；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>可在语音打断场景中稳定对话。&lt;/p>
&lt;p>性能和测试结果&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在多个语音理解与对话基准上达到 同类模型最优（SOTA）；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在 效率、音质、延迟 三方面取得均衡；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Fun-Audio-Chat-30B-A3B 版本性能与 GPT-Audio、Gemini-2.5-Pro 相当；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Fun-Audio-Chat-8B 版本在开源模型中表现最强。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>Fun-Audio-Chat 的 8B 模型在多个公开语音任务上都拿到了同级模型中的最高分&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>项目及演示：https://funaudiollm.github.io/funaudiochat/&lt;/p>
&lt;p>GitHub：https://github.com/FunAudioLLM/Fun-Audio-Chat&lt;/p>
&lt;p>技术报告：https://github.com/FunAudioLLM/Fun-Audio-Chat/blob/main/Fun-Audio-Chat-Technical-Report.pdf&lt;/p>
&lt;p>模型：https://huggingface.co/FunAudioLLM/Fun-Audio-Chat-8B&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/fun-audio-chat/28032367">阿里巴巴发布全新开源语音交互大模型 Fun-Audio-Chat 超低延迟富有同理心、能理解语调和情感&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>智谱AI发布：GLM-4.7 引入三层思考模式 编码和前端审美大幅提升 性能直逼GPT-5和Claude 4.5</title><link>https://goodinfo.net/posts/opensource/%E6%99%BA%E8%B0%B1ai%E5%8F%91%E5%B8%83glm-47-%E5%BC%95%E5%85%A5%E4%B8%89%E5%B1%82%E6%80%9D%E8%80%83%E6%A8%A1%E5%BC%8F-%E7%BC%96%E7%A0%81%E5%92%8C%E5%89%8D%E7%AB%AF%E5%AE%A1%E7%BE%8E%E5%A4%A7%E5%B9%85%E6%8F%90%E5%8D%87-%E6%80%A7%E8%83%BD%E7%9B%B4%E9%80%BCgpt-5%E5%92%8Cclaude-45-/</link><pubDate>Tue, 23 Dec 2025 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/%E6%99%BA%E8%B0%B1ai%E5%8F%91%E5%B8%83glm-47-%E5%BC%95%E5%85%A5%E4%B8%89%E5%B1%82%E6%80%9D%E8%80%83%E6%A8%A1%E5%BC%8F-%E7%BC%96%E7%A0%81%E5%92%8C%E5%89%8D%E7%AB%AF%E5%AE%A1%E7%BE%8E%E5%A4%A7%E5%B9%85%E6%8F%90%E5%8D%87-%E6%80%A7%E8%83%BD%E7%9B%B4%E9%80%BCgpt-5%E5%92%8Cclaude-45-/</guid><description>智谱 AI（Zhipu AI） 发布新一代多模态与智能体化模型：GLM-4.7。 该版本并非单纯参数扩容，而是针对 智能体场景中的“思考一致性（Thinking Consistency）”与“编程自治性（Agentic Coding）” 进行结构性增强。 该版本在多项标准化基准测试中显著超越</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>智谱 AI（Zhipu AI） 发布新一代多模态与智能体化模型：GLM-4.7。&lt;/p>
&lt;p>该版本并非单纯参数扩容，而是针对 智能体场景中的“思考一致性（Thinking Consistency）”与“编程自治性（Agentic Coding）” 进行结构性增强。&lt;/p>
&lt;p>该版本在多项标准化基准测试中显著超越 GLM-4.6。&lt;/p>
&lt;p>相较 GLM-4.6，该版本重点解决了三大瓶颈：
1.&lt;/p>
&lt;p>代码生成与修复的逻辑一致性不足；&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>多轮任务中保持思考一致性（不乱、不忘）&lt;/p>
&lt;ol start="3">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>工具使用与上下文保持的碎片化。&lt;/p>
&lt;p>GLM-4.7 在 17 个多维基准测试（涵盖 8 个推理、5 个编程、3 个智能体任务）中，相较 GLM-4.6 实现显著增益，尤其在复杂编程与长链任务中表现突出。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>整体结果显示，GLM-4.7 在推理、编程与智能体执行三大维度均较 GLM-4.6 有10%~20% 的系统性提升。&lt;/p>
&lt;p>GLM-4.7 的“思考系统”是核心亮点&lt;/p>
&lt;p>GLM-4.7 的最大革新是：&lt;/p>
&lt;p>引入了新的“思考机制（Thinking System）”，
这是它区别于大多数模型的核心技术。&lt;/p>
&lt;p>让模型“先思考，再行动”&lt;/p>
&lt;p>在传统大语言模型（如 GPT、Claude、Gemini）中，生成过程是：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>输入 → 直接输出文本&lt;/p>
&lt;p>也就是说，模型没有明确的“思考阶段”——它一边预测单词，一边输出结果。
这导致：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>输出逻辑容易漂移（逻辑链断裂）；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>多轮任务中容易遗忘之前的推理过程；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>对复杂任务缺乏一致性和复盘能力。&lt;/p>
&lt;p>GLM-4.7 打破了这种机制。
它在架构中显式加入了“思考层（Thinking Layer）”，
让模型在输出前进行“内部思考”，形成可持续的推理链。&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>💬 用人类类比：
GPT-4 是“边说边想”的人，
GLM-4.7 是“先想清楚再回答”的人。&lt;/p>
&lt;p>三种思考模式&lt;/p>
&lt;p>GLM-4.7 的创新点在于它同时具备三种思考层，这在当前所有主流大模型中是首次系统实现。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>💡 举例说明：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>假如你和 GLM 聊一个编程项目：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>第一次：它思考怎么设计架构；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>第二次：它继续沿用上次的思路完善功能；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>不会像旧版那样忘记前面的逻辑。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;ol>
&lt;li>Interleaved Thinking：让模型“分步思考”&lt;/li>
&lt;/ol>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>每个响应或工具调用前，模型会自动生成一段“隐性推理过程”（即思考块）。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在这一阶段，模型不产出可见内容，而进行目标分解、验证与计划生成。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>效果：显著改善指令遵循率（instruction following）与结构化输出一致性。&lt;/p>
&lt;p>也就是在生成答案前，GLM-4.7 会自动进行一个内部推理阶段：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>分析任务目标；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>制定推理路径；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>预测潜在障碍；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>再生成可见输出。&lt;/p>
&lt;p>这让模型在代码生成、逻辑推理等复杂场景中输出更稳定、条理更清晰。&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>📈 在 SWE-bench（真实编程任务）中，这一机制带来 5%–10% 的准确率提升。&lt;/p>
&lt;hr>
&lt;ol start="2">
&lt;li>Preserved Thinking：让模型“记住自己的思考”&lt;/li>
&lt;/ol>
&lt;p>传统模型的多轮对话存在“遗忘问题”：
每次生成新答案时，它不会真正记得上一次的推理逻辑，只依赖上下文文本。&lt;/p>
&lt;p>GLM-4.7 则在系统中引入**“推理状态缓存（Reasoning Memory）”**，
将思考链（Reasoning Trace）显式保留在内部上下文中，并在后续调用。&lt;/p>
&lt;p>这意味着：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>它不会重复犯同样的逻辑错误；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>可以在任务中连续改进；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>适合长时程任务（如代码项目、科研分析、论文撰写）。&lt;/p>
&lt;p>📊 实验证明：
Preserved Thinking 在多轮推理任务中减少约 20% 的逻辑漂移（drift rate），
在 Terminal Bench 长链任务中带来约 +16.5% 性能增益。&lt;/p>
&lt;hr>
&lt;ol start="3">
&lt;li>Turn-level Thinking：让用户“控制思考”&lt;/li>
&lt;/ol>
&lt;p>GLM-4.7 允许用户或系统控制每一轮的思考深度，用户可在每一轮启用或禁用思考层&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>轻量任务（如问答、摘要） → 关闭思考层，加快响应；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>复杂任务（如数学推理、编程、多步规划） → 启用思考层，提升准确度；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>混合任务 → 动态切换。&lt;/p>
&lt;p>这一点让 GLM-4.7 成为一个**“可控推理系统”**，
在成本、速度与智能之间实现灵活平衡。&lt;/p>
&lt;hr>
&lt;p>为什么这是重大突破？&lt;/p>
&lt;p>✅ 1. 从“输出导向”到“思维导向”&lt;/p>
&lt;p>传统模型关注输出的质量；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>GLM-4.7 关注思维过程的合理性与连贯性。
它不只是“会说”，而是“会想并能自证逻辑”。&lt;/p>
&lt;hr>
&lt;p>✅ 2. 从“对话式 AI”向“可控智能体”过渡&lt;/p>
&lt;p>思考系统让 GLM-4.7 能够在智能体框架中执行更复杂的多步骤任务。
它能：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>理解任务目标；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>拆解步骤；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>调用工具；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>保留上下文推理链；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>自主完成执行闭环。&lt;/p>
&lt;p>在 Claude Code、Roo Code、Cline 等智能体框架中的测试表明，
GLM-4.7 的任务完成率明显优于前代（+10%～15%）。&lt;/p>
&lt;hr>
&lt;p>✅ 3. 让推理变得“稳定、可复用、可解释”&lt;/p>
&lt;p>由于推理链被显式保存，GLM-4.7 的输出具备：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>稳定性：逻辑连贯、不易漂移；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>可复用性：可延续推理结果，不必重复思考；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>可解释性：可追踪模型的决策依据。&lt;/p>
&lt;p>这为模型的安全性、可靠性和工程应用提供了新的基础。&lt;/p>
&lt;p>GLM-4.7 有哪些重大升级？&lt;/p>
&lt;p>🧩 1. 编程能力（Coding Ability）全面升级&lt;/p>
&lt;p>GLM-4.7 的编码能力得到了大幅的提升&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>🧠 它能“先思考再动手”，比以前更少出错。
比如：在写函数前，它会先规划结构和逻辑，不会一上来就乱写。&lt;/p>
&lt;p>这点非常接近人类开发者的思维方式。&lt;/p>
&lt;hr>
&lt;p>🎨 2. 视觉与设计能力（Vibe Coding）更强&lt;/p>
&lt;p>GLM-4.7 不只是会“写代码”，它还会“设计界面”。&lt;/p>
&lt;p>GLM-4.7 对生成内容的**视觉一致性（Visual Consistency）**做了大幅优化：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>自动生成结构化 HTML、CSS、JavaScript 代码；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>幻灯片（Slides）生成时改进了排版与比例感；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>生成网页具备现代化风格与可用性。&lt;/p>
&lt;p>举例：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>能生成 干净、现代感的网页；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>能排版 美观的幻灯片和海报；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>自动控制 布局、颜色和文字比例，视觉统一。&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>以前生成的网页像“开发者作品”，
现在生成的网页更像“设计师作品”。&lt;/p>
&lt;hr>
&lt;p>🛠️ 3. 工具使用与网络浏览更聪明&lt;/p>
&lt;p>GLM-4.7 可以主动使用工具，比如上网搜索或调用外部 API。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在 BrowseComp 中，从 45.1% 提升至 52.0%；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>支持多工具上下文融合（context-managed browsing 模式）；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在 τ²-Bench 中达到 87.4%，优于 GPT-5 (82.7)。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>它能：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>打开网页自己查资料；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>自动提取信息；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在回答问题时引用最新内容；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>自动执行命令（例如：下载文件、处理数据等）。&lt;/p>
&lt;hr>
&lt;p>🔢 4. 复杂推理与数学能力更强&lt;/p>
&lt;p>GLM-4.7 的逻辑推理能力有大幅度提升：&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>🧮 表现效果：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>能正确解答更复杂的数学题；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在写代码前能推导更长的逻辑链；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在解释问题时更清晰、有条理。&lt;/p>
&lt;p>和 GPT-5、Claude、Gemini 比起来如何？&lt;/p>
&lt;p>GLM-4.7 的综合表现介于 GPT-5 与 Claude 4.5 之间，
在“代码生成 + 思考机制 + 视觉输出”方面更具优势。&lt;/p>
&lt;p>在推理能力上，GLM-4.7 的平均表现略低于 GPT-5 系列，但超过 Claude Sonnet 4.5 与 Kimi K2：&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>GLM-4.7 在性能层面达到“GPT-5 级别的综合平衡型模型”。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>推理层面： 数学逻辑接近 GPT-5，高于 Claude 4.5。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>编程层面： SWE-bench、Terminal Bench 提升显著，具备行业级可用性。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>智能体层面： τ²-Bench 成绩领先，展示出真实任务闭环能力。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>稳定性： 由于“Preserved Thinking”，在长任务、复盘任务中表现极佳。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>多语言与成本： 兼顾性能与性价比，是 2025 年底全球最具实用价值的开源模型之一。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>使用方式（非常简单）&lt;/p>
&lt;ol>
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>🌐 在线体验：
👉 Z.ai 平台
切换模型为 GLM-4.7&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>🧰 API 调用：
文档地址：GLM-4.7 API Guide&lt;/p>
&lt;ol start="3">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>💾 本地部署：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>可在 HuggingFace、ModelScope 下载模型权重&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>支持框架：vLLM、SGLang&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>兼容 OpenRouter 平台&lt;/p>
&lt;ol start="4">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>💸 价格方案：&lt;/p>
&lt;p>GLM Coding Plan 用户自动升级至 GLM-4.7。
相较 Claude Code 模型：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>成本为其 1/7；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>使用配额为其 3 倍；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>编程任务性能达到 90% Claude 水平。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>GitHub：https://github.com/zai-org/GLM-4.5&lt;/p>
&lt;p>模型下载：https://huggingface.co/zai-org/GLM-4.7&lt;/p>
&lt;p>技术报告：https://arxiv.org/abs/2508.06471&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/ai-glm-4-7-gpt-5-claude-4-5/28005796">智谱AI发布：GLM-4.7 引入三层思考模式 编码和前端审美大幅提升 性能直逼GPT-5和Claude 4.5 &lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>A2UI：让 AI 能通过生成实时 UI 界面来回答用户问题</title><link>https://goodinfo.net/posts/opensource/a2ui%E8%AE%A9-ai-%E8%83%BD%E9%80%9A%E8%BF%87%E7%94%9F%E6%88%90%E5%AE%9E%E6%97%B6-ui-%E7%95%8C%E9%9D%A2%E6%9D%A5%E5%9B%9E%E7%AD%94%E7%94%A8%E6%88%B7%E9%97%AE%E9%A2%98/</link><pubDate>Mon, 22 Dec 2025 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/a2ui%E8%AE%A9-ai-%E8%83%BD%E9%80%9A%E8%BF%87%E7%94%9F%E6%88%90%E5%AE%9E%E6%97%B6-ui-%E7%95%8C%E9%9D%A2%E6%9D%A5%E5%9B%9E%E7%AD%94%E7%94%A8%E6%88%B7%E9%97%AE%E9%A2%98/</guid><description>A2UI（全称 Agent-to-User Interface）是 Google 推出的一个开源项目，目标是让 AI 智能体（agent）能自动生成安全的图形化界面（UI）。 > 🧠 一句话解释： A2UI 是一种“让 AI 能说 UI 的语言”。 让智能体（Agents）能生成上下文相关</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>A2UI（全称 Agent-to-User Interface）是 Google 推出的一个开源项目，目标是让 AI 智能体（agent）能自动生成安全的图形化界面（UI）。&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>🧠 一句话解释：
A2UI 是一种“让 AI 能说 UI 的语言”。&lt;/p>
&lt;p>让智能体（Agents）能生成上下文相关的、动态的、可交互的用户界面（UI）。&lt;/p>
&lt;p>传统上，AI 只能输出文字（比如 ChatGPT 给你一段文本），但它不能生成一个安全可交互的界面。&lt;/p>
&lt;p>有两个难题：
1.&lt;/p>
&lt;p>安全问题：如果让 AI 输出 HTML/JS 代码，会有执行任意代码的风险（如 XSS、RCE）。&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>跨平台问题：HTML、Flutter、React、SwiftUI 各有不同的渲染方式，AI 生成的代码往往不能通用。&lt;/p>
&lt;p>A2UI 的出现就是为了解决这两个问题&lt;/p>
&lt;p>它定义了一种开放的 UI 描述标准，让 AI 不直接生成代码，而是生成一种声明式的数据结构（JSON），用于描述界面的结构和行为。&lt;/p>
&lt;p>客户端程序（前端 App）再根据这份数据结构，用自己的安全组件库去“解释并绘制”UI。&lt;/p>
&lt;p>这样：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>AI 不需要知道具体框架；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>UI 可以跨平台；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>安全性得到保证；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>交互体验可以动态更新。&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>它让 AI 能用一种安全、标准的格式（JSON）告诉应用该怎么生成界面，而不是直接写代码。&lt;/p>
&lt;p>举个例子：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>以前你问 AI：“帮我查下东京餐厅”
→ AI 只能回一句文字说明；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>用了 A2UI 后
→ AI 能“生成”一个可交互的界面，比如地图上标出东京餐厅的位置。&lt;/p>
&lt;p>也就是说，AI 不再只是“说话”，还能“画界面”。
但它不是写代码（这会有安全风险），而是生成一种安全的数据描述（JSON），告诉应用程序要显示什么界面。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>A2UI 的核心特性&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>让智能体安全地生成 UI，而不是执行代码。&lt;/p>
&lt;p>也就是说：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>AI 只输出结构化 JSON；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>客户端渲染 UI；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>所有组件都来自安全的“组件白名单”。&lt;/p>
&lt;p>🚫 不再发送代码&lt;/p>
&lt;p>过去的远程 UI 往往通过 HTML/JS 传递，这会带来：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>安全隐患（执行脚本）；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>样式不一致；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>难以跨平台。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>A2UI 为什么重要？&lt;/p>
&lt;p>让我们看一个例子 👇&lt;/p>
&lt;hr>
&lt;p>❌ 传统做法&lt;/p>
&lt;p>AI 想生成一个界面（比如一个“酒店预订表单”），可能会输出：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">&amp;lt;form&amp;gt;
&amp;lt;input type=&amp;#34;text&amp;#34; placeholder=&amp;#34;Destination&amp;#34;&amp;gt;
&amp;lt;input type=&amp;#34;date&amp;#34;&amp;gt;
&amp;lt;button&amp;gt;Book&amp;lt;/button&amp;gt;
&amp;lt;/form&amp;gt;
&lt;/code>&lt;/pre>&lt;p>但是：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>这个代码可能包含恶意脚本（安全风险⚠️）；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>前端框架可能不兼容（React、Flutter、SwiftUI 各不相同）；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>更新 UI 很难做到“动态增量修改”。&lt;/p>
&lt;hr>
&lt;p>✅ 用 A2UI 的做法&lt;/p>
&lt;p>AI 不直接写代码，而是输出一个安全的 JSON：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">{
&amp;#34;type&amp;#34;: &amp;#34;form&amp;#34;,
&amp;#34;children&amp;#34;: [
{ &amp;#34;type&amp;#34;: &amp;#34;text-field&amp;#34;, &amp;#34;label&amp;#34;: &amp;#34;Destination&amp;#34;, &amp;#34;id&amp;#34;: &amp;#34;input_destination&amp;#34; },
{ &amp;#34;type&amp;#34;: &amp;#34;date-picker&amp;#34;, &amp;#34;label&amp;#34;: &amp;#34;Check-in Date&amp;#34;, &amp;#34;id&amp;#34;: &amp;#34;input_date&amp;#34; },
{ &amp;#34;type&amp;#34;: &amp;#34;button&amp;#34;, &amp;#34;text&amp;#34;: &amp;#34;Book&amp;#34;, &amp;#34;onClick&amp;#34;: &amp;#34;submit_form&amp;#34; }
]
}
&lt;/code>&lt;/pre>&lt;p>前端（比如 Flutter、Lit、React）拿到这个 JSON 后，
会自动用本地的组件库去渲染出界面。&lt;/p>
&lt;p>这样：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>不运行 AI 生成的“可执行代码”，只解析数据 ✅&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>不限前端框架 ✅&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>AI 可以随时“增量更新 UI” ✅&lt;/p>
&lt;hr>
&lt;p>技术结构与架构&lt;/p>
&lt;p>A2UI 本质上是一个：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>“声明式 UI 消息规范” + “跨平台渲染协议”&lt;/p>
&lt;p>可以理解为：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">AI → 生成 A2UI JSON → 前端解析 → 渲染本地组件
&lt;/code>&lt;/pre>&lt;p>可以把整个 A2UI 的工作过程分为四个阶段。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;ol>
&lt;li>生成（Generation）&lt;/li>
&lt;/ol>
&lt;p>智能体（Agent）——例如使用 Gemini 或其他大型语言模型（LLM）——生成一个符合 A2UI 规范的 JSON。
这个 JSON 包含界面的结构、组件类型、内容、事件标识等。&lt;/p>
&lt;ol start="2">
&lt;li>传输（Transport）&lt;/li>
&lt;/ol>
&lt;p>这个 JSON 数据通过网络传给客户端。
A2UI 支持的传输协议包括：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>A2A Protocol（Agent-to-Agent 协议）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>WebSocket&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>未来可能支持 REST、gRPC 等形式&lt;/p>
&lt;ol start="3">
&lt;li>解析（Resolution）&lt;/li>
&lt;/ol>
&lt;p>客户端应用收到 JSON 后，由 A2UI Renderer（渲染器）进行解析。
渲染器负责识别组件类型（如 “button”）并找到相应的本地实现。&lt;/p>
&lt;ol start="4">
&lt;li>渲染（Rendering）&lt;/li>
&lt;/ol>
&lt;p>渲染器将这些抽象组件映射到真实的 UI 元素上。
例如：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在 Flutter 中，&amp;ldquo;type&amp;rdquo;: &amp;ldquo;button&amp;rdquo; 映射为 ElevatedButton&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在 Web 上，映射为 Lit 或 React 的 &lt;button>&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在 iOS 上，映射为 SwiftUI 的 Button&lt;/p>
&lt;p>最终，用户看到的是一个真实、可交互的界面。&lt;/p>
&lt;p>技术栈&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>语言：TypeScript（95% 以上）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>辅助语言：HTML、Python&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>主要框架支持：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Web（Lit Renderer）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Flutter（GenUI SDK）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>兼容生态：A2A 协议、AG UI、Gemini API、CopilotKit&lt;/p>
&lt;p>典型应用场景&lt;/p>
&lt;p>A2UI 并不是一个单纯的 UI 工具，而是面向“智能体系统”的界面协议。它的应用非常广泛：
1.&lt;/p>
&lt;p>智能表单生成
智能体根据上下文生成动态表单，例如会议预订、客户调查、设备配置等。&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>可视化问答界面
聊天式应用中，智能体根据用户问题动态生成卡片、图表、列表等视觉信息。&lt;/p>
&lt;ol start="3">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>企业工作流系统
智能体在审批、报告、数据分析系统中，动态生成业务界面。&lt;/p>
&lt;ol start="4">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>多智能体协作系统
一个主智能体可以调用子智能体（如旅行、餐馆、天气服务），每个子智能体返回自己的 UI 模块嵌入主界面。&lt;/p>
&lt;p>景观建筑师案例：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>一个用户（景观设计师）上传了一张自家庭院的照片，
智能体（由 Gemini 驱动）理解图片内容，
然后根据图片自动生成一个“定制化表单”，
用于填写景观设计需求，比如草坪、照明、水景等偏好。&lt;/p>
&lt;p>最终，AI 并不是给出一段文字建议，
而是自动生成了一个“完整的应用界面”——一个可交互的表单，里面有输入框、选择项、图片预览等。&lt;/p>
&lt;p>交互式图表和地图&lt;/p>
&lt;p>使用图表组件来回答数值汇总问题。然后代理选择 Google Map 组件来回答位置问题&lt;/p>
&lt;p>假设用户输入：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>“过去三个月的销售总额分别是多少？”&lt;/p>
&lt;p>Gemini 识别到：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>这是一个“数值汇总类问题”；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>用文字描述太笼统；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>最合适的回答方式是图表。&lt;/p>
&lt;p>接下来，用户又问：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>“这些销售来自哪些地区？”&lt;/p>
&lt;p>这个问题涉及“地理位置数据”，
最合适的可视化方式是地图（Map）。&lt;/p>
&lt;p>实际使用方式（以示例项目为例）&lt;/p>
&lt;p>Google 在仓库中提供了一个名为 Restaurant Finder Demo 的示例。
这个示例展示了从智能体生成 UI 到前端渲染的完整流程。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>后端（Agent）：Python 编写，负责生成 A2UI JSON。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>前端（Renderer）：使用 Lit（Web Components）渲染 UI。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>数据来源：Gemini 模型，通过 API 生成 UI。&lt;/p>
&lt;p>运行步骤：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">git clone https://github.com/google/A2UI.git
cd A2UI
export GEMINI_API_KEY=&amp;#34;your_api_key&amp;#34;
# 启动后端智能体
cd samples/agent/adk/restaurant_finder
uv run .
# 启动前端
cd ../../renderers/lit
npm install &amp;amp;&amp;amp; npm run build
cd ../../samples/client/lit/shell
npm install &amp;amp;&amp;amp; npm run dev
&lt;/code>&lt;/pre>&lt;p>浏览器中即可看到一个智能助手界面：
用户输入请求，AI 生成 JSON，前端实时渲染界面。&lt;/p>
&lt;p>总结&lt;/p>
&lt;p>A2UI 的核心思想是让 AI 用数据描述界面，而不是写代码。
它提供了一种安全、统一的方式，让智能体能够输出丰富的用户界面，并在不同平台上以原生方式渲染。&lt;/p>
&lt;p>它的价值体现在三个层面：
1.&lt;/p>
&lt;p>安全性：避免 LLM 输出可执行代码带来的安全风险。&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>通用性：跨框架、跨平台、跨语言的 UI 通信标准。&lt;/p>
&lt;ol start="3">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>动态性：让 UI 成为智能体交互的一部分，而不再是静态容器。&lt;/p>
&lt;p>GitHub：https://github.com/google/A2UI/&lt;/p>
&lt;p>官网：https://a2ui.org/&lt;/p>
&lt;p>教程：https://dev.to/copilotkit/a2ui-in-practice-build-agent-to-user-interfaces-using-a2a-ag-ui-3ng5&lt;/p>
&lt;p>官方介绍：https://developers.googleblog.com/introducing-a2ui-an-open-project-for-agent-driven-interfaces/&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/a2ui-ai-ui/27978119">A2UI：让 AI 能通过生成实时 UI 界面来回答用户问题&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>阿里巴巴发布 Photoshop 级别的图像分层模型：Qwen-Image-Layered</title><link>https://goodinfo.net/posts/opensource/%E9%98%BF%E9%87%8C%E5%B7%B4%E5%B7%B4%E5%8F%91%E5%B8%83-photoshop-%E7%BA%A7%E5%88%AB%E7%9A%84%E5%9B%BE%E5%83%8F%E5%88%86%E5%B1%82%E6%A8%A1%E5%9E%8Bqwen-image-layered-/</link><pubDate>Mon, 22 Dec 2025 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/%E9%98%BF%E9%87%8C%E5%B7%B4%E5%B7%B4%E5%8F%91%E5%B8%83-photoshop-%E7%BA%A7%E5%88%AB%E7%9A%84%E5%9B%BE%E5%83%8F%E5%88%86%E5%B1%82%E6%A8%A1%E5%9E%8Bqwen-image-layered-/</guid><description>阿里巴巴旗下 Qwen 团队推出的一款创新图像生成与编辑模型：Qwen-Image-Layered。 其核心创新点在于： > 将单张图像自动分解为多个独立的 RGBA 图层，从而赋予图像“内在可编辑性”（inherent editability）。 这种分层结构使得每个图像元素（如前</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>阿里巴巴旗下 Qwen 团队推出的一款创新图像生成与编辑模型：Qwen-Image-Layered。&lt;/p>
&lt;p>其核心创新点在于：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>将单张图像自动分解为多个独立的 RGBA 图层，从而赋予图像“内在可编辑性”（inherent editability）。&lt;/p>
&lt;p>这种分层结构使得每个图像元素（如前景人物、文字、背景等）可以被单独编辑，而不会影响其他部分，显著提升了编辑的灵活度与保真度。&lt;/p>
&lt;p>什么是 RGBA 图层？&lt;/p>
&lt;p>传统图像只有 3 个通道：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>R、G、B（红、绿、蓝）&lt;/p>
&lt;p>RGBA 则在此基础上增加了一个：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>A（Alpha）通道 —— 控制透明度。&lt;/p>
&lt;p>因此，**每个图层（Layer）**不仅包含颜色信息，还能保存“哪些区域透明，哪些可见”。&lt;/p>
&lt;p>通过堆叠这些图层（前层透明的地方让下面的层透出），即可重构出完整图像。&lt;/p>
&lt;p>这种方式使得：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>每个对象（人物、物体、文字、背景）都能被单独编辑；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>图层之间天然隔离，不会互相干扰；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>操作（移动、缩放、删除）都不会影响其他层。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>一句话解释：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>Qwen-Image-Layered 是一个可以“自动把图片拆成多层”的 AI 模型，让你像在 Photoshop 里一样编辑图片，但不需要自己动手抠图。&lt;/p>
&lt;p>我们平常看到的图片（比如一张女孩站在花园里的照片）其实是 所有元素叠在一起的平面图像。&lt;/p>
&lt;p>传统图片的问题是：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>改一个地方（比如换衣服、改文字）会影响整张图；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>删除东西容易留下痕迹；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>想重新组合不同元素很麻烦。&lt;/p>
&lt;p>而 Qwen-Image-Layered 就是为了解决这些问题。&lt;/p>
&lt;p>它能自动把一张图片拆成多个「图层」，比如：&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>每一层都是一个带透明通道的 RGBA 图像（RGB + Alpha 通道），就像 Photoshop 的图层那样，你可以单独调整、隐藏或移动。&lt;/p>
&lt;p>模型功能与应用示例&lt;/p>
&lt;p>由于各图层在物理上相互独立，分解完成后，编辑操作仅作用于目标图层，将其与其他内容物理隔离，从根本上确保了编辑的一致性。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;ol>
&lt;li>局部编辑（Localized Editing）&lt;/li>
&lt;/ol>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>重新着色（Recoloring）：调整单一图层的颜色属性；
你可以只改某个图层的颜色，比如给女孩的衣服换成蓝色，而背景、头发都不会被影响。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>对象替换（Object Replacement）：将某一图层中的目标替换为其他内容；
模型能让你直接把“女孩”这一层替换成“男孩”，其他图层仍保持原样。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>文字修改（Text Replacement）：独立修改图层中的文字元素；
如果图片里有字，比如 “Hello”，你可以只改文字图层，把它改成 “Qwen-Image”。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>物体删除（Object Removal）：直接移除某层并重新合成图像；
比如去掉背景中的路人、垃圾桶、广告牌等，删除后不会出现“糊”的地方。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>几何变换（Geometric Transformation）：对层内对象进行平移、缩放、旋转等操作而无失真。
普通图片放大一个元素会失真，而这里每个图层是独立的，所以缩放时不会损坏其他部分。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>自由移动：你可以在画布上拖动人物、物体到新位置，因为每个对象都在独立图层上。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;ol start="2">
&lt;li>可变层结构与递归分解（Variable &amp;amp; Recursive Layering）&lt;/li>
&lt;/ol>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>模型支持动态生成不同数量的层（例如3层、5层、8层等）；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>任意图层都可再输入模型进行二级分解（Recursive Decomposition），形成层级化结构（Layer Hierarchy）。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>📘 意义：
实现从宏观（前景/背景）到微观（人物细节、配饰等）的多层次理解。&lt;/p>
&lt;p>“可变层结构”是什么&lt;/p>
&lt;p>以前的图像分层或分割模型通常只能把图像固定地分成两层，比如：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>前景（foreground）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>背景（background）&lt;/p>
&lt;p>但现实世界中的图像往往更复杂，例如：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>一张包含背景风景、人物、衣服、手中物品、文字的图片，
如果只分两层，是不够细的。&lt;/p>
&lt;hr>
&lt;p>Qwen-Image-Layered 的改进&lt;/p>
&lt;p>这篇论文的模型不再固定层数，而是可以自动决定分几层，也就是说：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>模型会根据图像内容的复杂程度，自适应生成 N 个图层，
N 可以是 3、5、8……由模型自己决定。&lt;/p>
&lt;p>举例：&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>这样，每层都是独立的、可单独编辑的 RGBA 图像。
模型不需要你告诉它分几层，它会动态决定合适层数。&lt;/p>
&lt;p>“递归分解（Recursive Decomposition）”&lt;/p>
&lt;p>“递归（Recursive）”的意思是：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>模型可以对“分出来的某一层”，再次执行同样的分解操作。&lt;/p>
&lt;p>换句话说：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>不是只分一轮，而是可以“层中有层”。&lt;/p>
&lt;p>举个具体例子：&lt;/p>
&lt;p>假设模型第一次分解一张图片（图层 1–4）：&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>然后你对 Layer 2（人物层） 再执行一次分解，模型可以把这一层拆得更细：&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>如此，模型实现了层级化结构（Layer Hierarchy）：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">图像
├── 背景层
├── 人物层
│ ├── 头发层
│ ├── 衣服层
│ └── 鞋子层
├── 动物层
└── 文字层
&lt;/code>&lt;/pre>&lt;p>为什么要这样做？&lt;/p>
&lt;p>1️⃣ 现实图像是“多层次”的&lt;/p>
&lt;p>真实图像包含：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>语义层次（人、物体、背景）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>几何层次（前后遮挡）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>视觉层次（颜色、光照、透明度）&lt;/p>
&lt;p>一个平面的像素图无法同时表达这些关系。
分层 → 递归分层，正是模拟人类感知图像结构的方式。&lt;/p>
&lt;hr>
&lt;p>2️⃣ 递归分解提升了“可编辑性”&lt;/p>
&lt;p>如果你想修改人物的衣服颜色，就不需要改整个“人物层”；
递归分层后，直接操作“衣服子层”即可，
避免影响头发、皮肤、阴影等部分。&lt;/p>
&lt;p>这种层级式表示使得编辑可以精确到局部对象，而仍保持整体一致。&lt;/p>
&lt;hr>
&lt;p>3️⃣ 提高模型的语义理解与泛化能力&lt;/p>
&lt;p>在训练时，递归分层能让模型学习到：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>不同层之间的语义独立性；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>层级间的组合关系；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>层内部结构的细粒度表示。&lt;/p>
&lt;p>因此模型不仅能“拆图”，还能“理解图像组成逻辑”。&lt;/p>
&lt;p>它让 AI 从“平面图像生成者”变为“结构化图像理解者”。&lt;/p>
&lt;p>模型能在不同语义层次（从场景到局部）进行理解与编辑，实现真正的层次化视觉操作。&lt;/p>
&lt;hr>
&lt;p>模型的三大技术模块&lt;/p>
&lt;p>整套模型是由三个核心技术模块组成的：
🧩 RGBA-VAE
🧠 VLD-MMDiT
📈 Multi-Stage Training&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>1️⃣ RGBA-VAE —— 让模型理解“透明图层”&lt;/p>
&lt;p>🧩 它是干什么的？&lt;/p>
&lt;p>VAE（变分自编码器）是一个常见的图像压缩网络。
它能把图像压成“潜空间向量”（latent vector）再重建回来。
但以前的 VAE 只能处理 RGB 图像。&lt;/p>
&lt;p>Qwen 团队改进为 RGBA-VAE：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>支持四个通道（Red, Green, Blue, Alpha）；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>可以同时理解颜色 + 透明度；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>让模型知道“哪些区域属于物体，哪些是透明背景”。&lt;/p>
&lt;p>📘 直白理解：
普通模型只知道“有颜色的地方”，
RGBA-VAE 还能理解“空白的地方”。
所以它能学会“图层之间怎么叠在一起”。&lt;/p>
&lt;p>📊 实验结果：
RGBA-VAE 重建图像的质量显著提升，清晰度高、边缘自然。&lt;/p>
&lt;hr>
&lt;p>2️⃣ VLD-MMDiT —— 模型的大脑&lt;/p>
&lt;p>全称：Variable Layers Decomposition Multi-Modal Diffusion Transformer
（可变层分解的多模态扩散变换器）&lt;/p>
&lt;p>听起来复杂，但本质上它做三件事：&lt;/p>
&lt;hr>
&lt;p>（1）支持可变层数输出&lt;/p>
&lt;p>以往模型输出的层数是固定的（例如两层：前景+背景）。
而 Qwen 的模型可以根据图像复杂度自动决定要拆成几层。&lt;/p>
&lt;p>🧠 简单比喻：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>如果是一张简单肖像图，模型可能只分3层（背景 / 人物 / 文字）；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>如果是一张复杂的广告图，可能会分成8层（背景 / 人物 / 产品 / 反光 / 阴影 / 图标 / 文字 / 前景光效）。&lt;/p>
&lt;p>📘 这就叫做：可变层结构（Variable Layering）。&lt;/p>
&lt;hr>
&lt;p>（2）能处理图像与文字双输入（多模态）&lt;/p>
&lt;p>VLD-MMDiT 既能从图像分解出图层（I2L），
也能从文本直接生成图层（T2L）。&lt;/p>
&lt;p>🧩 例如：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>“一个女孩拿着花站在草地上”
模型会生成：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Layer1：背景草地&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Layer2：女孩&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Layer3：花&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Layer4：阳光反射&lt;/p>
&lt;p>这就是文字到多层图像生成（Text-to-Layers）。&lt;/p>
&lt;hr>
&lt;p>（3）让模型理解层与层的关系&lt;/p>
&lt;p>论文引入一个叫 Layer3D RoPE（三维相对位置编码） 的机制。&lt;/p>
&lt;p>📘 通俗解释：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>模型在看图层时，不仅知道“这个像素在图里哪儿”，
还知道“这个像素属于第几层（上面还是下面）”。&lt;/p>
&lt;p>这能让模型生成正确的层叠顺序（例如人物在背景前，阴影在地面上）。&lt;/p>
&lt;hr>
&lt;p>3️⃣ Multi-Stage Training —— 分阶段训练法&lt;/p>
&lt;p>直接教 AI “从图像拆出所有图层”太难了。
所以作者采用了一个循序渐进的训练过程，类似人类学习从简单到复杂：&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>📘 意思是：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>模型先学会“画出图层”，
再学会“理解别人画的图层”，
最后学会“自动分解图层”。&lt;/p>
&lt;p>这让模型训练更稳定，也避免直接分解带来的崩溃问题。&lt;/p>
&lt;p>数据构建：让模型真正“见过图层”&lt;/p>
&lt;p>他们从真实的 Photoshop PSD 文件 提取了带图层的数据：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>每个 PSD 文件包含多个对象层；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>自动过滤无效层；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>合并重叠层；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>用 Qwen2.5-VL 自动生成图像描述。&lt;/p>
&lt;p>这样，模型在训练时就能“看到”真实的图层结构，
学会真实世界中图层之间的组合关系。&lt;/p>
&lt;p>📊 数据覆盖：人物、产品、场景、文字、UI、广告等。&lt;/p>
&lt;p>潜在应用前景&lt;/p>
&lt;ol>
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>AI设计与绘图软件：
自动为图像生成可编辑图层，直接导入 Photoshop、Figma。&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>AIGC 内容创作：
生成图像后可精准微调，不再受“整体变化”限制。&lt;/p>
&lt;ol start="3">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>游戏与动画建模：
自动拆分角色、背景、特效层，便于动态渲染。&lt;/p>
&lt;ol start="4">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>智能修图与广告制作：
一键删除对象、替换文案或商品，无需重新渲染整张图。&lt;/p>
&lt;p>一些案例：&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>模型已开放至以下平台：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>GitHub&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Hugging Face&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>ModelScope&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>在线 Demo 亦已上线&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>技术报告：https://arxiv.org/pdf/2512.15603&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/photoshop-qwen-image-layered/27985708">阿里巴巴发布 Photoshop 级别的图像分层模型：Qwen-Image-Layered &lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>Google 推出 FunctionGemma 模型 能理解自然语言 并将其转换为操作各种设备的命令</title><link>https://goodinfo.net/posts/opensource/google-%E6%8E%A8%E5%87%BA-functiongemma-%E6%A8%A1%E5%9E%8B-%E8%83%BD%E7%90%86%E8%A7%A3%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80-%E5%B9%B6%E5%B0%86%E5%85%B6%E8%BD%AC%E6%8D%A2%E4%B8%BA%E6%93%8D%E4%BD%9C%E5%90%84%E7%A7%8D%E8%AE%BE%E5%A4%87%E7%9A%84%E5%91%BD%E4%BB%A4/</link><pubDate>Fri, 19 Dec 2025 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/google-%E6%8E%A8%E5%87%BA-functiongemma-%E6%A8%A1%E5%9E%8B-%E8%83%BD%E7%90%86%E8%A7%A3%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80-%E5%B9%B6%E5%B0%86%E5%85%B6%E8%BD%AC%E6%8D%A2%E4%B8%BA%E6%93%8D%E4%BD%9C%E5%90%84%E7%A7%8D%E8%AE%BE%E5%A4%87%E7%9A%84%E5%91%BD%E4%BB%A4/</guid><description>Google 推出了一个新的 AI 模型，叫做 FunctionGemma。 它是 Google 自家的 Gemma 3 270M 模型 的一个特别版本，专为函数调用（Function Calling）任务优化的语言模型。 基于 Gemma 3 270M 模型进行二次微调（fine-tuni</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>Google 推出了一个新的 AI 模型，叫做 FunctionGemma。&lt;/p>
&lt;p>它是 Google 自家的 Gemma 3 270M 模型 的一个特别版本，专为函数调用（Function Calling）任务优化的语言模型。&lt;/p>
&lt;p>基于 Gemma 3 270M 模型进行二次微调（fine-tuning）。&lt;/p>
&lt;p>其主要目标是：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>将自然语言转换为结构化、可执行的操作指令（如 API 调用或系统函数执行），
并能够在低功耗、离线设备（Edge Devices）上本地运行。&lt;/p>
&lt;p>它是能把你“说的话”自动转成“可执行动作”的小型 AI 模型，将你的语言转换成能在移动设备上执行的命令。&lt;/p>
&lt;p>比如：“播放我最常听的播放列表，并把空调调到 23 度。”&lt;/p>
&lt;p>它可以自动理解并操作各种智能设备。&lt;/p>
&lt;p>这一模型的推出，标志着 Google 从传统的“对话式语言模型”
向“可执行的智能代理（Action-oriented Agent）”方向过渡。&lt;/p>
&lt;p>为什么 Google 要做 FunctionGemma？&lt;/p>
&lt;p>现在很多 AI 模型（包括聊天机器人）都只是“语言理解器”，
能聊天、能回答，但不会执行命令。&lt;/p>
&lt;p>可未来的 AI 趋势，是从：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>“会说话” → “能做事”&lt;/p>
&lt;p>也就是所谓的 “Agent（智能代理）”。
比如，AI 不光能告诉你天气，还能自动帮你订机票、设置提醒、发送邮件。&lt;/p>
&lt;p>要实现这些功能，AI 模型必须：
1.&lt;/p>
&lt;p>理解自然语言（听懂你说什么）；&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>调用函数 / API（知道该执行什么命令）。&lt;/p>
&lt;p>而 FunctionGemma 就是为此设计的模型。&lt;/p>
&lt;p>FunctionGemma 是怎么工作的？&lt;/p>
&lt;p>你可以把它想成是一个“语言转命令引擎”。&lt;/p>
&lt;p>例子：&lt;/p>
&lt;p>你说：“帮我加个提醒，晚上8点喂猫。”&lt;/p>
&lt;p>→ 模型会：
1.&lt;/p>
&lt;p>分析语句的含义；&lt;/p>
&lt;ol start="2">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>生成对应的函数调用，比如：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">{
&amp;#34;function&amp;#34;: &amp;#34;create_reminder&amp;#34;,
&amp;#34;parameters&amp;#34;: {
&amp;#34;time&amp;#34;: &amp;#34;20:00&amp;#34;,
&amp;#34;content&amp;#34;: &amp;#34;喂猫&amp;#34;
}
}
&lt;/code>&lt;/pre>&lt;ol start="3">
&lt;li>&lt;/li>
&lt;/ol>
&lt;p>系统执行这个命令（比如通过手机的提醒功能）。&lt;/p>
&lt;p>它的特点&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>适用场景&lt;/p>
&lt;p>FunctionGemma 适用于以下类型的开发需求：&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>实际效果&lt;/p>
&lt;p>Google 做了一个测试集，叫 “Mobile Actions”（移动操作任务集）。&lt;/p>
&lt;p>模型要做的事情包括：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>创建日历事件&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>添加联系人&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>调整系统设置&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>启动手机功能（如手电筒）&lt;/p>
&lt;p>结果：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>原始模型（未微调）准确率：58%&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>微调后的 FunctionGemma 准确率：85%&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>也就是说，经过专门训练后，FunctionGemma 的理解与执行能力提升显著。&lt;/p>
&lt;p>可以在哪用？&lt;/p>
&lt;p>Google 给出了几个典型场景，帮助开发者理解用途。&lt;/p>
&lt;p>1️⃣ 手机本地助手（Mobile Actions）&lt;/p>
&lt;p>离线运行，不依赖网络。
用户通过自然语言发出系统命令，例如：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>“创建一个明天 12 点的会议。”&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>“添加联系人 John。”&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>“打开手电筒。”&lt;/p>
&lt;p>模型自动将这些语句解析为底层系统函数调用。
执行逻辑完全本地化，不依赖任何云端服务。&lt;/p>
&lt;p>这类应用展示了 FunctionGemma 在移动操作系统层级代理中的可行性，
尤其适合 Android、WearOS、车载设备等生态。&lt;/p>
&lt;p>2️⃣ 智能游戏（TinyGarden Demo）&lt;/p>
&lt;p>在一个小游戏中，玩家通过语音控制农场：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>“种向日葵在最上排”&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>“给它们浇水”&lt;/p>
&lt;p>模型会将语言转换为代码指令：&lt;/p>
&lt;pre tabindex="0">&lt;code class="language-None" data-lang="None">plantCrop(&amp;#34;sunflower&amp;#34;, row=&amp;#34;top&amp;#34;)
waterCrop(row=&amp;#34;top&amp;#34;)
&lt;/code>&lt;/pre>&lt;p>整个过程在手机本地执行，不经过任何服务器，无需联网。&lt;/p>
&lt;p>这验证了模型在“多步逻辑解析”与“函数参数分解”方面的能力。&lt;/p>
&lt;p>3️⃣ 本地 AI 实验（Physics Playground）&lt;/p>
&lt;p>一个基于 Transformers.js 的浏览器内物理模拟实验。
用户通过自然语言描述物理场景（如添加物体、设定重力方向），模型直接在前端执行命令。&lt;/p>
&lt;p>这展示了模型的轻量化与跨平台能力。&lt;/p>
&lt;p>玩家可以用语音控制物理模拟，比如：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>“让球从左往右滚动”&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>“添加一个木块”
运行完全在浏览器中，通过 FunctionGemma 和 Transformers.js 实现。&lt;/p>
&lt;p>下载：在 Hugging Face 或 Kaggle 上获取该模型。&lt;/p>
&lt;p>指南：https://ai.google.dev/gemma/docs/functiongemma&lt;/p>
&lt;p>官方介绍：https://blog.google/technology/developers/functiongemma/&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/google-functiongemma/27930315">Google 推出 FunctionGemma 模型 能理解自然语言 并将其转换为操作各种设备的命令&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item><item><title>Meta 推出「SAM Audio」：让声音也能“像图像一样被分割”的 AI 模型</title><link>https://goodinfo.net/posts/opensource/meta-%E6%8E%A8%E5%87%BAsam-audio%E8%AE%A9%E5%A3%B0%E9%9F%B3%E4%B9%9F%E8%83%BD%E5%83%8F%E5%9B%BE%E5%83%8F%E4%B8%80%E6%A0%B7%E8%A2%AB%E5%88%86%E5%89%B2%E7%9A%84-ai-%E6%A8%A1%E5%9E%8B/</link><pubDate>Wed, 17 Dec 2025 08:00:00 +0800</pubDate><author>goodinfo.net</author><guid>https://goodinfo.net/posts/opensource/meta-%E6%8E%A8%E5%87%BAsam-audio%E8%AE%A9%E5%A3%B0%E9%9F%B3%E4%B9%9F%E8%83%BD%E5%83%8F%E5%9B%BE%E5%83%8F%E4%B8%80%E6%A0%B7%E8%A2%AB%E5%88%86%E5%89%B2%E7%9A%84-ai-%E6%A8%A1%E5%9E%8B/</guid><description>SAM Audio 是 Meta 最新发布的 通用声音分离 AI 模型。 它可以理解并“分割”复杂音频中的任意声音元素，比如： - 🎸 一键提取歌曲中的吉他或人声； - 🚗 过滤户外视频的交通噪音； - 🐶 去除播客录音里的狗叫声。 这意味着 —— > “就像 Phot</description><content:encoded>&lt;h2 id="-正文">📰 正文&lt;/h2>
&lt;p>SAM Audio 是 Meta 最新发布的 通用声音分离 AI 模型。
它可以理解并“分割”复杂音频中的任意声音元素，比如：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🎸 一键提取歌曲中的吉他或人声；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🚗 过滤户外视频的交通噪音；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🐶 去除播客录音里的狗叫声。&lt;/p>
&lt;p>这意味着 ——&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>“就像 Photoshop 能抠图，SAM Audio 能‘抠声音’。”&lt;/p>
&lt;p>想象你拍了一段街头视频，背景有：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>人声 + 车声 + 风声 + 狗叫声 + 音乐&lt;/p>
&lt;p>现在，用 SAM Audio，只要告诉它：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>“只保留人说话的声音”，
或者点一下视频中说话的人，
AI 就能瞬间把那部分声音提取出来，干净到像魔法一样。✨&lt;/p>
&lt;p>不需要专业混音知识，也不必安装复杂软件。
它能像图像“抠图”那样“抠声音”——
真正让音频剪辑“像文字和图片一样简单”。&lt;/p>
&lt;p>SAM Audio 的三大技术创新&lt;/p>
&lt;p>AM Audio 属于 Meta 的 Segment Anything 系列（SAM Collection）。
这个系列最初从 图像分割（SAM for images） 开始，允许用户在图像上点击或输入文字即可分离出任意物体。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>而现在，Meta 将这一“可分割一切”的理念扩展到音频领域。&lt;/p>
&lt;p>SAM Audio 代表了该系列的 多模态延伸：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>视觉 + 听觉 + 文本 三种输入方式
→ 全面理解并操作多媒体内容。&lt;/p>
&lt;p>Meta 表示，SAM Audio 是首个统一的多模态声音分割模型，支持三种“提示方式（prompting）”，使声音编辑更加直观、精准：&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>可以组合使用，比如：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>“在 0:30–1:00 之间，提取女声。”&lt;/p>
&lt;p>这些提示方式可以单独使用，也可以任意组合，让创作者能够精准控制音频分离的细节。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Text prompting: Type “dog barking” or “singing voice” to extract specific sounds.
文本提示：输入&amp;quot;狗叫声&amp;quot;或&amp;quot;唱歌声&amp;quot;等文字来提取特定的声音。&lt;/p>
&lt;p>Visual prompting: Click on the person or object in the video that’s making a sound to isolate their audio.
视觉提示：点击视频中发出声音的人或物体来隔离其音频。&lt;/p>
&lt;p>Span prompting: An industry first, this method lets you mark time segments where target audio occurs.
跨度提示：这是行业首创的方法，让你可以标记目标音频出现的时间段。&lt;/p>
&lt;p>核心技术架构&lt;/p>
&lt;p>🧩 1. Perception Encoder Audiovisual (PE-AV) —— SAM Audio 的“大脑与耳朵”&lt;/p>
&lt;p>PE-AV 是 SAM Audio 的核心引擎，
基于 Meta 早前开源的 Perception Encoder 模型拓展而来。&lt;/p>
&lt;p>✳️ 功能：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>同时理解视觉帧与音频信号；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>建立“看见的画面”和“听到的声音”之间的时间对应；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>让模型在分离声音时知道“谁在发声、从哪里发出”。&lt;/p>
&lt;p>🧠 比喻：&lt;/p>
&lt;blockquote>
&lt;/blockquote>
&lt;p>PE-AV 就像 “耳朵 + 大脑”：它听见声音，同时看到是谁发出的声音。&lt;/p>
&lt;p>🧪 技术细节：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>使用 多模态对比学习 (Multimodal Contrastive Learning)；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>训练数据规模：超过 1 亿条视频；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>核心组件：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>PyTorchVideo（高效视频处理）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>FAISS（语义检索）&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>Transformer 主干网络&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>输出：时间对齐的语义特征（time-aligned semantic features），用于多模态分离任务。&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;hr>
&lt;p>🌀 2. 模型架构：基于生成式扩散变换器（Flow-Matching Diffusion Transformer）&lt;/p>
&lt;p>SAM Audio 使用一种生成式框架：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>将音频混合信号 + 提示信息编码为共享表征；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>再通过扩散生成机制输出：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🎯 目标音频轨（目标声源）；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🌀 残余音轨（背景或剩余声音）。&lt;/p>
&lt;p>此外，Meta 建立了一个庞大的数据引擎，
通过：&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>自动合成音频混合数据；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>自动生成文本与时间提示；&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>伪标签化（pseudo-labeling）；
来训练模型，以确保其在真实世界音频中具备强泛化能力。&lt;/p>
&lt;p>应用场景与潜在影响&lt;/p>
&lt;p>Meta 强调，SAM Audio 将改变音频与视频编辑的工作流程，适用范围极广：&lt;/p>
&lt;p>&lt;img alt="image" loading="lazy">&lt;/p>
&lt;p>“以前的音频分离工具往往针对单一场景（如人声消除），
SAM Audio 是第一个像人一样思考声音结构的 AI 模型。”&lt;/p>
&lt;p>如何体验与下载&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>🧪 在线体验：可在 Segment Anything Playground 平台上试用；
用户可选择 Meta 提供的音频/视频素材，或上传自己的文件进行测试。&lt;/p>
&lt;ul>
&lt;li>&lt;/li>
&lt;/ul>
&lt;p>💾 模型开放下载：SAM Audio 模型可供开发者和研究者自由下载使用。&lt;/p>
&lt;p>Meta 表示：“SAM Audio 是目前为止我们认为最强的音频分离模型。”&lt;/p>
&lt;p>详细介绍：https://ai.meta.com/blog/sam-audio/&lt;/p>
&lt;hr>
&lt;p>&lt;em>来源：&lt;a href="https://www.xiaohu.ai/p/meta-sam-audio-ai/27860136">Meta 推出「SAM Audio」：让声音也能“像图像一样被分割”的 AI 模型&lt;/a>&lt;/em>&lt;/p></content:encoded><category domain="category">opensource</category></item></channel></rss>