Opensource on 全球全景日报 | goodinfo.net

SuperCmd：一个开源的 macOS 启动器，想把 Raycast、语音输入、AI 全塞进一个框里

goodinfo.net — Sat, 11 Apr 2026 08:00:00 +0800

📰 正文

SuperCmd，一个开源的 macOS 启动器应用，可以理解为免费版 Raycast + Wispr Flow + Speechify + AI 助手的缝合体。

听起来野心很大，但思路其实很清晰：Mac 用户日常高频用的几个效率工具，能不能合成一个？

它能干什么

打开方式和 Raycast、Alfred 一样，快捷键呼出一个搜索框，然后从这个框里做所有事情。

基础启动器功能，搜索应用、搜索文件、快速打开，这些是标配就不多说了。值得单独讲的是下面几个：

无限剪贴板历史。每次复制的内容都会被记录下来，可以搜索、置顶、回溯粘贴。这个功能很多人单独装一个 app 来做（Paste、Maccy 之类的），SuperCmd 直接内置了。

Markdown 笔记和画布。启动器里直接写笔记，支持 Markdown 格式。还内置了 Excalidraw 画布，可以随手画个流程图或者草图。不用切到 Notion 或者 Obsidian，临时记个东西很方便。

文本片段展开。设一个缩写，打出来自动展开成完整文本。比如输入 ;addr 自动变成你的完整地址，输入 ;sig 变成邮件签名。写邮件、回消息的时候省很多重复打字。

窗口管理。用快捷键调整窗口大小和位置，不需要再装 Rectangle 或 Magnet。

语音输入是个亮点

SuperCmd 内置了基于 Whisper 的语音输入，体验类似 Wispr Flow：按住快捷键说话，松开就自动转成文字输入到当前光标位置。

它不是简单的语音转文字，会自动去掉嗯啊这些填充词，还会做一些语法修正。在任何 app 里都能用，不限于 SuperCmd 自己的界面。

另外还有反向功能，选中一段文字，让它用自然语音朗读出来，体验类似 Speechify。校对文章或者解放眼睛的时候挺实用。

AI 集成：带记忆的

AI 对话功能支持三个 provider：

OpenAI：填 API Key，用 GPT 系列

Anthropic：填 API Key，用 Claude

Ollama：连本地模型，完全离线，数据不出本机

有意思的是它集成了 Supermemory，AI 可以记住你之前告诉它的内容。比如你说"记住我的项目用的是 Next.js + Supabase"，下次问相关问题它会带上这个上下文。

语音合成方面，支持 Edge TTS（免费，不需要 Key）和 ElevenLabs（需要 Key，声音更自然）。

兼容 Raycast 扩展生态

这是 SuperCmd 最有野心的部分。它实现了一套 @raycast/api 的兼容层，可以直接安装和运行 Raycast 的扩展。

Raycast 的扩展商店里有几千个扩展，覆盖 GitHub、Slack、Notion、Spotify、1Password、Google Translate 等等。SuperCmd 想直接借用这个生态，而不是从零开始建自己的。

不过要说实话，这个兼容层目前还不完整。OAuth 认证、部分边缘 API 还在 TODO 状态，不是所有 Raycast 扩展都能完美运行。但核心的搜索类、工具类扩展已经可以用了。

技术栈和项目状态

用 Electron + React + TypeScript 做的，macOS 原生功能（快捷键、取色器、语音）用 Swift 写的原生模块桥接。

GitHub 上 309 star，4 个贡献者，245 个 commit，最新版本 1.0.14。项目还比较早期，但更新频率不低。有意思的是贡献者列表里有一个叫"Claude"的，看来开发过程本身也在大量用 AI。

开源，免费，代码全部公开。

适合谁

如果你现在在用 Raycast 免费版并且觉得够用了，SuperCmd 暂时不会给你更多东西。

但如果你符合下面几种情况，可以试试：

想要 Raycast Pro 的 AI 功能但不想每月付费，自己有 OpenAI / Anthropic 的 API Key

想要一个启动器 + 剪贴板管理 + 语音输入 + 窗口管理的一体化方案，不想装四五个 app

喜欢折腾开源工具，愿意接受一些粗糙换来完全的可定制性

对隐私敏感，想用 Ollama 跑本地模型，所有数据不出本机

已知的不足

直接说：

Electron 应用，内存占用比原生 app 高

Raycast 扩展兼容层不完整，部分扩展会报错

只支持 macOS，没有 Windows 和 Linux 版本

项目早期，UI 细节和稳定性还有打磨空间

文档不算完善，有些功能需要自己摸索

怎么装

直接去 GitHub Releases 下载 dmg 安装：

Apple Silicon Mac：https://github.com/SuperCmdLabs/SuperCmd/releases/download/1.0.14/SuperCmd-1.0.14-arm64.dmg

Intel Mac：https://github.com/SuperCmdLabs/SuperCmd/releases/download/1.0.14/SuperCmd-1.0.14.dmg

或者从源码编译：

git clone https://github.com/SuperCmdLabs/SuperCmd.git
cd SuperCmd
npm install
npm run dev

官网：https://supercmd.sh

GitHub：https://github.com/SuperCmdLabs/SuperCmd

Discord：https://discord.gg/CsdbknHqx5

来源：SuperCmd：一个开源的 macOS 启动器，想把 Raycast、语音输入、AI 全塞进一个框里

微软 MarkItDown：一行命令把 PDF、Word、PPT、音频、YouTube 全转成干净 Markdown

goodinfo.net — Thu, 09 Apr 2026 08:00:00 +0800

📰 正文

微软开源了一个 Python 工具叫 MarkItDown，干一件事：把各种格式的文件转成 LLM 能直接用的 Markdown。

PDF、Word、Excel、PowerPoint、HTML、图片、音频、YouTube 链接、JSON、XML、ZIP 压缩包，基本上你能想到的格式它都支持。

一个 pip install 搞定，命令行或 Python API 都能用。

为什么需要这个

做 RAG 管线或者给 LLM 喂文档的人都知道，最头疼的不是模型，是数据预处理。

PDF 的表格解析错乱，Word 的样式被吃掉，PPT 的布局信息全丢，Excel 变成一堆逗号分隔的数字。每种格式要写一个解析器，写完还得维护，换个格式又得重来。

MarkItDown 把这一层全抹平了。不管输入什么格式，输出都是结构清晰的 Markdown：标题、列表、表格、链接、代码块全部保留。

支持哪些格式

图片描述和音频转写需要接 LLM（支持 OpenAI API 格式），不接也能用，只是跳过这些功能。

怎么用

安装：

pip install 'markitdown[all]'

也可以只装需要的格式：pip install ‘markitdown[pdf,docx,pptx]’

命令行：

markitdown report.pdf > report.md
markitdown slides.pptx -o slides.md
cat document.pdf | markitdown

Python API：

from markitdown import MarkItDown
md = MarkItDown()
result = md.convert("quarterly-report.xlsx")
print(result.text_content)

如果要让图片生成描述文字：

from markitdown import MarkItDown
from openai import OpenAI
client = OpenAI()
md = MarkItDown(llm_client=client, llm_model="gpt-4o")
result = md.convert("photo.jpg")

两个值得关注的能力

MCP Server

MarkItDown 现在有官方的 MCP（Model Context Protocol）服务器，可以直接接入 Claude Desktop 等支持 MCP 的 AI 客户端。

实际效果是：你在跟 Claude 对话的时候，可以直接让它读取并转换本地文件，不用提前手动处理。对话流程不中断，文件转换在后台自动完成。

插件系统

0.1.0 版本引入了第三方插件支持。比如 markitdown-ocr 插件，给 PDF、Word、PPT、Excel 里的嵌入图片加上 OCR 能力，用 LLM Vision 提取图片中的文字。

社区可以自己开发新格式的转换器，不需要改源代码。在 GitHub 上搜 #markitdown-plugin 就能找到已有的插件。

已知限制

不回避几个短板：

PDF 如果是扫描件且没有 OCR 层，提取不出文字

PDF 转换时会丢失标题、列表等文本格式，全变成纯文本

图片内容描述需要外接 LLM 客户端，不能开箱即用

本质上是对 mammoth、pandas 等现有库的封装，不是从零写的转换引擎

对于 RAG 管道和批量文档处理的场景已经够用了。如果追求高保真的文档还原（比如保留排版给人看），这不是它的设计目标。

适合谁

做 RAG 系统，需要批量把企业文档灌进向量数据库的开发者

用 Claude Code 或其他 AI 编程工具，需要快速读取各种格式文件的人

搭 AI Agent，需要让 Agent 自主处理文档的场景

GitHub：https://github.com/microsoft/markitdown

来源：微软 MarkItDown：一行命令把 PDF、Word、PPT、音频、YouTube 全转成干净 Markdown

NVIDIA PersonaPlex：全双工语音对话模型，第一次能自定义声音和角色了

goodinfo.net — Tue, 07 Apr 2026 08:00:00 +0800

📰 正文

NVIDIA PersonaPlex 是 NVIDIA ADLR 团队开源的 7B 全双工语音对话模型，能一边听一边说，同时支持通过文本提示词切换角色、通过语音样本切换声音。

之前的全双工模型（比如 Moshi）对话很自然，但声音和角色是训练时写死的，部署后改不了。传统级联方案（ASR→LLM→TTS）声音可定制，但延迟高，不能打断，对话节奏像在跟答录机说话。PersonaPlex 是第一个把两边的优势合到一起的模型：对话自然度不输 Moshi，同时角色和声音都是运行时可配置的。

论文已被 ICASSP 2026 接收，代码和模型权重均已开源，可商用。

核心能力

全双工对话

模型同时处理输入和输出音频流，不需要等用户说完话才开始回应。

支持自然轮转、用户打断、backchannel（“嗯嗯”、“好的”、“对"这类回应词）。轮转延迟 170ms。

在 FullDuplexBench 的打断测试中，用户中途打断 PersonaPlex 的回答，模型能在 240ms 内停下来并切换到听的状态。

文本提示词定义角色

用自然语言告诉模型它是谁、要做什么、有什么背景信息。

模型会在整个对话过程中维持这个角色设定。

给模型的提示词是：“你是 First Neuron Bank 的客服，名字叫 Sanni Virtanen。客户有一笔 $1,200 的 Home Depot 交易被拒绝了，原因是交易地点异常（客户常在西雅图交易，这笔交易发生在迈阿密）。请先核实客户身份。” 模型会按照这个设定完成整通客服电话，包括身份核实、原因解释和后续处理建议。

给模型一个完全超出训练分布的提示词：“你是火星任务的宇航员 Alex，反应堆正在熔毁，多个舰载系统正在失效。” 模型能使用正确的技术术语，语气带有与紧急场景匹配的压迫感，并且全程维持角色一致性。训练数据里没有太空场景，这个泛化能力来自基座语言模型 Helium。

语音提示定义声音

通过一段音频嵌入来设定声音特征，包括音色、语速和韵律风格。模型预置了 16 种声音：

Natural（更自然、更适合对话）：男女各 4 种

Variety（风格更多样）：男女各 5 种

也可以用自定义语音样本做声音条件化。

自然 backchannel

模型在用户说话的过程中会发出上下文相关的回应词，比如"oh okay”、“yeah”、“yeah, I think they do”，内容和语气跟对话上下文匹配，不打断用户的表达流。

这跟简单的随机插入不一样，backchannel 的时机和内容是模型根据语义理解实时生成的。

架构

基于 Kyutai 的 Moshi 架构，7B 参数：

Mimi 语音编解码器（ConvNet + Transformer）：音频和 token 之间的双向转换，24kHz 采样率

Temporal Transformer + Depth Transformer：处理对话流

Helium 基座语言模型：提供语义理解和超出训练分布的泛化能力

双流配置让模型同时维护一个"听"的音频流和一个"说"的音频流，不需要等一个结束再开始另一个。

两个输入通道（语音提示 + 文本提示）在模型内部联合处理，生成统一的角色表征。

训练数据

核心设计思路：真实对话教模型"怎么说话"（自然度），合成对话教模型"说什么"（任务执行），两类数据通过共享的提示格式做桥接。总训练数据不到 5,000 小时，基于 Moshi 预训练权重微调。

评测

测试基准是 FullDuplexBench，评估对话动态、延迟和任务遵循。团队还扩展了一个 ServiceDuplexBench 专门测客服场景，计划后续开源。

对话动态（成功率 %，越高越好）

对话动态测的是模型在轮转、打断、停顿这三种场景下的行为是否合理。Moshi 打断处理满分，但停顿处理只有 1.8%，几乎不会在该停下来的时候停，会一直说。PersonaPlex 三项更均衡。

延迟（秒，越低越好）

轮转延迟 170ms，打断响应 240ms。

任务遵循（GPT-4o 评分，满分 5）

任务遵循测的是模型回答是否准确、是否按照角色设定执行。Moshi 只有 0.77/1.75，对应"自然但不可控"的局限。Gemini Live 客服场景最高（4.73）但通用场景偏低（3.38），Qwen 2.5 Omni 反过来。PersonaPlex 是唯一两个子项都在 4.29 以上的。

已知限制

训练数据全部为英语（Fisher English Corpus + 英语合成对话），未提及多语言支持

Qwen 2.5 Omni 的评测使用了 Freeze Omni 的 VAD（语音活动检测），因为 Qwen 原版没有提供

停顿处理成功率（60.6%）相比打断和轮转还有差距

ServiceDuplexBench 基准尚未开源

获取方式

代码：github.com/NVIDIA/personaplex，MIT 许可证

模型权重：huggingface.co/nvidia/personaplex-7b-v1，NVIDIA Open Model License，需接受许可协议后下载

基座模型 Moshi：CC-BY-4.0（Kyutai）

可商用

本地部署需要 NVIDIA GPU，建议 16GB+ 显存，支持 –cpu-offload 模式

启动后通过浏览器访问 Web UI 进行对话

原文链接：research.nvidia.com/labs/adlr/personaplex

来源：NVIDIA PersonaPlex：全双工语音对话模型，第一次能自定义声音和角色了

Agent Skills技能包：19 个工程技能让 AI 编程 Agent 按高级工程师标准干活

goodinfo.net — Mon, 06 Apr 2026 08:00:00 +0800

📰 正文

Google Chrome 团队工程负责人 Addy Osmani 开源了一套叫 Agent Skills 的技能包，专门解决 AI 编程 Agent 的一个通病：它们默认走最短路径，跳过规范、跳过测试、跳过安全审查，代码写完就算完事。

Agent Skills 把 Google 内部的工程实践（来自《Software Engineering at Google》和 Google 工程实践指南）打包成 19 个结构化技能，覆盖从想法到上线的完整开发流程。

安装之后，Agent 不再是"能写代码"，而是"按高级工程师的标准写代码"。

MIT 协议，纯 Markdown 格式，适配 Claude Code、Cursor、Windsurf、GitHub Copilot 等几乎所有主流编程 Agent。

六个阶段，七个命令

整套技能围绕软件开发的六个阶段组织，每个阶段对应一个斜杠命令：

DEFINE → PLAN → BUILD → VERIFY → REVIEW → SHIP
/spec /plan /build /test /review /ship

加上一个 /code-simplify 做代码简化，一共七个命令。你不用记 19 个技能各叫什么，敲命令就行，对应的技能会自动激活。写 API 时 api-and-interface-design 自动加载，写前端时 frontend-ui-engineering 自动触发。

19 个技能都覆盖了什么

每个技能不是一段笼统的提示词，是一套完整的工作流程：有步骤、有检查点、有退出标准。

最有意思的设计：反借口表

每个技能里都有一张 “Anti-Rationalization Table”，列出了 AI Agent 常用的偷懒借口和对应的反驳。比如：

Agent 说：“测试以后再补。” 技能反驳：“不行，Red-Green-Refactor，先写测试再写代码。”

Agent 说：“这个改动很小，不用走 review。” 技能反驳：“100 行以内也要过五轴审查。”

这个设计抓住了 AI Agent 最大的问题：它们不是不会写测试，是会给自己找理由不写。光说"要写测试"没用，得把每种借口的反驳也写进去。

验证是硬性要求

每个技能最后都有 Evidence Requirements，不是"看起来对了"就行，得有实际证据：测试全绿、构建产物、运行时数据。没有证据，技能流程就没完成。

除了技能本身，还有什么

3 个预配置 Agent 角色：

code-reviewer：Staff Engineer 视角做代码审查，标准是"一个 Staff Engineer 会不会批准这个 PR"

test-engineer：QA 视角检查测试策略和覆盖率

security-auditor：安全工程师视角做漏洞检测和威胁建模

配合4 个参考检查清单（测试模式、安全检查、性能检查、无障碍检查），覆盖了审查阶段最常见的盲区。

7 个斜杠命令（Claude Code 专属）

Hooks 系统（Claude Code 专属）。session-start 在会话开始时自动加载技能路由；simplify-ignore 允许用注释标记不希望 Agent 碰的代码块（比如手工优化过的性能关键代码），Agent 简化代码时这些块会被替换成占位符，会话结束后恢复。

怎么用

最快的方式是通过 skills.sh CLI 一键安装全部 19 个技能：

npx skills add addyosmani/agent-skills

也可以只装某个特定技能：

npx skills add https://github.com/addyosmani/agent-skills --skill code-review-and-quality

Claude Code 有原生插件支持：

claude plugin add agent-skills

Cursor 用户把 SKILL.md 文件复制到 .cursor/rules/ 目录即可。GitHub Copilot 用户把 Agent 角色文件放到 .github/agents/ 目录，在 Copilot Chat 里用 @code-reviewer 调用。

因为所有内容都是纯 Markdown，任何接受文本指令的 Agent 都能用，包括 OpenCode、Codex、Gemini CLI、Cline 等 40 多个兼容工具。

官方建议一次加载 2-4 个技能，不要全部加载。仓库里有一个 meta-skill 叫 using-agent-skills，功能是根据当前任务类型自动路由到对应技能，适合作为起点。

兼容哪些工具

Claude Code 和 Gemini CLI 支持最好，一行命令安装。Cursor 和 Windsurf 需要手动复制文件。

跟自己写 CLAUDE.md 规则有什么区别

很多人已经在 CLAUDE.md 里写了自己的规则，Agent Skills 的区别在于：

结构化程度不同。自己写的规则通常是"要做什么"的清单，Agent Skills 是完整的工作流程，有步骤顺序、有检查门禁、有退出条件。Agent 不是"知道应该写测试"，而是"在这个步骤必须写测试，不写不能进入下一步"。
反借口机制。自己写的规则说"不要跳过测试"，Agent 换个说法就绕过了。Agent Skills 把各种绕过的说法和反驳都列出来了。
Google 工程文化沉淀。 Hyrum’s Law 在 API 设计里、Beyonce Rule 在测试里、Chesterton’s Fence 在代码简化里、Shift Left 在 CI/CD 里。这些不是抽象原则，直接嵌入了每个步骤。

需要知道的几件事

19 个技能全部安装会占用不少上下文窗口。技能设计了渐进加载（只在触发时加载），但复杂项目同时激活多个技能时，token 消耗会明显上升

技能面向生产级代码设计。如果你在快速原型阶段，每次写代码都跑完整规范和测试流程可能太重

目前 76 个 commit，还在快速迭代。部分技能的流程可能会调整

如果你已有自己的 CLAUDE.md 规则，需要注意冲突。技能可以单独安装，不必全装

👉 GitHub 仓库 | webreactiva: 19 Skills 详解

来源：Agent Skills技能包：19 个工程技能让 AI 编程 Agent 按高级工程师标准干活

Obsidian Mind：给 Claude Code 装一个不会失忆的大脑

goodinfo.net — Mon, 06 Apr 2026 08:00:00 +0800

📰 正文

Obsidian Mind，一个开源的 Obsidian 库模板，给 Claude Code 用户设计的跨会话记忆系统。

Claude Code 有个根本问题：每次关了再开，它什么都不记得。你昨天跟它聊的架构决策、定下的目标、踩过的坑，新会话里全部从零开始。

Claude Code 自带的 memory 能存一些偏好，但容量有限，也不支持结构化的知识管理。

Obsidian Mind 的解决办法是用 Obsidian 笔记库当 Claude Code 的外部大脑。你的目标、决策、工作记录、踩过的坑、记住的模式，全部以 Markdown 笔记的形式存在 Obsidian 里。每次 Claude Code 启动，自动加载这些上下文；每次会话结束，自动把新学到的东西写回去。笔记库就是记忆，记忆跟着库走。

核心思路：用 Obsidian 的结构给 AI 做记忆

记忆怎么运作

模板的记忆机制分三层。

自动加载。一个 SessionStart Hook 在每次启动 Claude Code 时自动把库的文件列表注入上下文，Claude 一开始就知道库里有什么。然后 CLAUDE.md 里定义的启动流程会让 Claude 依次读取：Home.md（vault 入口和仪表盘）→ North Star（你的目标和关注点）→ Index（活跃项目）→ Memories（跨会话记忆索引）→ 待办任务。不用你每次手动交代背景。

自动写回。每次会话结束时（你说"wrap up"就行），Claude 自动执行收尾流程：把新的关键决策写入 Key Decisions、新发现的模式写入 Patterns、踩的坑写入 Gotchas、有价值的成果登记到 Brag Doc、更新索引。会话里产生的知识不会随着对话窗口关闭而消失。

链接聚合。所有笔记通过 Obsidian 的 wikilink 互相关联。规则是每条笔记至少链接到一条已有笔记，没有链接的笔记被视为 bug。随着笔记越来越多，知识之间的关联自动在链接图谱里积累。Claude 可以通过反向链接发现"哪些工作笔记跟这个决策相关"“这个模式在哪些项目里出现过”。

记忆存在哪里

模板把不同类型的知识放在不同文件夹里，Claude 按需读取。

Claude Code 自带的 memory（~/.claude/）和 vault 记忆分工明确：前者存会话级偏好（比如代码风格、常用命令），后者存需要结构化管理和链接浏览的深度知识。

在记忆之上能做什么

有了持久记忆，一些之前做不了的事变得可行了。

绩效追踪。工作笔记完成后关联到能力项，Brag Doc 按季度聚合成果。到评审季用 /review-brief 命令从积累的记录里自动生成评审简报。日常记录和绩效输出是同一套数据，不用另外整理。

决策回溯。所有架构决策都记录在案，三个月后想知道"当初为什么选了方案 A 而不是方案 B"，直接查 Key Decisions，不用翻聊天记录。

团队知识管理。人员笔记记录每个同事的角色、合作历史、关键时刻。1:1 会议笔记自动提取行动项。组织变动时更新 People & Context 索引。

事故复盘。/incident-capture 命令从 Slack 提取事故信息，结构化写入 vault。根因分析、时间线、影响范围都有固定格式，方便以后回查类似问题。

还有什么

预装了 kepano（Obsidian CEO）的官方 obsidian-skills，包括 Obsidian Markdown 语法、CLI 命令、Canvas 画布和 Bases 数据库视图。

8 个自定义斜杠命令：

怎么开始

克隆仓库或用 GitHub Template 创建

用 Obsidian 打开文件夹

启用 Obsidian CLI（设置 → 核心插件，需要 Obsidian 1.12+）

在 vault 目录下运行 claude

填写 brain/North Star.md，写入当前目标

需要 Obsidian 1.12+、Claude Code 和 Git。

可选装 QMD 做语义搜索（npm install -g @tobilu/qmd），不装也能用，Claude 会降级到 Obsidian CLI 和 grep。

如果你已经有自己的 Obsidian 笔记库，/vault-upgrade ~/my-old-vault 可以把旧内容迁移过来，Claude 会自动分类每个笔记，把工作记录、人物、事故、1:1、决策归到正确的目录。

需要知道的几件事

需要 Obsidian 1.12+、Claude Code、Python 3、Git，缺一不可

整套设计面向工程师工作流（项目管理、代码开发、绩效复盘），非技术岗需要自己改造目录结构和命令

Slack 相关命令（incident-capture、slack-scan）需要你自己配 Slack 接入

笔记库会通过 Git 管理，意味着你的工作笔记会在 Git 仓库里，注意敏感信息

目前 41 个 commit，项目还在快速迭代中

👉 GitHub 仓库

来源：Obsidian Mind：给 Claude Code 装一个不会失忆的大脑

小米开源多语言 TTS 模型 OmniVoice：0.8B 小模型，600+ 语言零样本语音克隆

goodinfo.net — Sat, 04 Apr 2026 08:00:00 +0800

📰 正文

语音克隆领域又冒出一个狠角色。

OmniVoice 是一个开源的零样本多语言 TTS 模型，来自小米 k2-fsa 团队。

0.8B 参数的小模型

支持 600 多种语言的语音克隆

推理速度是实时的 40 倍

训练数据和过程全部公开

646 种语言、58.1 万小时训练数据，官方声称是目前语言覆盖最广的开源 TTS 项目。中文、英文、日文、阿拉伯文、斯瓦希里语、卢奥语……Demo 页面列了 102 种语言的对比样本，基本是目前同类开源项目里没见过的量级。

几个细节让人印象挺深的：耳语和 ASMR 效果做得相当好，零样本克隆在方言和多语言场景下也很稳。

三个核心能力

① 语音克隆：给一段参考音频就行

零样本语音克隆，不需要微调，不需要训练数据。给模型一段参考音频，它就能用这个声音说任何内容。

你录一段 10 秒的语音，模型就能用你的声音生成任意文本的朗读。方言、口音、语调特征都能保留。

适用场景：有声书、虚拟主播、配音本地化，任何需要复刻特定声音的情况。

② 语音设计：用文字控制声音特征

除了克隆已有声音，OmniVoice 还支持"语音设计"模式：通过文字描述来定义声音的特征。

你可以指定性别、年龄、音高、方言/口音，甚至是耳语模式。不需要参考音频，直接用属性组合出你想要的声音。

同类别只能选一个，不同类别可以自由组合。比如 “male, elderly, low pitch, British accent” 这样的描述直接出音频。模型自动识别 instruct 语种，中英混写也行。

这对需要批量生成不同角色声音的场景很实用，比如有声书、游戏配音。

③ 推理速度：RTF 0.025

推理速度 RTF 0.025，生成 40 秒音频只需约 1 秒，比实时快 40 倍。论文在 H20 GPU 上测试，16 步推理 batch size 1 的情况下 RTF 为 0.0319，同配置下比 ZipVoice（0.0557）更快。

对比一下：大部分同类模型的 RTF 在 0.1 到 0.5 之间，OmniVoice 快了一个量级。这个速度跑批量任务基本不用等。

底层架构是 Diffusion Language Model，这是一个比较新的方向，兼顾了生成质量和速度。

其它特性

副语言与发音精细控制

非语言表达标签

直接在合成文本里插入标签触发非语言音效：

python

audio = model.generate(text="[laughter] You really got me. I didn't see that coming.")

目前支持的标签完整列表：[laughter]、[sigh]、[sniff]、[confirmation-en]、[question-en]、[question-ah/oh/ei/yi]、[surprise-ah/oh/wa/yo]、[dissatisfaction-hnn]，共 13 个。

发音纠错

中文用拼音带声调数字，可以纠正多音字：

python

audio = model.generate(text="这批货物打ZHE2出售后他严重SHE2本了，再也经不起ZHE1腾了。")

英文用 CMU 音素词典（大写，括号内），覆盖默认发音之外的读法。

多说话人对话

用 [Speaker_N]: 标签分配不同说话人，一次性生成多人对话音频，每个 Speaker 可以指定不同的参考音频或声音设计属性。

跨语言克隆

用某种语言的参考音频，生成另一种语言的语音，声线特征保持一致。比如用中文录音做 prompt，生成日语输出，说话人特征不丢失。

噪声鲁棒性

参考音频质量不理想时（有背景噪音、录音条件差），模型仍能稳定提取声线特征。论文验证了 prompt denoising 的效果：开启后 UTMOS 从 4.23 提升至 4.32（合成语音更干净），声音相似度 SIM-o 略降（0.697 → 0.668），符合设计预期，模型生成的是干净版本，而不是复刻噪音。

架构：绕开两段式流水线

现有的离散 NAR TTS 模型普遍走「文本→语义 token→声学 token」的两段式路子，中间多一层语义编解码器，结构复杂、误差容易叠加。

OmniVoice 直接把文本映射到多码本声学 token，省掉了语义层这一跳。能做到这一点，靠两个关键设计：

全码本随机掩码（Full-Codebook Random Masking）

训练时对所有码本的 token 做随机 mask，让模型同时学多个码本的重建，效率和效果都比分阶段训练好。

预训练 LLM 初始化

直接用预训练语言模型的权重初始化解码器，把语言模型积累的语言理解能力迁移进来，大幅提升合成语音的可懂度，在低资源语言上尤其明显。

整体是扩散语言模型（Diffusion Language Model）风格的非自回归架构，生成速度比自回归模型快，质量上对标当前 SOTA。

获取方式

在线试用： HuggingFace Space 有网页 demo，直接上传参考音频就能试。

本地部署：

# 方式一：pip
pip install omnivoice
# 方式二：uv
uv pip install omnivoice

支持 NVIDIA GPU 和 Apple Silicon，两行命令就能跑。

Demo 页面： zhu-han.github.io/omnivoice 有预生成的音频样本可以试听。

已知局限

0.8B 小模型在复杂场景下质量不如大模型，长文本朗读可能出现节奏问题

600+ 语言覆盖广但质量参差不齐，主流语言效果好，小语种需自己测

项目比较新（GitHub 仅 5 次 commit），还在快速迭代中，API 可能变动

训练数据和过程公开，但论文中的具体训练细节需看 arXiv 原文

开源，Apache-2.0 许可证，可商用。GitHub 1.2k star。

👉 GitHub 仓库 | HuggingFace | arXiv 论文 | Demo

来源：小米开源多语言 TTS 模型 OmniVoice：0.8B 小模型，600+ 语言零样本语音克隆

OpenAI 发布了一个插件把 Codex 塞进了 Claude Code：竞争对手的代码审查员，现在随叫随到

goodinfo.net — Tue, 31 Mar 2026 08:00:00 +0800

📰 正文

OpenAI 官方发布了一个 Claude Code 插件 codex-plugin-cc，让你在 Claude Code 里直接调用 Codex 做代码审查、对抗性审查，甚至把整个任务丢给 Codex 接管。

这件事有意思的地方不在插件本身，在于谁做的：OpenAI，主动把自己的工具送进了 Anthropic 的地盘。

Claude Code 有自己的插件生态，OpenAI 这次以官方身份入场，等于说"你用 Claude 写代码没问题，但让 Codex 帮你再看一眼"。

能干什么：三个核心命令

① /codex:review 标准代码审查

最基础的用法。跑一遍你当前的未提交改动，或者指定一个分支做 diff 对比审查。只读，不改代码，审完给你一份报告。

/codex:review --base main

效果和在 Codex 里直接跑 /review 一样，审查质量不打折。好处是你不用切窗口，在 Claude Code 的对话流里就能拿到第二个 AI 的意见。

② /codex:adversarial-review 对抗性审查

这个比普通审查狠。它不是帮你找 bug，是专门挑战你的设计决策，试图把你代码里的隐藏假设翻出来。

/codex:adversarial-review --base main "重点看权限校验逻辑"

你在做数据库迁移、改鉴权逻辑、写基础设施脚本这类高风险操作时，Claude 写完你不放心，让 Codex 以"找茬"的视角再过一遍。两个 AI 从不同角度看同一段代码，比一个 AI 自己审自己靠谱得多。

同样是只读，不动你的代码。你可以加 –background 让它后台跑，回头用 /codex:status 看进度。

③ /codex:rescue 任务移交

Claude 写代码写到一半卡住了，或者你觉得这个任务换个 AI 来可能更合适，直接把活交给 Codex：

/codex:rescue "排查这个内存泄漏问题"

Codex 会启动一个独立的子 Agent 来接手。支持 –resume 继续上次的进度，也支持 –fresh 从头来过。任务完成后用 /codex:result 拿结果，还能拿到 Codex 的 session ID，方便你后续直接在 Codex 里继续跟进。

技术架构：没有额外运行时

插件不是一个独立的服务。它通过你本地已经装好的 Codex CLI 和 app server 做中转，复用你现有的认证、配置、环境变量、MCP 设置。

换句话说，如果你的 Codex 已经配好了（模型选择、推理强度、工具权限），插件直接继承这些配置，不用重新设一遍。

你也可以在项目级别或用户级别的 config.toml 里调默认参数：

model = "gpt-5.4-mini"
model_reasoning_effort = "xhigh"

五步安装

# 1. 添加插件市场
/plugin marketplace add openai/codex-plugin-cc
# 2. 安装插件
/plugin install codex@openai-codex
# 3. 重载插件
/reload-plugins
# 4. 运行安装检查
/codex:setup
# 5. 如果没登录过 Codex，认证一下
!codex login

/codex:setup 会自动检测你有没有装 Codex CLI，没装的话会提示全局安装。

前提条件

ChatGPT 订阅（免费版也行）或 OpenAI API key

Node.js 18.18 或更高版本

Codex 的用量会计入你的 ChatGPT/API 额度

Review Gate：好用但危险的自动门控

插件有一个可选功能叫 Review Gate。开启后，Claude Code 每次执行完操作，会自动触发一次 Codex 审查。如果 Codex 发现问题，Claude 会被阻止退出，必须先处理审查意见。

听起来很美：写完代码自动审查，有问题自动修。

但 VB Srivastav（插件作者）自己提醒了：这可能导致 Claude 和 Codex 互相触发，形成循环。Claude 改了代码触发 Codex 审查，Codex 提了意见 Claude 又改，改完又触发审查… 额度会被快速消耗。

建议：只在你盯着屏幕的时候开 Review Gate，别开着就去泡茶。

更大的背景：Codex 插件生态

codex-plugin-cc 不是一个孤立的动作。OpenAI 同期给 Codex 上线了完整的插件系统，包括：

Skills：自动化工作流，可以把自然语言指令和脚本打包成可复用的技能

MCP 集成：通过 Model Context Protocol 连接外部服务

配置同步：团队成员之间共享 Codex 配置，避免代码风格不一致

插件目录里已经有十几个预置集成，能编辑 Google Drive 文件、审查 GitHub 仓库变更等。Anthropic 大约五个月前给 Claude Code 做了类似的生态（子 Agent、第三方工具接入），OpenAI 这次算是正面跟上了。

codex-plugin-cc 这步棋很巧妙：把 Codex 变成 Claude Code 用户工作流里的一部分。你继续用 Claude Code 写代码，审查和兜底交给 Codex。用着用着，Codex 的存在感就建立起来了。

已知限制

多文件变更的审查可能比较慢，建议用 –background 后台运行

Review Gate 有额度消耗失控风险，需要人工监控

插件依赖本地 Codex CLI，不是云端服务，你的机器需要保持运行

目前只能从 Claude Code 调 Codex，反过来不行

获取方式

GitHub 仓库已开源，按上面五步安装即可。不需要额外申请，有 ChatGPT 账号（包括免费版）就能用。

原推文附有视频演示，可以看到插件在 Claude Code 中的实际操作效果。

👉 GitHub 仓库 | OpenAI 社区公告 |

来源：OpenAI 发布了一个插件把 Codex 塞进了 Claude Code：竞争对手的代码审查员，现在随叫随到

Hermes Agent 一个会自我进化的 AI Agent 越用越强

goodinfo.net — Sun, 29 Mar 2026 08:00:00 +0800

📰 正文

Nous Research 开源 Hermes Agent 一个会自我进化的 AI Agent，用越久越强，8.7k Stars

Nous Research 开源了 Hermes Agent，一个可以部署在你自己服务器上的自主 AI Agent，内置持久记忆、自动生成技能、跨平台消息网关，MIT 协议。

这不是又一个套壳聊天机器人，也不是绑定在 IDE 里的编程助手。

Hermes Agent 的核心差异是：它会越用越强。

它能记住跨会话的上下文，解决过的复杂问题会自动写成可复用的 Skill 文档，下次遇到类似问题直接调用。用得越久，它积累的技能和对你的了解就越多。

跟 Claude Code / Codex 有什么区别

Claude Code 和 Codex 是编程助手，主要活在 IDE 或终端里，服务的是写代码这件事。

Hermes Agent 的定位不一样：

简单说：Claude Code 是你坐在电脑前的编程搭档，Hermes Agent 是一个住在服务器上、你不在的时候也能干活的自主体。

四个核心能力

① 越用越强的学习闭环

这是 Hermes Agent 最独特的地方。它有一套多层记忆系统：

会话记忆：当前对话的上下文，跟普通 AI 一样。

持久记忆：跨会话保留你的偏好、项目信息、历史任务。关掉再开，它还记得你。

技能记忆：解决了一个复杂问题后，Agent 会自动把解题过程写成一个 SKILL.md 文件。下次遇到类似问题，它直接调用这个 Skill，不用重新推理。

你让它修了一个 Docker 网络问题，它解决后自动生成了一个"Docker 网络排错"的 Skill。三周后你遇到类似问题，它直接调用那个 Skill，几秒钟搞定，不用你再从头描述一遍。

而且这些 Skill 会在使用中自我改进。用的次数越多，Skill 越精炼。

② 住在你的服务器上，不绑定笔记本

大多数 AI 助手都住在你的笔记本上，你合上盖子它就停了。

Hermes Agent 可以部署在 $5/月的 VPS 上、Docker 容器里、SSH 远程服务器上，甚至 Modal 和 Daytona 这种 serverless 环境（空闲时几乎不花钱）。

你在服务器上启动了一个长时间的数据分析任务，然后关掉电脑去吃饭。半小时后手机上 Telegram 弹出消息：“分析完了，结果如下……”

它支持六种运行环境：本地、Docker、SSH、Daytona、Singularity、Modal。

③ 跨平台消息网关

一个 Agent 同时连接 Telegram、Discord、Slack、WhatsApp、Signal、邮件和 CLI。在任何一个平台发消息都能跟它对话，所有平台共享同一份记忆和技能库。

你在电脑上通过 CLI 跟它讨论了一个项目方案，出门后在 Telegram 上继续聊，它记得之前说过的所有内容。

还支持语音消息自动转文字，以及内置的 cron 定时任务，可以设定"每天早上 8 点给我发一份项目进度简报到 Telegram"。

④ 子 Agent 并行执行

可以派出多个隔离的子 Agent 同时处理不同任务，每个子 Agent 有自己独立的对话和终端环境，互不干扰。

你让它同时做三件事：一个子 Agent 跑数据清洗，一个子 Agent 做代码审查，一个子 Agent 写文档。三个并行执行，结果汇总给你。

还支持用 Python 脚本通过 RPC 调用工具，把多步骤流程压缩成单次推理调用，节省 context 消耗。

40+ 内置工具

类别工具 Web 搜索、浏览器自动化（点击/输入/截图）系统终端执行、文件系统操作、代码执行 AI 视觉分析、图片生成、文字转语音、多模型推理规划任务规划、cron 定时调度、记忆管理协作子 Agent 派发、RPC 工具调用

Skills 方面，内置 40+ 个覆盖 MLOps、GitHub 工作流、研究等场景，兼容 agentskills.io 开放标准，可以从 ClawHub、LobeHub 和 GitHub 安装社区贡献的 Skill。

安装

一行命令，60 秒搞定：

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

自动装 Python 3.11、克隆仓库、配置依赖。不需要 sudo。支持 Linux、macOS、WSL2。

装完之后：

hermes setup # 交互式配置，选模型
hermes # 开始聊

要连接消息平台：

hermes gateway setup # 配置 Telegram / Discord / Slack 等
hermes gateway # 启动网关
hermes gateway install # 装成系统服务，开机自启

模型支持

不锁定任何模型，hermes model 一条命令随意切换模型：

Nous Portal、OpenRouter（200+ 模型）、OpenAI、z.ai/GLM、Kimi/Moonshot、MiniMax，或者你自己的 endpoint。

研究用途

这个部分可能只有做 AI 研究的人关心：Hermes Agent 内置了批量轨迹生成（parallel workers + checkpointing）、Atropos RL 训练集成、ShareGPT 格式导出（含轨迹压缩）。可以用它生成大量 tool-calling 训练数据来微调下一代模型。

已知限制

Windows 原生不支持，必须用 WSL2

消息网关模式下安全风险较高，一个被入侵的 Telegram 账号等于拿到了 Agent 的全部权限

Skill 生态还比较年轻，社区贡献的 Skill 数量有限

对非 Hermes 系列模型的 tool-calling 兼容性没有充分测试

持久记忆依赖本地存储，没有云端同步方案

背景

Nous Research 是开源 AI 社区的知名团队，做过 Hermes、Nomos、Psyche 等系列模型。Hermes Agent 是他们从"提供模型权重"扩展到"提供完整 Agent 框架"的第一步。

2 月 25 日首次发布，一个月内从 44 Stars 涨到 8.7k Stars。v0.3.0 优化了子 Agent 和 cron 调度。

在 Agent 框架越来越多的当下，Hermes Agent 的差异化很明确：不是帮你写代码的助手，是一个住在服务器上、持续进化、不需要你在线也能干活的自主体。这个定位目前在开源领域还没有太多直接竞品。

这件事对行业的影响

从行业角度看，Hermes Agent 代表的是 AI Agent 从"工具"到"基础设施"的转变。

之前不管是 Claude Code 还是 Codex，本质上都是"你坐在电脑前，AI 帮你干活"。你关掉终端，它就停了。Hermes Agent 打破的是这个前提：Agent 不需要你在线，它自己住在服务器上，24 小时运转，持续学习，主动执行。

这其实是一个分水岭。当 Agent 不再依赖人类的实时在场，它就不再是"助手"了，它更像是一个"数字员工"，有自己的记忆、自己的技能库、自己的工作节奏。你不是在用一个工具，你是在雇一个不下班的同事。

开源加上 MIT 协议，意味着任何团队都可以拿来部署自己的"数字员工"。如果这个模式跑通，AI Agent 的竞争焦点就不再是"谁更聪明"，而是"谁积累的技能和记忆更多"，越早部署、用得越久的 Agent 就越强。这个飞轮一旦转起来，后来者很难追。

👉 官网 | GitHub | 文档

来源：Hermes Agent 一个会自我进化的 AI Agent 越用越强

Pretext: 纯 TypeScript 文本测量引擎解锁 30 年来 Web 做不到的排版问题

goodinfo.net — Sun, 29 Mar 2026 08:00:00 +0800

📰 正文

前 React 核心团队成员、ReasonML 作者、现 Midjourney 工程师 Cheng Lou 开源了 Pretext，一个纯 TypeScript 写的文本测量和排版库。

它能在完全不碰 DOM 的情况下精确计算文本高度、行数、换行位置，让网页排版绕过浏览器里最贵的操作：布局回流（layout reflow）。

核心就一句话：能让你不用真的把文字放到网页上，就能提前知道文字会占多大空间。

先打个比方。

你装修房子，买了一个书架，想知道放在客厅那面墙能不能放得下。正常人会拿尺子量一下墙的宽度和书架的宽度，对比一下就知道了。

但浏览器不是这么干的。浏览器的做法是：把书架搬过去，塞进客厅，然后看看放不放得下。放不下？搬走，换个位置再塞一次。每次你想知道"放不放得下"，它就搬一次家具。

这就是为什么网页有时候会"闪"一下，聊天列表滑着滑着会"跳"一下。

浏览器在反复搬家具。

Pretext 做的事情就是给浏览器一把尺子。

量一下就知道了，不用搬。

它用纯数学计算文字的高度和行数，不需要真的把文字放到网页上去排版。500 段文字的计算只要 0.09 毫秒，比浏览器"搬家具"快几百倍。

GitHub 一天 6000+ star，推文 780 万浏览、3.4 万点赞、3.6 万收藏。

Cheng Lou 自己的原话是"I have crawled through depths of hell to bring you this"（我从地狱深处爬出来把这东西带给你们），语气夸张，但看完 Demo 你会觉得他没吹。

Pretext 实时文字排版的效果

Web 排版 30 年的老毛病

做过前端的都知道这个痛：想知道一段文字占多高、哪里换行，你得把文字塞进 DOM，让浏览器排一遍版，再用 getBoundingClientRect 或 offsetHeight 读数值出来。

这叫布局回流，是浏览器最贵的操作之一。改文字、调宽度、加元素，浏览器可能重新算整个页面布局。

很多高级排版效果需要提前知道文字尺寸：

瀑布流要知道每个卡片多高，聊天气泡要知道最紧凑的宽度，虚拟长列表要知道每一项占多少空间，文字绕图要知道每行该放几个字。

传统做法要么粗略估算忍受跳动，要么触发大量回流拖垮性能。这个困境从 CSS 1.0 到今天，30 年了。

Pretext 的做法

思路很直接：把文本测量从 DOM 里彻底抽出来。

prepare() 用 Canvas 的 measureText 做一次性的文字测量（这一步不触发回流），把文本分段、应用换行规则、缓存每段宽度。之后调 layout()，所有计算都是纯数学运算，不再碰 DOM。

import { prepare, layout } from '@chenglou/pretext'
const prepared = prepare('AGI 春天到了. بدأت الرحلة 🚀', '16px Inter')
const { height, lineCount } = layout(prepared, 320, 20)
// 320px 宽、20px 行高下的精确高度和行数，不碰 DOM

两行代码。性能差距很大：500 段文本的批次测试里，prepare() 总共 19ms（一次性开销），layout() 只要 0.09ms。算完 500 段文字的高度，连 0.1 毫秒都不到。

它还处理了各种语言的边缘情况：中文、日文、阿拉伯文（从右到左）、emoji、混合双向文本，全部支持。README 示例里同时出现中文、阿拉伯文和 emoji，实测都能正确处理。

不只是量高度

高度测量只是入门。Pretext 的 API 分两层，第二层让你手动控制每一行的排版，能做的事情比想象中多很多。

文字绕图：传统 CSS 的 float 能让文字绕图，但控制力极有限。Pretext 的 layoutNextLine() 可以逐行排版，每行给不同宽度。图片旁边的行窄一点，图片下面恢复全宽，文字像杂志一样自然地绕着图片流动。

while (true) {
const width = y < image.bottom ? columnWidth - image.width : columnWidth
const line = layoutNextLine(prepared, cursor, width)
if (line === null) break
ctx.fillText(line.text, 0, y)
cursor = line.end
y += 26
}

杂志和报纸排版里最基本的文字绕图，在浏览器里终于能干净地实现了。

消息气泡收缩包裹：聊天界面里消息气泡宽度怎么定？太宽浪费空间，太窄多余换行。walkLineRanges() 能找到"保持行数不变的最窄宽度"。这个多行收缩包裹能力，Web 原生一直缺。

虚拟列表不用瞎猜高度：做过长列表虚拟化的都知道，最头疼的就是"每一项多高"。以前要么固定高度（丑），要么先渲染再测量（慢），要么给估算值忍受跳动。现在渲染之前就精确知道高度了。

开发时校验文字溢出：按钮上的文字会不会换行？标签会不会被截断？以前靠浏览器跑一遍才知道。Pretext 让你在构建阶段就能验证，甚至可以丢给 AI 批量检查，不需要浏览器环境。

普通用户能感受到什么

你可能觉得这是前端开发者才关心的事。但你每天都在被这个问题影响：

聊天列表不"跳"了。微信、飞书这类应用，滑动聊天记录时偶尔会突然跳一下，因为消息高度算错了。有了 Pretext，不用渲染就能精确算出每条消息的高度，列表就稳了。

网页不"闪"了。你打开一篇文章，内容加载出来后页面往下一跳，你正在看的东西跑到了别的位置。因为浏览器一开始不知道文字有多高。Pretext 能提前算好，预留空间，页面就不跳了。

消息气泡不浪费空间了。你发一段长消息，气泡宽度按最长那行来，最后一行很短的时候后面全是空白。CSS 做不到"找到保持同样行数的最窄宽度"。Pretext 能算出来，气泡每个像素都不浪费。

AI 生成界面时知道文字会不会溢出。 AI 生成了一个按钮写着"立即获取限时优惠"，在手机上放不放得下？以前只能渲染出来才知道。有了 Pretext，生成阶段就能算出来，超了就换措辞。

性能

在当前基准测试中：

layout() 比 prepare() 快 200 倍，因为它完全不碰浏览器。你可以在一帧（16ms）内对几千段文字重新计算布局。

语言支持

支持所有语言，包括中文、日文、韩文、阿拉伯文（RTL）、混合双向文本、emoji。Demo 里用的示例文字就是中英阿混合加 emoji 的。

支持 pre-wrap 模式（保留空格、tab、换行符），适合 textarea 场景。

安装

npm install @chenglou/pretext

MIT 协议，免费开源。

这件事的意义

Pretext 做的事情看起来很小（测量文字高度），但它打开了一扇门：让前端开发者能在 DOM 之外做布局计算。

以前你想做任何涉及"文字有多高"的计算，都绕不开 DOM 和 reflow。Pretext 把这个依赖切断了。文本测量变成了纯函数，可以在 Web Worker 里跑，可以在渲染前跑，可以在 AI 生成 UI 的时候跑。

对 AI 生成界面这个方向来说，这可能是一个关键的基础设施。AI 生成一个按钮上的文字，目前没有办法在不渲染的情况下知道文字会不会溢出。有了 Pretext，这个验证可以在生成阶段就完成。

Demo 值得看一遍

Pretext 的在线 Demo 有七个场景，每个都像"不该在浏览器里存在的东西"：

手风琴折叠：展开收起高度提前算好，动画丝滑不抖

气泡消息：紧凑的多行气泡，同样的文字占更少面积

动态排版：障碍物感知的标题路由，文字连续流动

编辑引擎：实时文字重排、拉引、多栏排版，全程零 DOM 测量

富文本：内联代码、链接、标签混排，标签整体不被拆行

瀑布流：用 Pretext 预测高度代替 DOM 读取

ASCII 字符画：用比例字体做粒子驱动的 ASCII 艺术

渲染目标不限于 DOM，Canvas、SVG、WebGL 都行，服务端渲染在路线图上。

👉 Cheng Lou 原推 | GitHub | 在线 Demo

来源：Pretext: 纯 TypeScript 文本测量引擎解锁 30 年来 Web 做不到的排版问题

Meta 刚发了个能模拟人脑的 AI 模型能预测你脑子是怎么想的

goodinfo.net — Fri, 27 Mar 2026 08:00:00 +0800

📰 正文

兄弟们，Meta 昨天悄悄扔了个炸弹。

不是聊天机器人，也不是图片生成模型，而是一个能"模拟人脑"的 AI 模型，叫 TRIBE v2（Trimodal Brain Encoder v2）。

简单说就是：给你的大脑做一个"数字双胞胎"，给它看一段视频、听一段播客，它能直接预测你大脑会怎么反应。不是猜，是精确到脑区级别的预测。

🧠 具体是个什么东西？

神经科学做了几十年实验，一直面对一个很现实的问题：想研究大脑怎么处理信息，就得找真人躺进 fMRI 机器里扫描，一个实验就是几个月，成本高，样本少，结论还经常只能解释一小块脑区。

每个实验都需要重新采集脑数据（如 fMRI）

导致：

成本高（设备昂贵）

时间长（数月级别）

难以规模化

数据难以跨实验整合

Meta 的 FAIR 团队开源的 TRIBE v2，相当于：给人脑的神经活动做了一个 AI 模型，输入视频、声音或文字，它能预测你大脑 7 万个体素（可以理解为大脑的"像素点"）分别会怎么响应。研究者不用再每次都找真人做实验，在电脑上跑一遍就行。

这个方向有个专门的术语叫 in silico neuroscience，也就是"在硅片上做神经科学"，用计算机模拟来代替真人实验。

TRIBE v2 能预测人脑对几乎所有视觉和听觉刺激的响应。你看电影、听播客、看图片、读文字，它都能预测你脑子里哪些区域会亮起来，活动强度有多大。

底层技术用的是 Transformer 架构（对，跟 ChatGPT 同一个技术框架），输入端接了三个模态：

视觉：V-JEPA 2

音频：Wav2Vec2-BERT（来自 Seamless）

语言：Llama 3.2

三路信号融合之后，映射到大脑的 fMRI 活动模式上。

训练数据来自 1000 多小时的 fMRI 记录，涉及 700 多名健康志愿者，他们在扫描仪里看电影、听播客、看图片、读文本，各种日常刺激都覆盖了。

🔥 到底牛在哪？

先说几个硬指标。

分辨率暴涨 70 倍。之前的版本只能覆盖大约 1000 个脑体素（voxel），现在直接拉到约 70000 个。这意味着从"看个大概"变成了"看得清细节"，能区分你听到耳语和听到巨响时大脑反应的微妙差别。

零样本预测。不需要重新训练，就能预测它从未见过的个体的大脑反应，效果比之前的方法提升了 2-3 倍。之前的模型都是"定制款"，给每个人训练一遍才能用。现在是通用的，新人来了直接能预测。

跨语言泛化。模型没学过的语言，它也能预测大脑对该语言的反应，不用重新校准。

比真实扫描还"干净"。有时候模型生成的预测信号甚至比真实 fMRI 扫描还干净，因为 fMRI 本身噪声很大，而模型能过滤掉这些噪声。

🔬 这玩意能干啥？

核心应用场景是 Meta 提出的"计算机模拟神经科学"（in-silico neuroscience）。

打个比方：航空工程师设计飞机，不用每次都造一架真飞机去吹风洞，用计算机模拟就行。现在神经科学家也一样，不需要每次实验都找真人受试者，用 TRIBE v2 就能快速测试关于大脑功能的假设。

这对几个方向影响很大：

神经疾病研究加速。想研究阿尔茨海默症、癫痫、失语症这些疾病对大脑的影响，以前要招大量患者做 fMRI 扫描，耗时耗力。有了数字大脑模型，可以先用模拟跑一遍，缩小研究范围再做临床验证。

反哺 AI 系统设计。 Meta 明确说了，要用脑科学的洞察来指导 AI 系统的改进。搞清楚人脑怎么处理多模态信息，能帮助设计更好的 AI 架构。

BCI（脑机接口）铺路。虽然 TRIBE v2 本身不是脑机接口产品，但底层研究能直接为 Meta Reality Labs 的 AR/VR 产品提供支撑，比如预测用户感知来优化体验。

📦 开源情况

论文、模型权重和代码都以 CC BY-NC 协议开源了，非商业用途随便用。

模型：huggingface.co/facebook/tribev2

代码：github.com/facebookresearch/tribev2

论文：ai.meta.com/research/publications/a-foundation-model-of-vision-audition-and-language-for-in-silico-neuroscience/

Demo：aidemos.atmeta.com/tribev2

离"理解大脑"还有多远

这个工作确实很扎实，但离"用 AI 理解大脑"还差得远。

fMRI 本身就有天花板。它测的是血氧水平变化，时间分辨率在秒级，空间分辨率在毫米级，能捕捉到的只是大脑活动的一个粗略轮廓。神经元层面发生了什么，fMRI 看不到。TRIBE v2 再怎么精准，也是在这个框框里做优化。

另外，CC BY-NC 4.0 意味着不能商用。对学术研究来说没问题，但如果有人想基于这个做临床产品或者脑机接口应用，需要另外谈授权。

还有一个根本性的限制：这个模型预测的是"典型大脑"的平均响应，对于研究个体差异、研究病理状态下的脑活动，目前的能力还有限。论文里也承认，对少数被试的预测效果明显不如多数被试。

不过话说回来，Meta 在脑科学 + AI 交叉领域的布局确实越来越认真了。从去年的 MEG 脑成像解码，到语音大脑活动研究，再到现在的 TRIBE v2，这条线一直没断。这是一个有持续投入的研究方向。

对神经科学研究者来说，TRIBE v2 是一个实打实有用的工具。它不会取代真人实验，但能大幅降低实验设计阶段的试错成本，加速假设验证的迭代速度。这个价值已经足够实在了。

总结

TRIBE v2 的意义不在于"Meta 能读你的脑子"，而在于神经科学研究的范式可能要变了。

以前是：招人，扫脑，分析数据，发论文，一个实验搞几个月。以后可能变成：先用数字大脑模拟跑一遍，筛出最有价值的假设，再用真人验证，效率完全不一样。

而且这是 Meta 在 AI 领域不走"聊天机器人"路线的一个典型动作。别人在卷对话能力的时候，Meta 在搞 V-JEPA、搞 TRIBE、搞脑科学基础模型。你可以说它不务正业，但也可以说它在布一盘更大的棋。

项目地址：https://aidemos.atmeta.com/tribev2/

来源：Meta 刚发了个能"模拟人脑"的 AI 模型" 能预测你脑子是怎么想的

Lenny Rachitsky 将自己的350 篇顶级产品文章 + 300 集播客全部开源

goodinfo.net — Wed, 18 Mar 2026 08:00:00 +0800

📰 正文

上一次 Lenny Rachitsky 只是随手把播客转录丢到网上，社区就炸了：有人用它做了一个宝可梦风格的 RPG 游戏，有人搭了一个育儿智慧网站，有人造了 Twitter 机器人，加起来超过 50 个项目。一个设计师用 Claude Code + Cursor 花 8 小时就做出了 LennyRPG，玩家在像素世界里挑战播客嘉宾的产品知识，赢了还能像抓宝可梦一样收集他们。

这次，Lenny 把赌注加大了：不光是播客转录，连 Newsletter 全文也一起开放。349 篇文章 + 289 集播客，全部转成 AI 友好的 Markdown 格式，附带 MCP 服务器和 GitHub 仓库，直接喂给 Claude Code、Cursor 这类 AI 工具就能用。

Lenny 是谁，这批数据有什么价值

如果你做产品但不知道 Lenny Rachitsky，这么说吧：他是硅谷最有影响力的产品经理类内容创作者之一，前 Airbnb 增长产品经理，他的 Lenny’s Newsletter 是 Substack 上最大的付费科技 Newsletter 之一。

这 349 篇文章覆盖了产品管理、增长策略、用户研究、创业方法论等核心话题，播客嘉宾包括 Spotify、Figma、Notion、Stripe 等公司的产品负责人。6 年积累下来，已经是产品管理领域最系统的知识库之一。

对开发者来说，这可能是目前最高质量的产品管理领域训练数据集之一。

拿到什么，怎么拿

数据通过 LennysData.com 获取，分两个层级：

有一个限制：最近 3 个月内发布的内容不包含在内。

技术细节：开发者怎么用

数据以 ZIP 包形式提供，解压后是标准的 Markdown 文件，每篇文章/每集播客一个文件。仓库根目录有一个 index.json，包含所有内容的元数据：标题、发布日期、字数统计、Newsletter 副标题、播客嘉宾姓名和简介。

repository/
├── index.json # 元数据索引
├── newsletters/ # 349 篇文章
├── podcasts/ # 289 集转录
├── LICENSE.md
└── README.md

三种接入方式： 1.

直接 Clone：git clone 公开的入门仓库，先看样本再决定要不要订阅

ZIP 下载：通过 LennysData.com 下载完整压缩包

MCP 服务器：连接 MCP Server，让 AI 工具直接查询和检索内容，不用自己管数据

MCP 这条路线最值得关注。AI 工具之间有一套通用的对接标准叫 MCP，Lenny 提供的 MCP 服务器意味着你可以在 Claude Code 或 Cursor 里直接"问"这个数据集问题，AI 代理自动检索相关内容来回答，不需要手动翻文件。

社区之前造了什么

上一轮只开放了播客转录（320 集），社区就已经造出了一堆让 Lenny 本人都惊讶的东西：

LennyRPG：宝可梦风格的产品知识问答游戏，设计师 Ben Shih（Miro 增长设计师）用 Claude Code + Codex + Cursor 花 8 小时做出来的。他先用 RSS 补充了播客元数据，再用 AI 批量生成每集的知识问答题

Tiny Stakeholders：把播客里的产品管理经验应用到育儿场景

Lenny Playbook：把转录变成结构化笔记、可视化摘要和聊天界面

Learn from Lenny：X 上的 AI 代理，用播客内容回答产品问题

还有用户研究脚本生成器、信息图自动生成、各种 RAG 搜索工具

这次数据量翻倍，还加了 Newsletter 全文，能玩的花样明显更多。比如：跨文章+播客的知识图谱、个性化产品顾问、特定领域的深度研究工具。

社区挑战赛：造点什么出来

Lenny 同时发起了一个挑战赛：用这批数据构建一个项目，把链接提交到 Newsletter 评论区，他会挑选最优秀的作品，赠送 1 年免费订阅。获胜者将在 4 月 15 日公布。

之前已经用播客数据做过项目的人也可以把新数据整合进去，重新提交。

为什么这件事值得产品圈关注

Lenny 做了一个目前很少有创作者敢做的事：把自己多年积累的核心内容资产，以技术友好的方式完全开放。

大多数内容创作者把付费内容锁得死死的，Lenny 反过来：把内容变成开发者可以直接调用的数据集，鼓励社区在此基础上构建新产品。这背后的逻辑是：当社区基于你的内容造出 50 个工具，你的品牌影响力和订阅价值反而更高了。LennyRPG 这样的项目本身就是最好的 Newsletter 广告。

这也是 MCP 生态的一个有趣方向：内容创作者不只是写文章给人看，而是把内容变成 AI 可以调用的知识服务。想象一下，如果更多垂直领域的头部创作者都这么做，AI 工具能查询的专业知识库会比现在丰富得多。

当然，这模式也有门槛：你的内容首先得有足够的深度和系统性，社区才有动力基于它去构建东西。随便把几百篇博客丢出去，没有人会花时间做项目。Lenny 能玩转这套，是因为他 6 年来积累的内容本身就是产品管理领域最系统的知识库之一。

对开发者来说，免费版 10 篇文章 + 50 集播客够试水了。觉得数据有价值，再订阅拿完整版。对产品经理来说，就算不写代码，这批数据配合 AI 聊天工具也能变成你的私人产品顾问。

数据下载：

来源：Lenny Rachitsky 的推文 | LennysData.com | GitHub 公开仓库

来源：Lenny Rachitsky 将自己的350 篇顶级产品文章 + 300 集播客全部开源

Qwen3.5 去审查版来了 0拒绝 4090就能本地跑

goodinfo.net — Mon, 16 Mar 2026 08:00:00 +0800

📰 正文

有人把 Qwen3.5-35B-A3B 的安全拒绝机制给拆了，做了一个完全不拒绝的版本。

测了465个通常会被模型拒绝的提示词，拒绝次数：0。

模型名字叫 Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive，挂在 HuggingFace 上，GGUF 格式，llama.cpp、LM Studio、Jan 都能直接跑。

先说清楚这是什么，再说怎么跑，最后说说我的看法。

这个模型是什么

Qwen3.5-35B-A3B 是阿里通义千问今年 2 月发布的最新模型，总参数 350 亿，但实际每次推理只激活约 30 亿参数（MoE 架构，256 个专家模块里每次只调用 8 个）。

这意味着一个 350 亿参数的模型，跑起来的资源消耗接近一个 30 亿参数的小模型。阿里官方的说法是：只用 30 亿激活参数，就超过了上一代 2350 亿参数的 Qwen3-235B。

原版模型本身就很强：

MMLU-Pro 85.3，GPQA Diamond 84.2

SWE-bench 69.2（代码能力）

支持文本、图片、视频多模态

原生 262K 上下文，扩展到 100 万

支持 201 种语言

HauhauCS 做的事情是在这个底座上，用一种叫"abliteration"的技术，把模型的拒绝机制移除了。

通过识别和移除模型中负责"拒绝回答"的方向向量来实现的，不需要重新训练，不改数据集，不影响模型的原有能力。

模型 100% 保留了原始作者的设计意图，只是没有了拒绝。偶尔可能会在回答末尾附一句免责声明，那是基础模型训练时烤进去的，不算拒绝，完整内容都会生成。

这个版本叫 Aggressive（激进版），意思是完全解锁，不留任何安全护栏。

什么配置能跑一张 4090 就够

虽然每次推理只激活 3B 参数，但整个 35B 模型都得加载到显存或内存里。所以硬件门槛看的是 GGUF 文件大小加上下文开销。

RTX 4090（24GB 显存）

这是目前最主流的本地推理显卡。推荐跑 Q4_K_M 量化，文件 20GB，加上上下文开销刚好能塞进 24GB。质量和速度的平衡点。如果上下文开很长（比如 128K），显存可能不够，需要把一部分层卸载到 CPU。

Mac M系列

Mac 跑 MoE 模型其实很合适，统一内存架构没有 CPU 和 GPU 之间搬数据的瓶颈。36GB 统一内存可以跑 Q4_K_M 到 Q5_K_M。64GB 以上可以直接跑 Q8_0 甚至 BF16 全精度。

纯 CPU

没独显也能跑，只要内存够。64GB 内存可以跑 Q8_0。速度会比 GPU 慢，但 MoE 模型在 CPU 上表现比同体量的 dense 模型好，因为每次只算 3B 参数。

最低门槛

16GB 显存跑 IQ2_M（11GB），能用但质量有损失。

完整的量化选择：

所有量化版本都用了 imatrix（重要性矩阵）生成，尽量减少去审查后权重的量化损失。

怎么跑

用 llama.cpp 最简单：

# 纯文本
llama-cli -m Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf \
 --jinja -c 131072 -ngl 99

# 带视觉（需要额外下载 mmproj 文件）
llama-cli -m Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf \
 --mmproj mmproj-Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf \
 --jinja -c 131072 -ngl 99

–jinja 是必须加的，不加的话聊天模板会出问题。-c 131072 是 128K 上下文，作者建议至少开这么大才能保留思考能力。-ngl 99 是把所有层都放到 GPU 上。

LM Studio、Jan 这些图形界面工具也能直接加载 GGUF 文件，拖进去就行。LM Studio 里参数列可能会显示 256x2.6B 而不是 35B-A3B，这是元数据的显示问题，不影响实际运行。

官方推荐的采样参数：

思考模式（默认）：temperature=1.0，top_p=0.95，top_k=20，presence_penalty=1.5

写代码等精确任务：temperature=0.6，top_p=0.95，top_k=20

非思考模式：temperature=0.7，top_p=0.8，top_k=20

HuggingFace 模型页 | Qwen3.5-35B-A3B 官方模型卡

来源：Qwen3.5 去审查版来了 0拒绝 4090就能本地跑

提前1个月精准预测超级碗冠军陈天桥旗下 AI 团队发布 MiroThinker-1.7 专注深度研究的 Agent 模型

goodinfo.net — Mon, 16 Mar 2026 08:00:00 +0800

📰 正文

提前1个月精准预测超级碗冠军。

提前3周预测格莱美最大赢家。

提前15天预测黄金价格，误差 0.08%。

陈天桥旗下新加坡 AI 公司 MiroMind 刚发布的研究型智能体 MiroThinker，实现了以上战果…

跟 GPT 不是一个物种

MiroThinker 跟 GPT、Claude 这类通用聊天模型不一样。它不是用来日常对话的，而是专门做"深度研究"的 AI Agent。

你给它一个复杂问题，它会自己去全网搜资料，看完之后根据搜到的内容再搜下一轮，把不同来源的信息交叉验证，发现矛盾了再查，反复几十甚至上百轮，最后给你一份有理有据的研究报告。

关键区别在于，它不只是"想"，还能"动手"。一次研究任务里，它能像一个真人研究员一样动手去查。一次研究任务里，它最多能连续调用 300 次工具：执行代码、搜索引擎、API 调用、网页爬取、数据分析… 一路搜、一路验证、一路修正，直到答案足够扎实。

整个过程全自动，不需要你一步步指挥。

三个版本怎么选

本次共发布了三个版本：

MiroThinker-1.7：免费开源（Apache 2.0），2350 亿参数，研究能力评分 74.0（BrowseComp 榜单）。开发者可以直接下载部署。

MiroThinker-1.7-mini：更轻量的版本，300 亿参数，也免费开源。中文研究能力在所有同级别开源模型里排第一。算力有限的话优先考虑这个。

MiroThinker-H1：最强版本，闭源。研究能力评分 88.2，在所有 AI 模型里排名第一，不管开源还是闭源都算上。它在 1.7 的基础上加了一套"验证机制"，模型每做一步都会自查对不对，做完整个任务还会回头审查所有证据，确保最终答案是证据最充分的那个。

能做什么

1、全网搜索和信息整合。它会通过 Google 搜索找到相关网页，然后用 Jina 爬虫抓取页面内容，再用一个小模型把长网页里的关键信息提取出来。不是搜一次就完了，而是会根据搜到的内容决定下一步搜什么，反复迭代。一个复杂任务可能要搜几十上百轮，模型始终在判断"我还需要找什么信息"。中英文都能搜，中文研究能力在开源模型里目前最强。

2、写代码和运算。自带一个代码执行沙盒（E2B），可以直接写 Python 代码跑运算，比如处理数据、做统计分析、画图。不只是"说"，还能"算"，遇到需要数据处理的任务不用你手动介入。

3、读文档。支持上传 PDF、Word、PPT、Excel、图片等各种格式的文件，模型可以读取内容然后基于文档做分析。比如你丢一份财报给它，它能帮你提炼关键数据。

4、生成研究报告。做完整个调研过程后，它会把所有发现整合成一份结构化的深度研究报告，支持在线预览和分享。这不是那种一段话的简单回答，而是一份有章节、有引用、有结论的正式报告。

5、金融分析和预测。这是 MiroMind 一直主打的方向。模型能综合各种数据源来做资产价格、宏观经济趋势的推理判断。在金融搜索基准 FinSearchComp 上拿了最高分。

6、科学研究辅助。 H1 在 FrontierScience 系列科学基准上超过了很多闭源大模型，做文献综述、分析实验数据、推导复杂数学问题都能用。

7、事件预测。体育赛事、颁奖典礼、市场走向，它会综合历史数据和当前信息来做概率判断。MiroMind 之前在字节跳动的 FutureX 预测榜单上连续两周拿第一，这块是强项。

预测案例

回到开头提到的三个预测，这三个案例都是事前公开发布、事后可以对照验证的：

黄金价格预测：2月10日预测2月25日金价 $5,185/盎司，实际结果 $5,181，差了 $4，误差 0.08%，提前15天。

超级碗冠军：1月6日判断西雅图海鹰队最可能赢，2月8日海鹰队 29-13 击败爱国者队夺冠，提前1个月命中。

格莱美最大赢家：1月8日预测 Kendrick Lamar 将主导2026格莱美，2月1日他拿下5项大奖成为当晚最大赢家，提前3周。

当然要说清楚，这些是官方挑出来的成功案例，失败的预测不会拿出来展示。但至少能说明这套系统在信息综合和趋势判断上有一定实力。

技术上怎么做到的

MiroMind 的核心观点是：多搜几次不等于搜得好。

现在很多 AI Agent 的做法是疯狂堆搜索次数和工具调用，短期确实能刷分。但如果每一次搜索、每一次判断的质量不高，多搜几次只会越搜越乱。

第一个：先把每一步做好

一般模型训练分三步。MiroThinker 在中间插了一个专门训练"规划、推理、总结"能力的阶段。效果是模型每一步操作都更靠谱，不会搜了一堆资料但最后答案跑偏。

MiroMind 团队的逻辑是：如果每一步质量不行，多跑几步只会错得更离谱。所以先解决"每一步做对"，再提升"能跑多少步"。

第二个：让模型学会自己检查（H1 独有）

H1 在推理过程中有一个检查机制，做两件事：

走一步查一步：每做完一步推理，检查方向对不对。AI 有时候会倾向于选"看起来最合理"的路，但那条路可能是错的，检查员会拉回来

最后全查一遍：所有推理完成后，审查整条证据链，确保最终答案是证据最充分的那个

加了检查机制之后，完成任务用的步骤数反而变少了。因为无效的步骤被过滤掉了，算力集中到了真正有用的环节。

有意思的是，加了这套检查机制后，模型做事的步骤反而变少了。因为没必要的操作被过滤掉了，算力集中在真正有用的步骤上。做得少但做得对。

相比上一代升级了啥

MiroThinker 1.5 是今年1月发的上一代。这次 1.7 的主要变化：参数量从 300 亿拉到 2350 亿，翻了快 8 倍；训练流程加了"中期训练"环节；成绩全面提升；新增了闭源旗舰版 H1。

上一代 1.5 证明了这条路走得通，1.7 把基础打得更扎实，H1 在这个基础上加了验证机制冲到了天花板。

MiroMind 是谁

盛大集团创始人陈天桥创立的 AI 公司。定位很明确：不做通用聊天模型，专攻"发现式智能"。

目标是造一个"通用求解器"，让 AI 通过 300 步推理达到 99% 的确定性。盛大作为背后资本方，承诺长期投入，不追求短期回报。

1.7 发布两天后，公司宣布三位 AI 科学家加入：华盛顿大学副教授杜少雷管推理模型，南洋理工终身教授安波管系统架构，前 Meta FAIR 研究员杨凯峪建可验证 AI 实验室。

怎么用

普通用户直接去 dr.miromind.ai 体验在线版，不用装任何东西。APP 也有，miromind.ai/download 可以下载。

开发者的话，开源模型在 Hugging Face 和 GitHub 都有，支持 SGLang 和 vLLM 部署。整个项目除了模型本身，还开源了 Agent 框架 MiroFlow 和训练数据集 MiroVerse（14.7 万条样本），三件套齐全。

参考链接：

官方博客：https://www.miromind.ai/blog/mirothinker-1.7-h1-towards-heavy-duty-research-agents-via-verification

GitHub：https://github.com/MiroMindAI/MiroThinker

Hugging Face：https://huggingface.co/collections/miromind-ai/mirothinker-17

在线体验：https://dr.miromind.ai/

来源：提前1个月精准预测超级碗冠军陈天桥旗下 AI 团队发布 MiroThinker-1.7 专注深度研究的 Agent 模型

Qwen3-ASR语音转录模型：52 种语言通吃10 秒处理 5 小时音频比肩Whisper

goodinfo.net — Sat, 14 Mar 2026 08:00:00 +0800

📰 正文

阿里通义千问团队开源了 Qwen3-ASR 系列语音识别模型，1.7B 参数量在多项基准测试中超越 Whisper-large-v3 和 GPT-4o Transcribe，0.6B 轻量版一秒能转写 2000 秒音频。

Apache 2.0 开源协议，免费可商用。

三个模型，覆盖三个场景

Qwen3-ASR 这次一口气发了三个模型：

Qwen3-ASR-1.7B 是旗舰版，17 亿参数，基于 Transformer 编码器-解码器架构，底座是通义千问的多模态模型 Qwen3-Omni。

支持 30 种语言和 22 种中文方言的识别，包括粤语、闽南语、吴语、东北话、四川话等。在多项公开和内部基准测试上都拿到了开源模型里的最好成绩。

Qwen3-ASR-0.6B 是轻量版，6 亿参数。精度比旗舰版低一些，但速度非常快：首字延迟最低 92 毫秒，在 128 并发下一秒能转写 2000 秒的音频（相当于同时处理 33 分钟的录音），单条音频最长支持 20 分钟。低配 PC 也能跑。

Qwen3-ForcedAligner-0.6B 是时间戳对齐模型，能给语音和文本精确打上字级时间戳，支持 11 种语言，最长处理 5 分钟的音频。做字幕、做标注、做语音搜索都用得上。

能力上到底强在哪

官方做了非常详细的对比测试，横向覆盖了 Whisper-large-v3、GPT-4o Transcribe、Gemini 系列和豆包 ASR 系列。

英文：除了常规公开基准全面领先，阿里还自建了一套覆盖 16 个国家口音的英语测试集。结果显示 1.7B 版在整体表现上超过了 GPT-4o Transcribe 和 Whisper-large-v3。这个测试集的设计思路值得注意：公开基准上各家模型差距已经很小了，真正拉开差距的是各种口音和噪音场景。

中文和方言：普通话、粤语加 22 种方言，1.7B 版整体领先商用 API 和开源模型。从官方 Demo 来看，绕口令、快语速、高噪音环境下的识别效果都很稳。

唱歌识别：这是一个很少有模型认真做的能力。Qwen3-ASR 支持带背景音乐的歌曲转写，中文歌词错误率 13.91%，英文歌词 14.60%。虽然不算完美，但在带 BGM 的条件下这个数据已经很实用了。

和 Whisper 相比呢

Whisper 在语言覆盖数量上仍然占优（99 种 vs 52 种），但在中文场景、流式推理、歌曲识别和推理速度上，Qwen3-ASR 全面领先。特别是 0.6B 版的效率优势很大：参数量只有 Whisper-large-v3 的 40%，速度却快了一个数量级。

Flash 版本

在开源模型之后，阿里又推出了 Qwen3-ASR-Flash，这是部署在百炼平台上的 API 服务版本。

Flash 版本有个很实用的能力：定制化识别。你可以给模型提供一份背景文本，格式随意，可以是词汇表、一段文字、甚至一整篇文档，模型会根据这些上下文来调整识别结果。

比如你做医疗领域的语音转写，给它一份药品名称和术语表，它识别的时候就会优先匹配这些专业词汇。不需要微调模型，直接在推理时传入上下文就行。

Flash 版本还支持实时流式识别、情感识别（能分辨惊讶、愉快、悲伤、愤怒等情绪），以及录音文件异步转写（最长支持 12 小时）。

谁会用到？

几个典型场景：

做内容的，会议录音转文字、播客剪辑、视频字幕生成，这些都是高频需求。之前要么用付费 API，要么用识别不太准的免费工具，现在可以本地部署一个 0.6B 的模型，又快又准还免费。

做业务系统的，客服录音质检、电话回访分析、智能语音助手，需要大批量跑转写的场景，0.6B 版本的吞吐量优势就很明显了。

做音视频工具的，强制对齐模型可以精准地给每个字词打上时间戳，做字幕自动对齐、语音剪辑定位、TTS 数据标注都用得上。

做多语言业务的，52 种语言加 22 种中文方言的覆盖面，基本上全球主要语言和中国各地方言都包了。

这意味着什么

语音识别这个领域，OpenAI 的 Whisper 从 2022 年开源以来一直是事实标准。大多数开源语音工具链（包括我们日常用的 whisper-cpp）都是围绕它建的。

Qwen3-ASR 的出现不一定能取代 Whisper 的生态位，但它在几个关键维度上确实拉开了差距：流式推理、中文方言、歌曲识别、推理效率。尤其是 0.6B 版的效率数据（一秒转写 2000 秒音频），对于需要大规模批量处理的场景来说非常有吸引力。

Apache 2.0 开源协议意味着可以直接商用，这一点和 Whisper 的 MIT 协议一样友好。模型权重、推理框架、评估数据集全部开源，配套了 vLLM 批量推理、异步服务、流式推理等完整工具链。

语音识别的开源竞争，终于开始卷起来了。

怎么用？

开源版本最简单的方式是装 qwen-asr 这个 Python 包，pip install 就行，加载模型时会自动下载权重。也可以用官方 Docker 镜像一键部署。

想用 API 服务的话，百炼平台上有 Qwen3-ASR-Flash 和 Qwen3-ASR-Flash-Realtime 两个版本，前者处理录音文件，后者做实时流式识别。

来源：Ai-Hakase 的推文 | https://x.com/ai_hakase_/status/2032291818805584063 官方博客：https://qwen.ai/blog?id=qwen3asr GitHub：https://github.com/QwenLM/Qwen3-ASR

来源：Qwen3-ASR语音转录模型：52 种语言通吃10 秒处理 5 小时音频比肩Whisper

Fish Audio 开源 S2：4B 参数的 TTS 模型，100ms 出声，还能让 AI 笑出来

goodinfo.net — Wed, 11 Mar 2026 08:00:00 +0800

📰 正文

Fish Audio 发布 S2，这是继 S1 之后的新一代旗舰 TTS 模型，在多项公开 benchmark 上，S2 的表现已全面超越 ElevenLabs、MiniMax Speech-02、Qwen3-TTS 等闭源竞品，拿下开源 + 闭源全榜最优 WER。

这次发布的 S2 是他们的新一代模型，核心卖点三个：开源、快、情感控制粒度细到离谱。

训练数据超过 1000 万小时音频，覆盖约 80+种语言，模型分为两个版本：S2（基础版）和 S2 Pro（旗舰版）。

S2 的模型权重、微调代码、推理引擎全部开源，研究和非商用免费，但是商用需要联系授权。

技术参数：几个数字感受一下

S2 用了一个叫 Dual-AR 的双层架构。上层 4B 参数负责语义理解，下层 400M 参数负责声学细节，加起来 44 亿参数。

训练数据量很猛：1000 万小时以上的音频，覆盖约 80 种语言。

实际跑起来的表现（在 NVIDIA H200 上测的）：

首次出声延迟：约 100ms

实时因子（RTF）：0.195，意思是生成 1 秒语音只需要 0.195 秒

吞吐量：每秒 3000+ 个声学 token

中文语音识别错误率（WER）：0.54%，英文 0.99%

放到 benchmark 里比，S2 在 Audio Turing Test（听众分辨真人还是 AI）上拿到 0.515 分，比字节的 Seed-TTS 高了 24%。简单说，已经有一半以上的人分不出这是 AI 生成的声音了。

最大升级：从固定标签到自然语言情感控制

这是 S2 和上一代 S1 最本质的区别。

自然语言情绪控制（最大亮点），S2 支持在文本中任意位置嵌入自由格式的自然语言描述标签，例如 [whisper in small voice]、[professional broadcast tone]、[pitch up]，不再限于预定义的固定标签集合，实现词级别的细粒度表达控制。

S2 Pro 支持超过 15,000 种独特标签：包括 [pause]、[emphasis]、[laughing]、[excited]、[whisper]、[singing] 等，泛化能力强，未见过的自然语言描述也能有效执行。

上下文增强表现力，得益于模型上下文的扩展，模型现在可以利用前文信息来提升后续生成内容的表现力，从而提高内容的整体自然度。

S1 用圆括号固定标签控制情感，比如 (excited) (sad) (laughing)，标签集合是封闭的，你只能从预定义列表里选。

S2 改成了方括号 + 自由描述。你可以在文本任意位置插入自然语言指令：

今天的会议结果 [用很沮丧的语气] 不太理想，但 [振作起来] 我们明天继续。

系统会理解这些描述并直接反映在语音里，而不是匹配固定关键词。官方支持的独特标签超过 15000 个，包括 [pause]、[emphasis]、[laughing nervously]、[whisper in small voice]、[professional broadcast tone]、[pitch up] 等等。由于模型是在开放描述上训练的，即便是训练时没见过的新描述，泛化能力也相当不错。副语言控制单项胜率高达 91.61%。

这个能力在实际场景里很有用：做有声书可以让角色有情绪起伏，做播客可以让 AI 主播听起来不像在念稿，做游戏配音可以省掉大量录音成本。

多角色一次生成

原生多说话人支持，用户只需上传一段包含多个说话人的参考音频，模型通过 <|speaker:i|> token 自动处理每位说话人的特征，单次推理即可生成多人对话，无需再为每个说话人分别上传音频。

声音克隆也很方便，只需要 10 到 30 秒的参考音频，不用额外微调就能克隆出高度相似的声音。语音克隆时，参考音频 token 放在 system prompt 中，SGLang 自动缓存 KV 状态，同一声音复用时前缀缓存命中率平均达 86.4%，参考音频预填充开销几乎可以忽略。

语言支持：80+ 种语言

S2 Pro 支持 80+ 种语言，第一梯队（质量最高）：日语、英语、中文。第二梯队：韩语、西班牙语、葡萄牙语、阿拉伯语、俄语、法语、德语。在 MiniMax 的多语言测试集上，S2 在 24 种语言中有 11 种拿到了最低错误率，17 种拿到了最高说话人相似度。

推理性能（单卡 H200）

S2 的 Dual-AR 架构与标准自回归 LLM 在结构上同构，可以直接继承 SGLang 的全套 LLM 原生服务优化，包括连续批处理、分页 KV 缓存、CUDA graph 重放和 RadixAttention 前缀缓存。

语音克隆时，参考音频 token 放在 system prompt 中，SGLang 自动缓存 KV 状态，同一声音复用时前缀缓存命中率平均达 86.4%，峰值超过 90%，参考音频预填充开销几乎可以忽略不计。

实测数据：RTF 0.195，首帧延迟约 100ms，吞吐量超过每秒 3000 个 acoustic token。

如何获取

模型权重和代码完全开源，研究和非商业用途免费：

GitHub：https://github.com/fishaudio/fish-speech

HuggingFace：https://huggingface.co/fishaudio/s2-pro

在线体验：https://fish.audio/s2/

技术报告：https://arxiv.org/abs/2603.08823

本文参考：Fish Audio 官方推文 | 原文链接 | S2 产品页 | 开源博客

来源：Fish Audio 开源 S2：4B 参数的 TTS 模型，100ms 出声，还能让 AI 笑出来

Google 发布 Gemini Embedding 2向量模型：升级为多模态图片、视频、音频都能进行向量搜索

goodinfo.net — Wed, 11 Mar 2026 08:00:00 +0800

📰 正文

以前你想让 AI 同时理解文字、图片和视频，得用好几个不同的模型拼在一起。Google 刚发布的 Gemini Embedding 2 嵌入模型，一个模型就全包了。

嵌入模型是干什么的

你每天用搜索引擎、用知识库问答、用 AI 找相似内容，背后都有个关键环节：把你输入的内容转换成一串数字，AI 才能拿去比较、排序、检索。干这件事的就是嵌入模型。

你搜"苹果"，传统搜索引擎会把"苹果公司"和"苹果水果"的结果混在一起给你，因为它只认关键词。嵌入模型干的事情就是让 AI 真正"理解"你说的是哪个苹果。

它的工作原理是把文本转换成一组向量（你可以理解为一串带方向的数字），语义相近的内容，向量也相近。这样 AI 就能按意思去比较、排序、检索，而不是死板地匹配关键词。

你平时用的 AI 搜索、知识库问答、ChatGPT 的"先查资料再回答"，底层都得靠嵌入模型先把内容"翻译"成 AI 能理解的格式。它不像聊天模型那样直接跟你对话，但没有它，AI 的搜索和检索就跑不起来。

先说它解决什么问题

相比上一代 Gemini Embedding 2 最大的跨越是：从"只懂文字"升级到"什么都懂"。文字、图片、音频、视频、PDF 文档，全部能放在同一个空间里比较和检索。同时输入上限从以前的 2K 提升到 8K，向量维度从 768 提升到 3072，能装的信息量大了好几倍。

举个具体场景：你拍了张照片，想在资料库里找类似的图；你有一段会议录音，想找到之前写过的相关笔记；你有份 PDF 合同，想快速定位其他类似条款。以前这些不同类型的内容没法放在一起搜索，你得分别处理再拼结果。现在一个模型直接搞定。

这些场景有个共同难点：不同类型的内容（文字、图片、音频、视频、文档），AI 以前没法放在同一个维度去比较和检索。你得分别处理，然后想办法拼结果。

Gemini Embedding 2 就是 Google 给出的方案：把所有这些不同类型的内容，统一转换成 AI 能直接比较和搜索的格式。文字跟图片能比，音频跟文档也能比，全部放在同一个空间里检索。

具体能处理什么

支持五种输入类型：

文本：最多 8192 个 token，大概相当于一篇长文章的量

图像：单次最多 6 张图片

视频：最长 120 秒

音频：直接处理原始音频，不需要先转成文字

文档：最多 6 页 PDF

关键是，这些类型可以混着来。一个请求里同时丢进去一段文字加两张图片，模型能一起处理。支持 100 多种语言。

一个很实用的设计：精度和成本自己选

模型输出的维度最高 3072，但你可以根据需求往下调。

说人话就是：精度要求高的场景（比如法律文档检索），你用高维度，效果最好但占的空间和算力也多；日常搜索够用就行的场景，调低维度，省钱省空间。开发者自己根据业务需求来选，不用一刀切。

从跑分看，不同维度下表现差距很小。MTEB（主流的文本嵌入测评榜单）上，高维度 68.17 分，最低维度 67.99 分，几乎没掉。这意味着很多场景下完全可以用低维度省成本。

目前排名第一

在 MTEB 排行榜上，Gemini Embedding 2 拿到了综合第一。排在后面的是阿里巴巴的 Qwen3-Embedding（开源，Apache 2.0 协议），再后面是 OpenAI 和 Mistral 的模型。

不过要注意，这个榜主要测的是文本能力。Gemini Embedding 2 真正拉开差距的地方在多模态：目前市面上能同时原生处理文本、图片、视频、音频、文档这五种类型的模型，基本就它一个。

已经有人用出了效果

几个早期用户的数据值得看看。

法律科技公司 Everlaw 用它做法律文档检索，精确度明显提升。做过法律相关工作的应该知道，法律文档里经常是扫描件 PDF 混着文字，传统搜索很难覆盖全，多模态在这个场景天然有优势。

另一个案例更直观：Sparkonomy 这家公司接入后，检索延迟降低了 70%，内容相似性得分从 0.4 直接升到 0.8。这个提升幅度相当夸张，说明之前用的方案和这个原生多模态方案差距不小。

一点看法

嵌入模型这个领域之前一直比较"安静"，大家关注的都是聊天模型谁更强。但实际上，嵌入模型是所有 AI 搜索、知识库、“让 AI 先查资料再回答"这类应用的基础设施。基础设施升级了，上面跑的应用才能跟着变好。

Gemini Embedding 2 最让我觉得有意思的不是跑分第一，而是"原生多模态"这个方向。以前处理多模态都是各搞各的再拼起来，现在一个模型统一处理，架构上干净很多，效果自然也更好。

对于在做 AI 应用的开发者来说，如果你的产品涉及多种类型内容的搜索和匹配，这个模型值得第一时间试试。目前是预览阶段，免费用。

本文参考：Google AI Studio 的推文 | 原文链接 | Google 官方博客 | VentureBeat 报道

来源：Google 发布 Gemini Embedding 2向量模型：升级为多模态图片、视频、音频都能进行向量搜索

Hume AI 发布 TTS 模型：TADA 零幻觉、速度快，能跑在手机上支持中文

goodinfo.net — Wed, 11 Mar 2026 08:00:00 +0800

📰 正文

做情感 AI 出身的 Hume AI 发布了 TADA，这是一个基于 LLM 架构的 TTS（Text-to-Speech）系统，主打"快、准、轻"三大特性，在速度、幻觉率和端侧部署能力上均展现出显著优势。

在 1000 多个测试样本中实现了零内容幻觉，比同级别 LLM TTS 快 5 倍，轻到可以在手机上跑。

模型基于 Llama 3.2，分两个版本：TADA-1B（英文，轻量端侧部署）和 TADA-3B-ML（多语言，支持中文、日语、德语等 9 种语言）。

代码和权重全部开源，MIT 协议，商用无限制，pip install hume-tada 一行装好。

LLM 语音合成核心问题：文本和音频的"长度失配"

要理解 TADA 的创新，首先需要理解当前 LLM 语音合成面临的一个根本性矛盾。

每一秒的语音音频，对应的声学信息量远远大于文本信息量。用 token 来衡量的话，一秒语音大约只对应 2-3 个文本 token，但却需要 12.5 到 25 个声学帧来表示。这种严重的数量不对称，直接导致了一系列工程问题：上下文窗口被迅速耗尽，内存消耗居高不下，推理速度受限，而且模型在漫长的音频 token 序列中很容易"跑偏"，出现跳词、幻觉词、漏读等问题。

现有的主流方案通常有两种应对思路：一种是降低音频帧率，用更少的 token 表示同样长度的音频；另一种是在文本和音频之间引入中间的"语义 token"层作为桥梁。但这两种方法各有代价，要么损失语音表现力，要么增加系统复杂度。

TADA 的解法：一对一同步对齐

TADA 全称 Text-Acoustic Dual Alignment，核心思路是让文字和语音严格"一对一锁步"：每一个文字 token 精确对应一段音频，两者在同一个流里同步生成。

传统方案是文字和音频各跑各的再对齐，TADA 从源头就绑在一起，所以从根上避免了"念多了"或"念漏了"。

TADA 走了一条完全不同的路。它没有试图压缩音频 token 的数量，而是将音频表征直接对齐到文本 token 上，实现严格的一对一映射：每个文本 token 对应一个连续的声学向量，文本和语音在 LLM 中同步前进。

具体来说：

输入侧，一个编码器配合对齐器（aligner），从每个文本 token 对应的音频片段中提取声学特征。

输出侧，LLM 最后一层的隐藏状态作为条件向量，驱动一个 flow-matching 解码头生成声学特征，再由解码器将其转换为音频波形，并回馈给模型。

由于 LLM 的每一步推理恰好对应一个文本 token 和一个音频帧，整个生成过程天然更快、计算量更小。更关键的是，这种架构从结构上就杜绝了跳词和幻觉问题，因为模型不可能在文本和音频之间出现"错位"。

几个关键数据：

零幻觉：在 LibriTTSR 数据集的 1000 多个测试样本中，没有出现一次内容幻觉。不是"很少"，是零。而且这个模型是用大规模"野外数据"训练的，没有做后训练精调，却达到了和精选小数据集训练的模型同等可靠性。

速度：实时因子（RTF）0.09，生成 1 秒语音只需要 0.09 秒计算时间，比同级别的 LLM TTS 快 5 倍以上。

资源消耗：每秒音频只需要 2-3 帧，其他方案通常需要 12.5 到 75 帧。同样 2048 个 token 的上下文，传统系统撑大约 70 秒音频，TADA 能装下 700 秒，差了 10 倍。

同步转录：生成语音的同时就出文字，不用再跑一遍语音识别，零额外延迟。

长文本和对话场景：TADA 同步化的 token 方案在上下文效率上具有压倒性优势。传统系统在 2048 token 的上下文窗口下大约只能容纳 70 秒左右的音频，而 TADA 在相同预算下可以支撑约 700 秒，也就是近 12 分钟的语音。这为长篇叙述、长时间对话和多轮语音交互打开了大门。

语音质量怎么样

在 EARS 数据集（长篇表达性语音）的人工评估中，说话人相似度 4.18/5.0，自然度 3.78/5.0，综合排名第二，超过了好几个训练数据量比它大得多的系统。

TADA 的优势不在"听起来最像人"，在"绝对不出错"和"算力消耗极低"。

这其实是产品策略的选择：Hume AI 自家商业 TTS 产品 OCTAVE 主打情感表达，走高端路线。TADA 开源出来的定位是"基础设施级别的可靠语音生成"，适合对准确性有硬要求但预算有限的场景。

哪些场景适合用

对准确性零容忍的场景：医疗报告朗读、金融数据播报、法律文书语音化。零幻觉在这些领域是刚需。

端侧部署：1B 版本基于 Llama 3.2 1B，配合 0.09 的 RTF，在手机或边缘设备上跑语音合成完全可行。对于设备厂商和 App 开发者来说，这意味着更低的延迟、更好的隐私保护，以及零 API 依赖。

长内容生成：播客、有声书、课程音频。700 秒的上下文容量意味着可以一口气处理十几分钟的内容，不用反复切段。

多语言产品：3B 版本覆盖 9 种语言，一个模型搞定多语言语音功能。

需要同步字幕的场景：直播、视频制作。语音和文字同时出，省掉了后期再跑 ASR 的步骤。

想先试试效果的，HuggingFace 上有在线 Demo

可以直接体验：huggingface.co/spaces/HumeAI/tada

局限性

Hume AI 在博客和论文里明确列了几个已知问题：

长音频生成时会出现"说话人漂移"，声音特征慢慢偏离参考音色。官方尝试用拒绝采样缓解但还没完全解决，临时方案是定期重置上下文

语音和文字同时生成时存在"模态鸿沟"，文字质量会下降。他们用了一个叫 Speech Free Guidance（SFG）的技术部分改善，但问题仍然存在

目前只做了语音续接的预训练，对话助手场景需要额外微调

语言覆盖：英语 + 7 种其他语言，还不算广。不过官方透露正在用 Hume 自有数据训练更大的模型，覆盖更多语言放在行业里看

开源情况

TADA 现已完全开源，发布了两个基于 Llama 的预训练模型：

1B 参数英语版：huggingface.co/HumeAI/tada-1b

3B 参数多语言版：huggingface.co/HumeAI/tada-3b-ml

在线演示：huggingface.co/spaces/HumeAI/tada

GitHub：github.com/HumeAI/tada

技术报告：arxiv.org/abs/2602.23068

Hume AI 的博客 | https://www.hume.ai/blog/opensource-tada

来源：Hume AI 发布 TTS 模型：TADA 零幻觉、速度快，能跑在手机上支持中文

吴恩达给 AI 编程 Agent 造了一本活字典：Context Hub

goodinfo.net — Wed, 11 Mar 2026 08:00:00 +0800

📰 正文

你的 AI 编程助手写代码时，用的可能是半年前的 API 文档。

用 Claude Code、Cursor 这些 AI 编程工具写代码的时候，有没有遇到过这种情况：你让它调用某个 API，它信誓旦旦写出一段代码，结果一跑就报错，因为那个参数早就废弃了，或者压根就是它编出来的。

这个问题在开发者圈子里有个名字，叫 Agent Drift（Agent 漂移）。AI 的训练数据是有截止日期的，但 API 文档天天在更新。训练结束的那一刻，AI 的知识就开始"过期"了。

斯坦福大学教授、DeepLearning.AI 创始人吴恩达（Andrew Ng）刚刚开源了一个工具来解决这个问题：Context Hub。

一句话说清它是什么

Context Hub 是一个命令行工具（CLI），相当于给 AI 编程 Agent 配了一本实时更新的 API 字典。Agent 写代码之前先查字典，拿到最新的官方文档，就不用靠记忆瞎猜了。

安装就一行命令：

npm install -g @aisuite/chub

能干什么

搜索和获取文档

Agent 可以通过 chub search 搜索需要的 API 文档，用 chub get 拉取对应的最新版本。支持按编程语言筛选（Python 版或 JavaScript 版），只拿需要的内容，不浪费 token。

chub search "stripe payments" # 搜索 Stripe 支付相关文档
chub get openai/chat --lang py # 拉取 OpenAI 聊天 API 的 Python 版文档

目前已经收录了 68 个主流 API 提供商的文档，包括 Stripe、OpenAI、Anthropic、Supabase、Firebase、Twilio、Shopify、AWS 等。

本地注解：Agent 的"长期记忆"

这是我觉得最有意思的功能。Agent 在调用 API 的过程中发现了一个坑（比如 Stripe 的 webhook 验证必须用原始请求体，不能用解析后的 JSON），它可以把这个经验记下来：

chub annotate stripe/api "Needs raw body for webhook verification"

下次不管是这个 Agent 还是同一台机器上的其他 Agent 再查 Stripe 文档，这条笔记会自动附在文档后面。Agent 不用每次从头踩坑了。

社区反馈：大家一起维护"字典"

Agent 还能给文档打分，标记"准确"“过时"“示例有误"等标签。这些反馈会汇总给文档维护者，帮助整个社区保持文档的新鲜度。

MCP Server 原生集成

Context Hub 还提供了 MCP（Model Context Protocol）Server，Claude Code、Cursor、Windsurf 这些工具可以直接通过 MCP 调用，连命令行都不用敲。

实际场景

调新 API 不踩坑：让 Agent 调用 OpenAI 最新的 Responses API 时，先 chub get openai/chat –lang py 拉一份当前版本的文档，避免它用已经过时的 Chat Completions API

跨项目复用经验：在项目 A 里踩过 Firebase Auth 的一个坑，注解写好后，做项目 B 时 Agent 自动就知道了

团队协作：同一台开发机上，不同 Agent 共享本地注解，避免团队成员重复踩同一个坑

省 token：按语言筛选文档、增量拉取，只给 Agent 最精准的上下文

技能集成：在 Claude Code 里创建一个 skill（~/.claude/skills/get-api-docs/），Agent 写代码前自动查文档，形成"查字典→写代码→记笔记"的闭环

现实地说几句

Context Hub 目前的定位是"人工策展 + 社区维护”。68 个 API 听起来不少，但全球活跃的 API 有几千个，覆盖率还差得远。如果你用的是小众 API 或者企业内部 API，目前是用不上的。

另外，注解功能目前只存在本地，没有跨机器同步。吴恩达在推文里提到了"长期目标是让 Agent 之间共享学到的知识”，但这还是愿景阶段，不是当前能力。

文档质量也完全依赖社区贡献。GitHub 上目前 3400 多个 star、87 个 commit，活跃度不错，但能不能持续维护、跟上 API 更新的速度，还得看后续。

怎么在体系中理解它

如果把 AI 编程工具的知识来源分个层：

底层：模型训练数据（静态，会过期）

中层： RAG / 网页搜索（动态，但噪音大、格式不统一）

上层： Context Hub（人工策展、格式统一、Agent 可读、可注解）

Context Hub 想做的是"上层"这个位置。它和 RAG 不冲突，RAG 解决的是"去哪找信息"，Context Hub 解决的是"信息的质量和 Agent 友好度"。

GitHub：https://github.com/andrewyng/context-hub

来源：吴恩达给 AI 编程 Agent 造了一本"活字典"：Context Hub

Google 发布官方命令行工具一个 CLI 搞定所有 Google 办公全家桶

goodinfo.net — Thu, 05 Mar 2026 08:00:00 +0800

📰 正文

Google 官方发布的一个命令行工具，叫做 gws，专门用来操控整个 Google Workspace 生态。

你平时用 Google Drive 存文件、用 Gmail 发邮件、用 Google Calendar 约会议，这些操作都要打开浏览器手动点。

这个工具让你在命令行里直接干这些事，比如：

gws drive files list # 列出你的 Drive 文件
gws gmail users messages list # 看邮件

更重要的是，它专门为 AI Agent 设计，所有结果都输出 JSON，AI 能直接读懂并操作。

所以你可以告诉 Claude/Gemini：“帮我把今天收到的所有邮件整理成摘要”，AI 就能通过这个工具真的去读你的邮件、处理、甚至回复，全自动，不用你动手。

还支持作为 MCP Server 接入 Claude Desktop，等于给 Claude 开通了操作你整个 Google 工作区的权限。

核心特点：

一个 CLI 搞定所有 Google Workspace，包括 Drive、Gmail、Calendar、Sheets、Docs、Chat、Admin 等，所有命令从 Google Discovery Service 动态生成，并内置了 AI agent skills。

几个亮点： 1.

动态命令生成，它不是预先写死一堆命令，而是运行时读取 Google 的 Discovery Service 动态构建所有命令，Google Workspace 新增 API 后，gws 自动支持。

专为 AI Agent 设计，所有输出都是结构化 JSON，配合内置的 40+ agent skills，LLM 可以直接用它管理 Google Workspace，无需自己写工具。

内置 MCP Server，gws mcp 可以启动一个 MCP 服务，把 Google Workspace API 暴露成结构化工具，供 Claude Desktop、Gemini CLI、VS Code 等 MCP 客户端直接调用。

100+ Agent Skills，仓库里附带了 100 多个 SKILL.md 格式的 Agent Skills，覆盖 Gmail、Drive、Docs、Calendar、Sheets 的常用工作流，可以直接安装到 AI agent 框架里用。

简单来说，这个工具是 Google Workspace 版的"Claude Code"，让 AI Agent 能直接通过命令行操作你的 Google 全家桶，对做 AI 自动化工作流的开发者很有价值，值得关注。用 Rust 写的

GitHub：https://github.com/googleworkspace/cli

来源：Google 发布官方命令行工具一个 CLI 搞定所有 Google 办公全家桶

WiFi-DensePose ：不用摄像头通过WiFi 就能看见你的姿势和心跳

goodinfo.net — Mon, 02 Mar 2026 08:00:00 +0800

📰 正文

只用普通 WiFi 信号，就能穿墙检测人体姿态、呼吸频率和心跳。

你家的WiFi路由器每秒都在往房间里发射大量无线电波。这些电波穿过墙壁、绕过家具、碰到你的身体后反弹回来。

一直以来，我们只关心这些电波能不能帮我们上网。但有人想到了一个疯狂的主意：如果我们分析这些电波被人体干扰后的变化模式，是不是就能"看到"人在哪里、在做什么，甚至能听到他在呼吸？

答案是：可以。

WiFi 信号检测人体姿态这件事，不是科幻。2023 年卡内基梅隆大学（CMU）就发表了论文《DensePose From WiFi》，用 WiFi 信号的信道状态信息（CSI）成功还原了人体姿态，效果接近摄像头方案。这项研究已经被同行评审，发表在正式学术刊物上。

原理：WiFi信号里藏着"人体指纹"

要理解这个项目，首先要知道一个概念：信道状态信息（CSI，Channel State Information）。

普通用户连WiFi时只能看到信号强度（就是手机上那几格信号）。但在底层，WiFi信号其实是由几十个"子载波"组成的，每个子载波都有自己的振幅和相位。当人在房间里移动，甚至只是胸腔因呼吸而微微起伏时，这些子载波的振幅和相位就会发生极其细微的变化。

WiFi DensePose 的核心就是：捕获这些变化 → 用信号处理算法去噪 → 用 AI 模型解读 → 输出人体姿态和生理指标。

整个流程可以这样理解：

WiFi路由器发射信号 → 信号穿过房间碰到人体 → 散射模式发生变化 → ESP32芯片以每秒20次的频率捕获56个子载波的振幅和相位 → 6层信号处理算法清洗数据 → AI骨干网络（RuVector）做注意力计算和图算法 → 神经网络输出17个身体关节点 + 呼吸频率 + 心率 → 实时展示。

不需要训练用的摄像头，模型能从原始WiFi数据自监督学习。

它声称能做什么

WiFi DensePose 的核心卖点是：用 WiFi 信号替代摄像头，实现以下能力。

这里最让人印象深刻的两个数字：一是54,000帧/秒的处理速度（Rust重写后比Python版快了810倍），二是5米的穿墙深度，意味着它真的能"透视"一堵30厘米厚的混凝土墙。

只要8美元的硬件

WiFi DensePose 提供了三种硬件方案：

ESP32 Mesh（推荐）：3-6个ESP32-S3芯片加一个WiFi路由器，总成本大约54美元（单个芯片约8美元）。这是唯一能获得完整CSI数据的消费级方案，支持全部功能：姿态估计、呼吸、心跳、运动、在场检测。

研究级网卡：Intel 5300或Atheros AR9580，50-100美元，需要刷固件，仅限Linux。

任何普通WiFi：你现有的笔记本就行，但只能获取RSSI数据（就是信号强弱），功能大打折扣，只能做粗略的在场检测。

换句话说，一个8美元的芯片就能让你的房间具备"感知"能力。

应用场景：从救命到"细思恐极"

这个项目列举了极其丰富的应用场景，从温暖到冰冷，覆盖面远超预期。

温暖的一面

养老院和居家养老：每个房间放一个ESP32（8美元），就能实现跌倒检测（报警延迟<2秒）、夜间活动监测、睡眠呼吸监测。老人不需要戴任何设备，不需要忍受被摄像头"看着"的感觉。

医院病房：给非重症病床提供持续的呼吸和心率监测，不需要接线，护士站出现异常自动报警。

智能家居：穿墙的在场检测意味着再也不会有"你明明在卫生间，客厅的灯自己灭了"的尴尬。灯光、空调、音乐可以精确跟随你在房间之间的移动。

酒店节能：精确判断房间是否有人，空房自动调低空调，据估算可节省15-30%的暖通能耗。

专业的一面

搜救（WiFi-Mat模块）：这是项目中最硬核的部分。地震废墟下，摄像头和热成像仪都进不去的地方，WiFi信号可以穿透混凝土、木材、石膏板。WiFi-Mat能通过检测废墟下微弱的呼吸信号来发现幸存者，还能用START分诊协议自动对伤员分级（红色/黄色/绿色/黑色）。

消防：在充满浓烟的建筑里，摄像头完全失效，但WiFi信号不受影响。消防员进入之前就能知道里面还有没有被困人员。

零售客流分析：没有摄像头意味着天然GDPR友好。实时统计各区域客流、停留时间、排队长度，顾客完全无感知。

“细思恐极"的一面

项目也非常坦率地列出了军事和安全相关的应用：穿墙人员探测、房间清理确认、人质生命体征远距离监测、边境隧道探测、监狱牢房占用验证。

这让人不由得想到一个问题：如果8美元的芯片就能实现穿墙监控，那大规模隐蔽监控的门槛正在变得极低，而且不需要任何摄像头，传统的反监控手段（比如找摄像头）完全失效。

技术深度：不只是"WiFi版摄像头”

这个项目在技术上有几个值得关注的亮点。

Rust重写：810倍加速

项目最初用Python实现，后来全部用Rust重写。全流程处理速度从每帧15毫秒降到18微秒，提升了810倍。最夸张的是运动检测，从1毫秒降到186纳秒，提速5400倍。Docker镜像从569MB压缩到132MB，测试从41个增加到542+个。

自学习系统（ADR-024）

模型只有55KB大小，能直接运行在ESP32芯片上（可用内存520KB中占55KB）。更关键的是，它能从原始WiFi数据自监督学习，不需要标注数据，不需要摄像头辅助。插上电源等10分钟，它就能学会这个房间的"WiFi指纹"。

它能做到的事情包括：识别不同房间（每个房间有独特的WiFi散射模式）、检测异常（陌生人进入会产生未见过的指纹）、个人识别（每个人干扰WiFi的方式略有不同）。

跨环境泛化（MERIDIAN）

WiFi感知领域一直有一个大问题：在A房间训练的模型，搬到B房间准确率暴跌40-70%，因为模型记住了房间特有的多径传播模式，而不是人体运动的通用规律。

MERIDIAN通过对抗训练解决这个问题：训练一个分类器去猜数据来自哪个房间，同时训练主网络去欺骗这个分类器。最终效果是，模型被迫"忘记"房间特征，只保留人体运动信息。部署到新房间时，用几帧未标注数据就能快速适应。

信号处理：6个顶会级算法

项目实现了6个来自顶级学术会议的信号处理算法：SpotFi的共轭乘法（消除载波频偏）、Hampel滤波器（比标准Z-score更抗污染的异常值剔除）、FarSense的菲涅尔区模型（物理建模呼吸信号）、CSI频谱图（时频分解区分呼吸和走动）、WiDance的子载波选择（只用对运动敏感的通道，提升6-10dB信噪比）、Widar 3.0的体速度剖面（跨环境域无关的运动特征）。

适合谁关注

硬件/嵌入式开发者：如果你有 ESP32 开发经验，可以拿来做 CSI 采集实验，项目的信号处理管线可以当学习参考。

学术研究者：项目引用了大量 WiFi 感知领域的论文（虽然引用准确性有争议），整体框架可以作为 survey 的补充材料。

物联网创业者： WiFi 人体感知是个有商业潜力的方向，了解技术边界和当前进展是有价值的。

普通读者：了解就好。这个技术离"装个 App 就能用"还有很远的距离。

30秒体验

docker pull ruvnet/wifi-densepose:latest
docker run -p 3000:3000 ruvnet/wifi-densepose:latest
# 打开 http://localhost:3000

没有硬件也能跑，模拟模式会生成合成数据展示完整的信号处理流水线和UI界面。想要真实感知功能，需要准备ESP32-S3硬件。

一个值得思考的问题

WiFi DensePose 这个项目本身可能还不成熟，但它指向的技术方向是不可忽视的。

当你家的路由器不仅能联网，还能"感知"到你在哪个房间、在做什么动作、心跳是否正常的时候，我们对"隐私"的定义可能需要重写。

本文参考：GitHub 项目 ruvnet/wifi-densepose | CMU 论文 DensePose From WiFi (2023) 社区讨论：Hacker News、GitHub Issue #37

来源：WiFi-DensePose ：不用摄像头通过WiFi 就能"看见"你的姿势和心跳

阿里巴巴开源个人 AI 助手：CoPaw

goodinfo.net — Sat, 28 Feb 2026 08:00:00 +0800

📰 正文

CoPaw，一个可以跑在你自己电脑上的个人 AI 伙伴。三条命令装好，接上钉钉、飞书、QQ 就能用。

功能覆盖范围

资讯聚合：自动抓取小红书、知乎、Reddit 热帖日报，B站/YouTube 视频摘要

效率工具：邮件/日历联系人整理，Newsletter 摘要推送到钉钉/飞书/QQ

创作辅助：描述目标，让它跑一夜，第二天给你草稿

研究追踪：追踪 AI/科技新闻，构建个人知识库

桌面操作：整理文件、读取/摘要文档、在聊天里请求文件

定时任务（cron）：内置调度器，可设定时间自动执行任务

个人 AI 助手这波浪潮

今年开年以来，“个人 AI 代理"赛道突然火了。最出圈的是一个叫 OpenClaw 的开源项目，在 GitHub 上拿了 6.8 万颗星，被科技圈称为"AI 界的瑞士军刀”。

OpenClaw 能做什么呢？简单说就是你给它接上 Slack、Discord、iMessage，它就变成你的私人助理：帮你读邮件、追踪新闻、管理待办、甚至定时执行各种自动化任务。

但有一个问题：OpenClaw 对中国用户不太友好。它不支持钉钉、飞书、QQ 这些国内主流通讯工具，安装过程也偏极客，普通人上手有门槛。

CoPaw 就是通义实验室的回应：做一个中国开发者和普通用户都能用的版本。

三条命令，从零到可用

CoPaw 最让我惊喜的是安装体验。真的就三条命令：

pip install copaw
copaw init --defaults
copaw app

第一条装软件，第二条初始化配置，第三条启动。不需要配 Docker，不需要折腾环境变量，Python 3.10 以上就行。Mac、Windows、Linux 全支持。

如果你连 Python 都不想装，它还提供一行脚本自动安装（Mac/Linux 用 curl，Windows 用 PowerShell），以及魔搭创空间的一键云端部署。

核心能力：不只是聊天

装好之后，CoPaw 能做的事情远超你的想象。

多渠道接入：这是 CoPaw 对中国用户最大的杀手锏。它原生支持钉钉、飞书、QQ、Discord、iMessage 和命令行终端。你可以在钉钉群里 @它下指令，在飞书里让它帮你搜资料，在 QQ 里让它给你做日报。

对比一下 OpenClaw 支持的 Slack、Discord、iMessage、WhatsApp，你就明白区别了：CoPaw 是目前唯一原生支持国内主流通讯工具的开源 AI 助手。

长期记忆： CoPaw 不是那种聊完就忘的 AI。它会主动记住你的偏好、待办事项和重要决策，下次对话时直接调用。

这个记忆系统用了本地向量搜索，不需要额外装数据库，数据全存在你自己的电脑上。比如你跟它说过"我每周一需要一份竞品分析报告"，它会记住，到了周一自动提醒你（如果配了定时任务的话，直接帮你生成）。

定时任务：你可以给 CoPaw 设定定时任务，让它像闹钟一样到点就干活。每天早上 8 点读一遍科技新闻给你做摘要，每周五下午整理本周的工作文件，每个月 1 号提醒你续费各种订阅服务。

本地跑模型：数据不出你的电脑

这是我觉得 CoPaw 最值得关注的一个点。

现在用在线 AI 工具，你的聊天记录、文件内容、工作数据全都要传到别人的服务器上。虽然各家都说"我们不会用你的数据训练模型"，但数据一旦离开你的电脑，你就失去了控制权。

CoPaw 支持完全本地运行。它原生兼容三种本地模型方案：

Ollama：最流行的本地模型运行工具，一行命令就能跑 Llama、Qwen 等开源模型

llama.cpp：跨平台的轻量级推理引擎，资源占用更少

MLX：苹果专门为 Apple Silicon（M1/M2/M3/M4 芯片）优化的框架，在 Mac 上跑模型效率最高

你也可以接入自己的私有 API 端点，比如公司内网部署的模型。总之，数据走哪条路，完全你说了算。

这对很多场景非常关键。比如你是律师、医生、财务人员，处理的都是敏感信息，用在线 AI 总觉得不放心。有了 CoPaw，模型和数据都在本地，安心多了。

乐高式架构：像拼积木一样加功能

CoPaw 的另一个亮点是它的模块化设计。

它把所有功能都拆成了一个个独立的"技能"（Skill）。每个技能就是一个小模块，你可以随时启用、禁用、替换。想加一个"自动读新闻"的功能？去技能中心找一个装上就行。想自己写一个"每天早上给我发天气预报"的技能？建个文件夹、写个 SKILL.md 描述就搞定。

更厉害的是 MCP 热插拔。MCP（Model Context Protocol）是 Anthropic 推出的一个标准协议，让 AI 工具之间能互相"对话"。CoPaw 支持 MCP 热插拔，意思是你加一个新工具进来，不需要重启整个系统，即插即用。

它还有一个社区技能中心叫 ClawHub，开发者可以把自己做的技能分享出来，其他人一键导入。这跟手机装 App 的体验差不多。

路线图：接下来还要做什么

通义实验室给 CoPaw 画了一张不小的饼：

多模态交互：以后不只能打字，还能语音和视频跟它对话

本地专用模型：针对 CoPaw 的核心场景（日程管理、文件处理、信息检索）做专门的微调小模型，本地跑也够快够准

大小模型协作：隐私数据交给本地小模型处理，复杂任务（比如写长文、做规划）路由到云端大模型。两全其美

技能社区：持续丰富 AgentScope 技能库，让好用的技能更容易被发现

这个路线图最让我期待的是"大小模型协作"。现在本地模型虽然能跑，但能力和 GPT-4、Claude 这些云端大模型比还差不少。如果能智能分流，隐私归本地、能力归云端，确实是个很好的平衡点。

适合谁用？

说实话，CoPaw 目前最适合两类人：

第一类：有技术基础的开发者。你熟悉 Python，了解 API 调用，想搭建一个真正属于自己的 AI 工作流。CoPaw 给你足够的自由度和扩展性。

第二类：团队里的"技术担当"。你在公司负责效率工具，想给团队搭一个接入钉钉或飞书的智能助手。CoPaw 的多渠道能力加上 Apache 2.0 开源协议，商用没有法律障碍。

如果你是完全不懂代码的普通用户，现阶段可能还需要找个懂技术的朋友帮你装一下。但考虑到只要三条命令，这个"帮忙"的成本也不高。

小互说：个人 AI 助手这个赛道，OpenClaw 在海外杀疯了，但对国内用户一直隔着一层纱。CoPaw 不是简单的复制，钉钉/飞书/QQ 原生接入这一点就解决了国内用户最大的痛点。三条命令装好，数据不出本地，MCP 即插即用，阿里通义团队这次确实做了一个实在的东西。

想试试的，GitHub 地址在这：https://github.com/agentscope-ai/CoPaw

官网：https://copaw.agentscope.io/

来源：阿里巴巴开源个人 AI 助手：CoPaw

Vercel 开源 Chat SDK：让你的聊天机器人同时适配各种即时通信软件

goodinfo.net — Thu, 26 Feb 2026 08:00:00 +0800

📰 正文

你有没有想过，做一个聊天机器人要同时适配四五个平台，光是对接不同平台的接口，代码量就翻了好几倍？Vercel 刚刚开源了一个工具，直接把这个问题解决了。

这是什么

Vercel 发布了一个新的开源项目，叫 Chat SDK：一个用 TypeScript 写的工具包，让开发者只写一套聊天机器人的代码，就能同时部署到 Slack、GitHub、Microsoft Teams、Discord 这四个主流平台上。

一套代码，四个平台同时跑。不用为每个平台写一遍逻辑，不用维护四套代码库。

目前已经进入公开测试阶段，任何人都可以去试用。

为什么这件事值得关注

如果你做过任何跟聊天机器人相关的事，你就知道痛点在哪：

每个平台的消息格式不一样，API 接口不一样，认证方式不一样，甚至连"用户点了一个按钮"这种简单交互，在不同平台上的处理方式都完全不同。

这意味着什么？一个功能相同的机器人，你要写 4 份代码，维护 4 套逻辑，修一个 bug 要改 4 个地方。

Chat SDK 做的事情，就是在这些平台之间加了一个"翻译层"。你只需要用统一的方式写逻辑：收到什么消息、怎么回复、怎么处理命令，SDK 自动帮你翻译成各个平台能理解的格式。

核心技术特性

事件驱动架构，内置类型安全的事件处理器，覆盖，

@mentions（被提及）

消息接收

表情反应（Reactions）

按钮点击

斜杠命令（Slash Commands）

JSX 原生 UI 组件，可以用 JSX 编写卡片（Cards）和弹窗（Modals），SDK 负责将其渲染为各平台原生界面，不需要为每个平台单独写 UI 代码。

分布式状态管理，通过可插拔适配器支持，

Redis

ioredis

内存存储

目前的状态

Chat SDK 现在是公开测试版（Public Beta），支持的平台包括 Slack、GitHub、Microsoft Teams 和 Discord。

作为开源项目，代码和文档都可以在 Vercel 官网找到，感兴趣的开发者可以直接上手试用。

Vercel 这次的 Chat SDK 抓住了一个很实际的痛点：跨平台适配太费时间了。“写一次，到处跑"这个理念在前端领域已经被验证过了（React Native 就是这么做的），现在轮到聊天机器人了。

对于想做 AI 机器人的团队来说，这个工具值得关注。

官方介绍及示例：https://vercel.com/changelog/chat-sdk

GitHub：https://github.com/vercel/chat

文档：https://www.chat-sdk.dev/docs

来源：Vercel 开源 Chat SDK：让你的聊天机器人同时适配各种即时通信软件

用 Claude Code 总怕额度用超？这个菜单栏小工具帮你实时盯着

goodinfo.net — Thu, 26 Feb 2026 08:00:00 +0800

📰 正文

写代码写到一半突然被限速，是 AI 编程最让人崩溃的体验。现在有个免费开源的小工具，把你的 Claude Code、Codex、Cursor 的额度直接钉在菜单栏上，随时能看。

一个真实的痛点

如果你在用 Claude Code、OpenAI Codex 或者 Cursor 写代码，你一定遇到过这种情况：

写到关键时刻，突然弹出"你已达到使用限制，请等待 X 小时后重试"。然后你不得不停下来，打开浏览器登录后台，翻半天才找到用量页面，发现自己的 5 小时窗口已经用完了。

问题是：这些 AI 工具都不会主动告诉你还剩多少额度。你只能用到被限速那一刻才知道超了。

CodexBar 就是为了解决这个问题而生的。

CodexBar 是什么

一个 macOS 菜单栏小工具，把你所有 AI 编程工具的用量额度实时显示在屏幕右上角。

长这样：菜单栏多了一个小图标，上面有两条进度条。上面那条显示当前 5 小时窗口的剩余额度，下面那条细线显示每周总用量。一眼就能看到还能用多少、什么时候重置。

点击图标展开详细面板，每个 AI 工具的具体用量、重置倒计时、本月花了多少钱，全都一目了然。

支持哪些 AI 工具

这是我觉得 CodexBar 最厉害的地方：它不是只支持一两个工具，而是几乎覆盖了市面上所有主流的 AI 编程助手。

总共 16 个以上的 AI 工具。而且作者更新非常勤快，基本上每周到两周就有新版本，新工具出来很快就会加上。

它怎么知道你的额度？

你可能会好奇：它怎么不用登录就能拿到我的用量数据？

CodexBar 有两种获取数据的方式：

方式一：读本地日志（默认，最安全）

Claude Code 和 Codex 在本地运行时会生成日志文件（JSONL 格式）。CodexBar 直接读这些日志来计算你用了多少。完全不需要联网、不需要登录、不需要给任何权限。装上就能用。

方式二：复用浏览器 Cookie（可选，更精确）

如果你想看到跟官网后台一模一样的精确数据（比如会员等级对应的具体额度上限），可以手动开启 Cookie 读取。CodexBar 会复用你 Chrome 或 Firefox 里已有的登录状态去拉数据。不存密码，不单独登录，只借用你现有的 Cookie。

对大多数人来说，方式一就够用了。

安装和使用

安装（一行命令）

brew install --cask steipete/tap/codexbar

没装 Homebrew 的话，也可以去 GitHub Releases 直接下载 .dmg 安装。

日常使用

装完打开就行，不需要任何配置。它会自动检测你本地安装了哪些 AI 编程工具，然后开始显示用量。

几个实用功能：

刷新频率可调：1 分钟、2 分钟、5 分钟、15 分钟，或者手动刷新

多工具合并显示：如果你同时用好几个工具，可以开启"合并图标"模式，菜单栏不会被挤满

桌面小组件：支持 WidgetKit，可以把用量卡片放到桌面上

30 天费用统计：自动计算你过去 30 天在每个 AI 工具上花了多少钱

CLI 命令行

CodexBar 还自带命令行工具，方便在脚本里用：

# 查看 Claude Code 的本地用量和费用
codexbar cost --provider claude

# 查看 Codex 的用量
codexbar cost --provider codex

安全性怎么样

这是很多人关心的问题，毕竟它要读你的开发工具数据。说几个关键点：

作者是谁： Peter Steinberger（GitHub: steipete），iOS 社区知名开发者。2011 年创办 PSPDFKit 并成功出售，13 年以上原生开发经验，目前在 OpenAI 工作。不是匿名作者，有长期公开声誉。

代码完全开源： MIT 协议，GitHub 上 6600+ stars，78 位贡献者，代码全是 Swift。任何人都可以审查。

隐私设计合理：

默认只读本地日志，不联网
Cookie 读取是手动开启的，不是默认行为
不存储任何密码
不扫描你的文件系统，只读固定的几个已知路径
Full Disk Access 只在读 Safari Cookie 时需要（可以用 Chrome 代替，就不需要这个权限）

我的建议：放心装。如果你特别谨慎，就用默认的本地日志模式，完全不给额外权限，一样能用。

为什么推荐这个工具

说实话，CodexBar 解决的不是什么高深的问题，但它解决的是一个每天都会碰到的小烦恼。

你不用再：

写到一半被限速才知道额度没了
打开浏览器翻后台看剩余用量
心里猜"我这个小时大概还能用多少"
月底才发现 AI 工具的账单超了预算

一个菜单栏图标，一眼就知道答案。

而且它免费、开源、不需要注册账号、不需要给敏感权限。这种工具没有理由不装。

小互说：我自己每天用 Claude Code 写东西，之前最烦的就是不知道额度还剩多少。装了 CodexBar 之后，瞟一眼右上角就知道了，写到额度快用完会提前收一收，不会再被突然限速打断。如果你也在用 AI 编程工具，强烈建议试试。你平时用什么 AI 工具写代码？额度够用吗？评论区聊聊。

工具信息：

GitHub：steipete/CodexBar
官网：codexbar.app
安装：brew install –cask steipete/tap/codexbar
协议：MIT 开源
系统要求：macOS 14+（Apple Silicon + Intel）

来源：用 Claude Code 总怕额度用超？这个菜单栏小工具帮你实时盯着

PicoClaw：用 Go 语言打造的超高效 AI 助手把小龙虾装进任何设备中

goodinfo.net — Thu, 12 Feb 2026 08:00:00 +0800

📰 正文

PicoClaw 是Sipeed发布的一个超轻量级 AI 助手，用 Go 语言编写，主打在极低成本硬件上运行 AI Agent。

超轻量级 AI Agent 助手，专为“低成本硬件 + 超低内存”设计。

它不是在本地跑大模型，而是作为一个超轻量的 “Agent 客户端”，通过 API 调用云端的大模型（比如 Claude、GPT、智谱 GLM 等），同时在本地执行文件操作、网页搜索、任务规划等 Agent 能力。

官方口号：

💰 $10 硬件运行

🧠 < 10MB 内存占用

⚡ 1 秒启动

🦐 “皮皮虾，我们走！

之所以能做到这么轻，核心原因是用 Go 语言重写了整个项目。Go 编译出来就是一个单独的二进制文件，不需要 Node.js 运行时，不需要 Python 解释器和一堆依赖包，直接丢到设备上就能跑。

核心亮点：

极致轻量：内存占用不到 10MB，启动时间 1 秒（0.6GHz 单核），单个二进制文件跨 RISC-V、ARM、x86 三种架构运行。对比 TypeScript 版的 “OpenClaw”（需要 1GB+ RAM）和 Python 版的 NanoBot（100MB+ RAM），资源消耗降了 99%。

超低成本部署：最低可以跑在 9.9 美元的 LicheeRV-Nano 上，也支持 NanoKVM、MaixCAM 等 Sipeed 自家硬件，适合做家庭助手、服务器运维自动化、智能监控等场景。

AI 自举开发：项目声称 95% 的核心代码是由 AI Agent 自主生成的，灵感来自 HKUDS 的 nanobot 项目，从 Python 重构到 Go 的过程也是 AI 驱动的。

多渠道接入：支持 Telegram、Discord、QQ、钉钉等聊天平台，配合 OpenRouter、智谱、Anthropic、OpenAI 等多种 LLM 后端，还支持 Brave Search 做网页搜索。

主要功能特点

全栈 AI Agent 能力

虽然体积小，但该有的 Agent 功能都有：

对话交互：支持命令行聊天和交互模式

工具调用：可以执行代码、操作文件、做任务规划

网页搜索：集成 Brave Search API，能联网查资料

语音转文字：配合 Groq 的 Whisper 服务，Telegram 上发语音消息也能识别

多模型后端支持

不绑定某一家 LLM，支持的模型提供商包括：

OpenRouter（推荐，一个 key 可以用 Claude、GPT-4 等多种模型）

智谱 AI（国内用户友好，GLM-4 系列）

Anthropic（Claude 直连）

OpenAI（GPT 直连）

Google Gemini

DeepSeek

Groq（免费额度，还支持语音转写）

多聊天平台接入

不只是命令行工具，还能变成你的聊天机器人：

Telegram（推荐，配置最简单）

Discord

钉钉

飞书（配置文件里有，但还在开发中）

也就是说，你可以在一块 10 美元的开发板上跑这个程序，然后通过 Telegram 跟它聊天，让它帮你干活。

跨架构单文件部署

编译后就是一个二进制文件，支持三种 CPU 架构：

x86_64（普通电脑）

ARM64（树莓派、手机芯片等）

RISC-V（Sipeed 自家的低成本开发板）

不需要安装任何依赖，拷贝过去就能用。

AI 自举开发

项目号称 95% 的核心代码是 AI Agent 自己写的，灵感来自香港大学的 nanobot 项目（Python 版），整个从 Python 到 Go 的架构迁移和代码优化都是 AI 驱动完成的。

6.记忆系统（结构很清晰）

它有一个本地工作空间：

~/.picoclaw/workspace/

里面包括：

sessions/ → 对话历史

memory/ → 长期记忆

cron/ → 定时任务

skills/ → 自定义技能

AGENTS.md → 行为规则

IDENTITY.md → 身份设定

SOUL.md → 性格设定

这个设计很有意思。

它把 Agent 的：

人格

行为

偏好

技能

都文件化。

这是一种非常“工程化”的 Agent 设计。

适合跑在哪些硬件上？

9.9美元的LicheeRV-Nano，有带网口和WiFi6两个版本，是最低成本方案，适合做一个永远在线的家庭AI小助手。

30到100美元的NanoKVM，这是一个远程KVM设备，本身就有联网能力和Linux系统，跑PicoClaw之后可以做服务器自动化运维，AI帮你巡检、排故障。

50到100美元的MaixCAM系列，自带摄像头，跑PicoClaw之后可以做智能监控，比如检测到有人进入画面就自动通知你。

当然，这些只是推荐场景。任何能跑Linux的设备都可以，树莓派、旧手机刷Linux、甚至路由器理论上都行。

项目推荐了几个 Sipeed 自家的硬件场景：

当然，任何能跑 Linux 的设备都行，树莓派、旧手机刷 Linux、云服务器都没问题。

怎么用？分三步

第一步：安装

方式一：下载预编译包（最简单）

去 GitHub Releases 页面下载对应平台的二进制文件就行。

方式二：从源码编译（开发者推荐）

bash

git clone https://github.com/sipeed/picoclaw.git
cd picoclaw
make deps
make build # 编译当前平台
# 或者
make build-all # 编译所有平台
make install # 编译并安装到系统路径

第二步：配置

先初始化：

bash

picoclaw onboard

这会在 ~/.picoclaw/ 目录下生成配置文件。然后编辑 ~/.picoclaw/config.json，核心要填的就是 LLM 的 API Key：

json

{
 "agents": {
 "defaults": {
 "model": "glm-4.7",
 "max_tokens": 8192,
 "temperature": 0.7
 }
 },
 "providers": {
 "zhipu": {
 "api_key": "你的智谱API Key",
 "api_base": "https://open.bigmodel.cn/api/paas/v4"
 }
 }
}

如果想用网页搜索功能，再加上 Brave Search 的 key（免费额度每月 2000 次查询）：

json

{
 "tools": {
 "web": {
 "search": {
 "api_key": "你的Brave Search API Key",
 "max_results": 5
 }
 }
 }
}

API Key 从哪来？

第三步：开聊

单次提问：

bash

picoclaw agent -m "帮我写一个Python脚本，批量重命名文件夹里的图片"

交互模式（持续对话）：

bash

picoclaw agent

启动聊天网关（接入 Telegram/Discord 等）：

bash

picoclaw gateway

常用命令速查

典型应用场景

1️⃣ 家庭 AI 助手

部署在：

LicheeRV-Nano（$9.9）

NanoKVM

MaixCAM

可以作为：

本地 AI 管家

自动化服务器助手

智能监控助手

2️⃣ 低成本边缘设备部署

适合：

IoT 设备

嵌入式 Linux

低算力服务器

3️⃣ 自动化运维

结合 cron + LLM：

自动巡检

自动维护

定时报告

🔗 项目地址：https://github.com/sipeed/picoclaw

来源：PicoClaw：用 Go 语言打造的超高效 AI 助手把小龙虾装进任何设备中

DeepSeek发布全新文档理解 OCR 模型：DeepSeek-OCR-2 模拟人类阅读文档

goodinfo.net — Tue, 27 Jan 2026 08:00:00 +0800

📰 正文

DeepSeek发布其文档理解 OCR 模型：DeepSeek-OCR-2，其核心目标并非单纯的字符识别，而是实现面向文档结构与语义的 OCR 生成任务。

参数规模：3B

模型支持动态分辨率输入：

多块 768×768 patch

单块 1024×1024 全局视图

模型被定义为：

Image-Text-to-Text

多语言

面向复杂文档场景（PDF、扫描件、结构化文档）

普通 OCR： 👉「图里有哪些字？」

DeepSeek-OCR-2： 👉「这是一份什么文档？标题在哪？段落怎么分？表格怎么还原？」

与传统 OCR 系统相比，该模型将 OCR 任务提升为：

“基于视觉理解的文本生成问题”

也就是，不是只认字，而是像人一样“读文档、理解版面、再输出文字”。

它是一个「视觉 + 语言」大模型

官方标签是：

Image-Text-to-Text

意思是：

图片（文档、扫描件、截图）
↓
视觉理解（版面、结构）
↓
语言模型（组织文字）
↓
输出文本

其输出目标是：

结构化文本

具备逻辑顺序的段落

可直接用于下游语言模型任务的表示形式（如 Markdown）

该模型本质上是一个文档级生成模型，而非字符识别引擎。

它的核心理念 👇

想解决的是什么问题？

表面问题：OCR 效果不够好

这不是论文真正关心的点。字符识别本身并不是瓶颈。

实际问题：文档的“阅读顺序”和“结构逻辑”

在复杂文档中（论文、报告、表格密集页面）：

文本内容本身并不难识别

难的是：

哪些是标题

哪些是正文

表格应该如何按逻辑顺序展开

多栏排版该如何串成一条线性文本

换句话说，问题不是“认字”，而是“读文档”。

官方提出一种 Visual Causal Flow 的算法，其整体设计理念，主要体现在以下几个方面： 1.

视觉层级建模

从整体布局到局部区域逐级建模

结构优先于文本

先判断区域角色（标题、正文、表格），再生成文本

生成式 OCR

文本不是简单读取，而是基于视觉理解进行生成

也就是模型在“看到整张文档”之后

再决定：

哪些区域应该先被“识别”

哪些应该后能被识别

阅读顺序应当如何组织

这一范式更接近人类阅读文档时的处理流程。

传统 OCR 的思路（很“机械”）

像素 → 边缘 → 字符 → 拼字符串

DeepSeek-OCR-2 的思路（更像人）

看整体 →
理解这是“文档” →
理解哪里是标题 →
理解段落逻辑 →
再输出文字

👉 先理解“因果和结构”，再生成文字，这就是他们称为的 Visual Causal Flow（视觉因果流）技术。

模型能力边界与任务范围

支持的核心任务

文档 OCR（含扫描件、截图）

文档结构识别（标题、段落、列表）

表格与版面感知文本生成

图像到 Markdown 的结构化输出

多语言文档识别

非目标任务

手写体识别（尤其是自由书写）

艺术字体或高度装饰性文本

实时低延迟移动端 OCR

纯字符级精确定位任务

Prompt 机制与控制方式

DeepSeek-OCR-2 采用指令驱动式 OCR，即 OCR 行为可通过 prompt 控制。

结构化输出（推荐）

<image>
<|grounding|>Convert the document to markdown.

该指令触发模型的文档结构理解能力，输出具备层级关系的文本。

非结构化输出

<image>
Free OCR.

该模式下模型主要执行文本识别，不强调版面结构。

实验结果与定量分析

总体提升：+3.73%

阅读顺序错误显著下降

与 Gemini-3 Pro 的对比（page 10）

在相同 token 预算下：

DeepSeek-OCR 2 的整体 Edit Distance = 0.100

Gemini-3 Pro = 0.115

说明：

高压缩率下仍保持结构理解优势

生产环境指标（page 10）

在线图片 OCR 重复率：

6.25% → 4.17%

PDF 生产流水线：

3.69% → 2.88%

表明该架构并非仅“学术有效”，而是具备工程可用性。

方法论意义（Why it matters）

DeepSeek-OCR 2 的核心贡献不在于“更强 OCR”，而在于：

将视觉编码从“空间展开”推进到“因果重排”

明确提出并验证了 Visual Causal Flow 这一可实现架构

为文档理解型 OCR 提供了新的工程与研究范式

重新定义了“视觉编码”的核心问题

以往视觉模型默认假设：

视觉 token 的顺序是给定的

DeepSeek-OCR 2 提出并验证：

视觉 token 的顺序应当是模型推理的结果

这是从“被动编码”到“主动建序”的转变。

将文档理解问题上升为“因果建模问题”

该工作表明：

文档阅读 ≠ 空间扫描

文档阅读 = 语义驱动的因果顺序决策

这使“阅读顺序”成为一个可学习、可优化的模型对象。

提供了一条 2D 理解的可行路径

论文给出一个明确方法论假设：

图像是 2D，但语言模型是 1D

2D 视觉理解 ≈ 两个级联的 1D 因果推理过程

Encoder：视觉阅读顺序建模

Decoder：基于顺序的语言生成

这是对“2D → 1D 映射问题”的一种系统性回答。

这为后续 VLM 架构提供了一个可复用的设计思路。

模型下载：https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

论文：https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

GitHub：https://github.com/deepseek-ai/DeepSeek-OCR-2

来源：DeepSeek发布全新文档理解 OCR 模型：DeepSeek-OCR-2 模拟人类阅读文档

Clawdbot：开源的个人AI助手在聊天软件里指挥AI干活

goodinfo.net — Sun, 25 Jan 2026 08:00:00 +0800

📰 正文

Clawdbot 是一个开源的个人AI助手平台，能在你的电脑上运行，通过 WhatsApp、Telegram、Discord、Slack、Signal、iMessage 等主流聊天应用与你互动。

它不仅能聊天，还能实际执行任务，如：

清理收件箱、发送邮件

管理日历、提醒事项

自动办理登机手续

运行脚本、执行命令

浏览网页、填写表单、抓取数据

它是一个能替代“虚拟助理”的自主AI系统，连接你所有的工具并具备持续记忆与上下文理解能力。

Clawdbot = 一个住在你自己电脑里的 AI 助手

你不是去某个网站用它

而是它在你的电脑上一直运行

你通过微信/WhatsApp/Telegram/Discord 等聊天软件跟它说话

它听懂后，直接在你的电脑上帮你操作

👉 就像：

你发消息给一个“24 小时在线、会用电脑的助理”

核心理念

“Clawdbot 不只是一个聊天机器人，而是一个在你电脑上‘真正工作’的数字助理。”

核心哲学：

去云端中心化：你的AI运行在你控制的设备上；

开放与自定义：用户可编程、可自扩展；

自我进化：AI可自行生成新技能；

核心功能

1️⃣ 能真正「做事」，不是只回答问题

普通 AI（比如 ChatGPT）：

告诉你怎么做

Clawdbot：

直接帮你做

比如：

帮你发邮件

帮你整理收件箱

帮你查资料 + 总结

帮你填写网页表单

帮你写代码 + 在电脑上跑

帮你操作文件、运行命令

2️⃣ 可以直接控制你的电脑

它可以（你授权的前提下）：

打开浏览器

上网搜索

填写网站内容

读取 / 新建 / 修改文件

运行脚本、程序、命令行

📌 本质上：它就是一个“会用鼠标和键盘的 AI”

3️⃣ 用聊天软件就能指挥它

你不需要学新 App。

你可以在：

Discord

Slack

iMessage

里直接发消息，比如：

“帮我把今天没用的订阅邮件退掉” “查下明天去上海的航班” “帮我整理这个文件夹”

它就在你电脑上执行。

4️⃣ 它有「长期记忆」

它会记住：

你是谁

你的习惯

你的偏好

你之前让它做过什么

所以它不是一次性聊天，而是：

越用越懂你

像一个长期助理。

5️⃣ 能自己“学新技能”

如果它不会某件事：

你可以让它学

或直接说：

“给自己写个功能，之后每周都这么做”

它可以：

写代码

加插件

扩展能力

下次直接用

👉 这点非常不普通。

它能用来干什么？（举几个现实例子）

🧑‍💼 工作

自动回邮件

安排会议

整理资料

写周报、文档

👨‍💻 技术/开发

写代码

跑测试

修 Bug

管 GitHub、服务器

🏠 生活

查航班、办值机

管日程、提醒

控制智能家居

做个性化提醒

可集成的生态系统（部分示例）

支持 50+ 集成，并可自定义扩展。

下载安装：https://clawd.bot/

GitHub：https://github.com/steipete/clawdbot

来源：Clawdbot：开源的个人AI助手在聊天软件里指挥AI干活

Agentation ：一个给 AI 编程助手用的“可视化标注工具” 指哪改哪

goodinfo.net — Fri, 23 Jan 2026 08:00:00 +0800

📰 正文

Agentation（名字来自 Agent + Annotation）是一个专为开发者和 AI 编程工具设计的“可视化反馈标注工具”。

你可以在自己做的网站页面上，直接用鼠标点出有问题的地方（比如某个按钮、文字、或图片），然后写上反馈，Agentation 会自动生成一段带结构信息的说明。

这段说明你只要复制粘贴给 Claude Code、Cursor、Windsurf 这些 AI 助手，AI 就能立刻在代码里找到对应的地方，修改问题。

简单说：就是它能让你在自己的网站上“圈出问题”，生成带结构化信息的反馈，然后发给你的 AI 编码助手（比如 Claude Code、Cursor、或 Windsurf）。

AI 就能精准地定位出问题的代码位置并修复它，而不用再靠你模糊地描述“蓝色按钮那块有 bug”。

用一句话解释：

Agentation 让你“用鼠标指出问题”，而不是“用语言解释问题”。

它帮 AI 明白你到底指的是页面上的哪个元素，从而更准确地修改代码。

想象一下这个场景

你让 Claude 帮你写了一个网页。

网页打开后，你发现：

按钮太小；

文案有拼写错误；

登录弹窗打不开。

现在你要告诉 Claude 怎么改，你得一个个解释，比如：

“在首页右下角的那个蓝色按钮上，点击没反应，能帮我修一下吗？”

Claude 听完后，得猜半天是哪段代码。因为它不知道“右下角蓝色按钮”对应哪一个文件、哪个 class。

这就浪费了时间。

而有了 Agentation，你可以： 1.

在网页上点击某个元素（比如一个按钮、一段文字、一个图片等）；

添加你的反馈说明（比如“这个按钮太小了”、“这个文字拼错了”）；

工具会自动记录该元素的技术信息，比如：

元素的 class 名称

元素在网页中的 CSS 选择器

元素的位置

然后它会帮你生成一个整齐的 Markdown 格式反馈，像这样👇：

### Annotation
Selector: .sidebar > .nav-actions > button.primary
Issue: 按钮文字应为“提交”，但目前显示为“送出”

这样一来，当你把这段文字复制给 AI 工具（Claude Code 或 Cursor）时， AI 可以立刻定位到对应代码文件，并自动修改正确的内容。

几秒钟就能修好。

最佳使用技巧（开发者小贴士）

它的核心原理是什么？

Agentation 的原理其实很简单，但非常聪明。

它做的事情就是：当你点击网页上的某个元素时，它会自动收集这个元素的：

HTML 选择器（selector）

类名（class）

层级路径

在页面中的位置坐标

这些信息组合在一起，就能唯一地标识出网页里的那个元素。

然后 Agentation 把这些数据打包成一段结构化 Markdown 文本。AI 拿到后就能直接在代码里定位这个元素所在的文件或组件。

换句话说：

你指的是“看得见的按钮”， AI 能立刻知道“代码里的哪一行”。

这就像是你给 AI 配上了“定位眼镜”。

如何安装使用？（超详细步骤）

首先要知道：

Agentation 目前是桌面端专用工具（Desktop Only），主要作为一个浏览器内开发调试插件（前端工具）来运行。

⚠️ 当前仅支持桌面端（Desktop only）需要 React 18+，仅限开发环境使用（dev-only）

它不是一个 Chrome 插件或 VS Code 插件，而是一个可以嵌入在本地网页开发环境（如 localhost:3000）中的 React 工具。

安装依赖包

在你的 React 项目中运行以下命令之一：

npm install agentation

或使用其他包管理器：

yarn add agentation
# 或
pnpm add agentation
# 或
bun add agentation

在应用中添加组件

在你的 React 应用中（建议在根组件中）引入：

import { Agentation } from "agentation";
function App() {
return (
<>
<YourApp />
{process.env.NODE_ENV === "development" && <Agentation />}
</>
);
}

✅ NODE_ENV 检查确保 Agentation 只在开发模式下加载，不会在生产环境中运行。

Claude Code 一键集成（可选）

如果你使用 Claude Code（Anthropic 的 AI 编码工具），可以自动安装并配置 Agentation：

1️⃣ 安装技能：

npx add-skill benjitaylor/agentation

2️⃣ 在 Claude Code 中运行：

/agentation

Claude Code 会自动：

检测你的框架；

安装 Agentation 包；

创建 Provider；

自动接入布局文件。

如何使用

1️⃣ 打开 Agentation 工具它现在是桌面版（Windows、Mac、Linux 都行）。启动后会在你的网站右下角出现一个小图标。

2️⃣ 激活标注模式点击右下角的图标进入“标注状态”。这时候，当你把鼠标移动到页面上的元素时，每个元素都会被高亮显示。

3️⃣ 选择想反馈的元素比如你看到一个按钮有问题，点击它。

4️⃣ 填写反馈文字会弹出一个小框，让你写下你的想法，比如： “按钮文字太模糊”、“动画卡顿”、“点击没反应”等。

5️⃣ 生成结果并复制点击“Add”或“Copy”， Agentation 会自动生成一段 Markdown 格式的输出。

6️⃣ 粘贴到你的 AI 编程助手打开 Claude Code 或 Cursor，把这段文本粘进去。它会立刻根据那段 selector 信息，在代码里找到问题的源头并修改。

整个过程完全可视化，几乎不需要动脑子。

背后的创意：

Agentation 的灵感来自一位开发者 Benji Taylor。他写了一篇文章探讨——

“为什么开发者和 AI 的沟通效率这么低？”

他发现：

人类喜欢用视觉描述（“这里不对”）

AI 只能读文字（“在文件 X.js 的第 45 行”）

于是他和两位同事（Dennis Jin 和 Alex Vanderzon）做了一个桥梁：让视觉反馈转成代码可读的信息。

这就是 “Agent + Annotation” = Agentation 的由来。

安全说明

Agentation 的所有操作均在本地浏览器中执行，不会上传或收集任何数据。

🚫 无网络请求（No network requests）

🧱 所有数据仅在本地处理

🧩 不存储或追踪任何用户信息

🧠 仅用于开发环境（Dev-only）

在线体验：https://agentation.dev/

来源：Agentation ：一个给 AI 编程助手用的“可视化标注工具” 指哪改哪

Qwen3-TTS 正式开源：全能语音生成、克隆与设计系统

goodinfo.net — Fri, 23 Jan 2026 08:00:00 +0800

📰 正文

阿里巴巴 Qwen 团队发布了全新一代语音合成模型系列 Qwen3-TTS，具备语音克隆、语音设计、超高保真语音生成以及基于自然语言的语音控制等能力，是目前功能最全的开源语音生成系统之一。

该系列基于创新的 Qwen3-TTS-Tokenizer-12Hz 多码本语音编码器，实现了高效压缩与鲁棒语音表示，可在轻量架构下快速、逼真地还原人声与声学环境。

它能做到：

🧬 克隆声音：听你说3秒话，就能复刻出你的音色；

🎙️ 自定义音色：你说“来个温柔女声”或“做成热血旁白”，它立刻生成；

🗣️ 自然情绪控制：能听懂文字里的语气，比如“愤怒”、“悲伤”、“调皮”；

🌍 多语言支持：能说中、英、日、韩、法、德、西、俄、葡、意共10种语言；

⚡ 实时响应：输入一个字，它就开始说，延迟低至 97毫秒，几乎实时。

版本配置与性能

两个版本都支持：

流式语音生成（边输入边说）

自然语言控制（直接指令调节语气）

语音克隆与定制音色

主要区别：

技术亮点

🌐 1. 全新语音编码器

用上了一个叫 Qwen3-TTS-Tokenizer-12Hz 的黑科技模块。它的作用是：

把复杂语音信号压缩成高效编码；

同时保留音色、情绪、背景环境音等细节；

让AI说话更“真”，而且声音不失真。

👉 它相当于给声音做了“高清压缩”，既轻量又保真。

⚡ 2. “Dual-Track” 双通道流式生成

这个机制让 Qwen3-TTS 的响应几乎是实时的：

输入一个字符，它就能马上发声；

整体延迟只有 97ms，比你眨眼还快。

适合应用在：

实时语音助手

游戏NPC对话

直播配音、互动故事

🎨 3. “自然语言控制”真懂你说什么

Qwen3-TTS 不需要复杂参数，只要说人话指令就能调整声音，比如：

「用激动的语气讲一下」「小声点说，语速慢一点」「像中年男性播音那样讲」

它就会自己调节语气、节奏和音高，效果自然流畅。这意味着你不用懂声音工程，也能轻松“导演”AI怎么说话。

🧬 4. 声音克隆只要3秒

你录3秒语音，它就能学会你的声线。无论你是男是女，说中文还是英文，它都能模仿。甚至能做到跨语言克隆，比如：

你用中文录音，它能用相同音色说英语或日语！

官方测试显示：

平均识别误差（WER）只有 1.8%

说话人相似度高达 0.79 这意味着几乎可以“以假乱真”。

🧩 5. 多角色对话 & 长音频生成

Qwen3-TTS 不仅能生成一句话，还能生成完整的对话、旁白或广播剧。例如：

「旁白」语气平稳「角色A」兴奋「角色B」紧张

它会自动给每个角色换音色、调整节奏，甚至保持人物一致性，做一整段“多角色配音剧”完全没问题。

🧏 6. 声音质量（真的很强）

在 InstructTTS-Eval、Seed-tts-eval 等权威测试中，Qwen3-TTS 系列在指令跟随、表达力、语音稳定性与跨语种能力上全面超越 MiniMax、SeedTTS、CosyVoice3 与 ElevenLabs 等模型，达到全球开源 TTS 模型的新 SOTA。

具体来说：

音色创造任务上，Qwen3-TTS-VoiceDesign 在 InstructTTS-Eval 中指令遵循能力和生成表现力都整体超越 MiniMax-Voice-Design 闭源模型，并大幅领先其余开源模型。

在音色控制任务上，Qwen3-TTS-Instruct 不仅具备单人多语言的泛化能力，平均词错率 2.34%；同时具备保持音色的风格控制能力，InstructTTS-Eval 取得了 75.4% 的分数；此外，也展现出卓越的长语音生成能力，一次性合成 10 分钟语音的中英词错率为 2.36/2.81%。

在音色克隆任务上，Qwen3-TTS-VoiceClone 在 Seed-tts-eval 上中英文克隆的语音稳定性表现上均超越 MiniMax 和 SeedTTS；在 TTS multilingual test set 上 10 个语项上取得了 1.835% 的平均词错误率和 0.789 的说话人相似度，超越 MiniMax 和 ElevenLabs；跨语种音色克隆也超越 CosyVoice3 位居 SOTA。

使用方式

Qwen3-TTS 已全面开源，可通过以下渠道体验：

💻 GitHub

🤗 HuggingFace 模型页

🌐 ModelScope

☁️ Qwen API 在线接口

📃 技术报告

在线体验：https://huggingface.co/spaces/Qwen/Qwen3-TTS?spm=a2ty_o06.30285417.0.0.2994c921FICm3F

来源：Qwen3-TTS 正式开源：全能语音生成、克隆与设计系统

在手机上实时监控Claude Code 工作进度并下达指令干活

goodinfo.net — Thu, 22 Jan 2026 08:00:00 +0800

📰 正文

你在电脑上用 Claude Code 或 Codex 写代码。

如果你临时出门、拿着手机，也想看看 AI 现在写到哪了？是否遇到问题？

该怎办？

这个开源的程序可以帮到你

Happy 是一个 AI 编程助手的“远程控制器”。

它可以让你：

在手机、网页、平板上查看 Claude/Codex 的运行进度；

直接对话或语音下指令；

实时切换设备（比如从手机控制切回电脑只需按键）。

并且整个通信过程是端到端加密（End-to-End Encrypted）的，你的代码不会泄露到服务器。

核心功能概览

它不是用来写代码的编辑器，而是一个AI 代码助手的遥控器 + 通信桥。

也就是说，它不帮你写代码，而是帮你随时随地控制那个帮你写代码的 AI。

比如说👇

你在电脑上让 Claude 写一个 React 项目；

你去吃饭或出门，手机上打开 Happy App；

它会显示 Claude 当前在干嘛、输出了什么；

你还可以直接在手机上输入新指令，甚至用语音说：“Claude，重命名文件夹”；

Claude 会立刻执行，然后 Happy 实时同步更新结果。

你不用远程桌面、也不用 VPN。

一切都通过 Happy 自建的加密连接实现。

项目的工作原理（简单解释）

Happy 实际上由三部分组成👇：

安全 + 隐私

“我们不看你的代码，也不保留任何日志。”

Happy 的所有通信都是端到端加密（End-to-End Encryption）。也就是说：

你写的内容不会上传到他们的服务器；

就算有人中间拦截，也只能看到加密数据；

只有你的设备能解密。

而且项目是完全开源的，你可以自己看代码确认它真的没偷数据（他们还写了隐私政策 PRIVACY.md）。

所以它非常适合那些担心隐私的开发者。

在哪些设备上能用？

Happy 几乎支持所有常见平台：

iPhone / Android 手机：有官方 App；

网页端：直接登录网页版就能用（happy.engineering）；

macOS 桌面端：支持通过 Tauri 框架本地运行；

Windows / Linux：通过命令行（CLI）使用。

而且你可以非常自由地在设备之间来回切换。

比如，你在电脑上运行 Claude，走开时拿出手机打开 Happy App，它会立即显示当前 Claude 的状态。如果想重新在电脑上接管，只要按键盘上的任意键，Claude 就自动切回本地控制。

这个过程几乎是无缝的。

怎么用？上手很简单

Happy 的设计目标就是“让你一分钟内上手”。以下是一个新手能理解的完整流程👇

第一步：安装命令行工具

在电脑上运行这条命令（需要 Node.js 环境）：

npm install -g happy-coder

第二步：启动 Claude / Codex

平常你可能直接在命令行输入：

claude

或者：

codex

现在只要改成：

happy

或者：

happy codex

这样 Claude/Codex 就会在 Happy 的“加密控制模式”下启动。

第三步：用手机连接

下载「Happy Coder」App（iOS/Android 都有），登录后就能看到 Claude 当前的运行状态。

此时你可以：

看 Claude 输出的结果；

让它继续执行任务；

用语音对它说话；

或直接在手机上编辑代码段。

整个过程不需要公网 IP、不需要 VPN，因为它会自动建立一条加密隧道来同步数据。

GitHub：https://github.com/slopus/happy

iOS下载

安卓下载

官网：https://happy.engineering/

来源：在手机上实时监控Claude Code 工作进度并下达指令干活

智谱 AI 发布 GLM-Image 自回归图像生成模型能精准理解文字语义并生成高保真具知识结构的图像

goodinfo.net — Sat, 17 Jan 2026 08:00:00 +0800

📰 正文

智谱 AI 发布 GLM-Image ：一个能“理解复杂语义 + 生成高质量图片”的 AI 图像生成模型。

是世界上第一个开源、工业级的自回归图像生成模型（Auto-regressive Image Generator）。

智谱研究团队在总结现有图像模型时发现两个明显问题： 1.

语义理解差扩散类模型虽然画面漂亮，但经常画错语义。比如输入“一个医生和一个病人”，模型可能生成两个医生。

文字和知识表现弱大多数模型渲染文字能力很差，尤其是中文。也无法很好地表达有知识逻辑的图像内容，比如技术示意图、教育海报或科普内容。

为了解决这两个问题，智谱团队选择了一条不同的路线：用语言模型（LLM）处理语义理解，用扩散模型处理图像生成。

二者结合，就是 GLM-Image。

主要功能包括：

文本生成图像（Text-to-Image）能根据中文、英文或混合输入生成语义准确、构图合理的图片，适用于广告创意、科普插图、教育内容等场景。

图像编辑与再生成（Image Editing / I2I）支持局部修改、背景替换、风格迁移等任务，在保持画面一致性的同时进行精准重绘。

文字渲染与排版（Text Rendering）借助 Glyph-byT5 模块，能够在图片中生成结构清晰的中英文文字，在 CVTG 和 LongText-Bench 测试中表现领先。

身份与多主体一致性生成生成过程中能保持人物或物体的身份与动作关系一致，适合角色设计、故事插画、虚拟人制作。

知识密集型图像生成（Knowledge-dense Generation）可根据技术性或教育类文字生成逻辑严谨、信息丰富的图像，支持图表、流程图、结构图等复杂内容。

GLM-Image 的架构：两种模型的结合体

GLM-Image 使用了一种「混合式结构」：

文字输入 → [自回归生成器] → 语义表示 → [扩散解码器] → 图像输出

这两个模块互相协作：

第一步：语言模型理解文字 → 生成语义布局；

第二步：扩散模型据此生成细节 → 输出最终图像。

💡 理解 → 表达 → 渲染三步走。

为什么叫“自回归（Auto-regressive）”？

“自回归”是一种模型生成方式，它不是“一次生成整张图片”，而是像语言模型一样，“一个 token 一个 token 地生成”。

想象你在画画： 1.

先想好主题；

再决定布局；

然后一点点画出细节。

GLM-Image 的自回归模块做的正是这件事：

每个 token 对应画面的一个语义片段；

模型逐步预测下一个“画面单元”；

直到构思完整。

这样带来的好处是：

能保持画面的逻辑一致；

对长句、多实体描述的理解更准确；

特别适合“知识密集型”场景（如科普、教育、广告）。

技术细节（逐层拆解）

（1）视觉编码：用 Semantic-VQ 表达图像语义

传统模型（如 DALL·E 或 SDXL）在训练图像时通常会把图片切割成小块（patch）并编码成向量。

但不同编码方式的信息保留程度差距很大👇：

智谱 AI 经过实验发现：

使用语义量化（Semantic-VQ）的编码方式能让模型更懂内容。

所以 GLM-Image 采用 X-Omni 的语义量化算法。每张图被压缩成 16 倍尺寸（16×16 的 patch），编码为一串“语义 token”，再输入自回归模块。

（2）多分辨率训练策略

GLM-Image 不是一次性训练高分辨率图片，而是分阶段逐步提升画质：

模型最终能生成最高 2048×2048 的图片。

这种渐进式策略使模型在每一阶段都能“稳步理解 + 稳定收敛”。

（3）扩散解码器（Diffusion Decoder）

当自回归模块生成了语义 token 后，扩散解码器接手任务，把这些语义信息变成真实的画面。

它采用了：

DiT（Diffusion Transformer）结构；

Flow Matching 调度算法（让扩散收敛更快、更稳）；

Glyph-byT5 小模型，用于改进中文字符渲染。

💬 为什么需要 Glyph-byT5？

因为中文文字在图像中包含细节笔画结构，传统扩散模型往往渲染错误。

Glyph-byT5 会把文字分解成字形特征，再让扩散模型“照着笔画画”。

（4）图像编辑机制

在进行图像编辑（如换背景、改衣服）时， GLM-Image 同时输入：

语义-VQ token；

参考图像的 VAE latent 表征。

采用 Block-Causal Attention（块级因果注意力），在计算量减少的同时，能精准保持原图细节。

相比之下，像 Qwen-Image-Edit 那种“全注意力”方案虽然更精确，但速度更慢。

（5）后训练：强化学习双优化

GLM-Image 在训练完成后，还进行了一轮“强化微调”：

奖励信号包括：

HPSv3（美学得分）

OCR 准确率（文字清晰度）

VLM 对齐（语义准确性）

LPIPS（视觉感知相似度）

手部打分模型（提高手部生成质量）

结果是：GLM-Image 不仅“理解得准”，而且“画得漂亮”。

性能表现

GLM-Image 在多个权威基准测试中表现优秀，尤其是在中文任务上。

文本渲染（CVTG-2k）

在中文、英文、混合排版场景中都表现稳定。

平均文字识别准确率 0.9116（中文英文双优）

是所有开源模型中文字渲染最准确的模型。（优于 Qwen-Image 和 SD3.5）

长文本渲染（LongText-Bench）

中文准确率 0.979，几乎追平闭源的 Seedream 4.5

英文准确率 0.952

综合图像生成（OneIG）

英文任务总体得分 0.528

中文任务 0.511 （与 Qwen-Image-2512 相当，优于 CogView4）

特别在 “文本理解” 和 “逻辑推理” 两项指标上表现突出。

知识密集型任务（DPG-Bench）

在涉及复杂结构、实体关系、属性理解的任务中：

GLM-Image 得分 84.78，略低于 Qwen-Image（88.3

但在关系理解与结构生成方面表现稳定。

这意味着它在“理性生成任务”中依旧可靠。

官方介绍：https://z.ai/blog/glm-image

GitHub：https://github.com/zai-org/GLM-Image

模型：https://huggingface.co/zai-org/GLM-Image

文档：https://docs.z.ai/guides/image/glm-image

来源：智谱 AI 发布 GLM-Image 自回归图像生成模型能精准理解文字语义并生成高保真具知识结构的图像

Black Forest Labs 推出FLUX.2 [klein]模型：亚秒级速度图像生成实现0.5秒出图改图

goodinfo.net — Fri, 16 Jan 2026 08:00:00 +0800

📰 正文

Black Forest Labs 发布其最新模型 FLUX.2 [klein]，这是一款兼具亚秒级速度与卓越画质的图像生成模型。

能够在不到一秒的时间内生成高质量图像，同时保持令人惊叹的细节与美感表现。

FLUX.2 [klein] 专为快速创意开发、风格迁移与视觉编辑任务而设计。用户可以轻松完成从概念到成品的全流程创作（即“从 0 → 1”），无需牺牲质量或等待时间。

⚡ 非常快：0.5 秒内生成或编辑图像

💻 消费级显卡即可运行（13GB VRAM 起）

🖼️ 画质好：输出接近商业级成品；

🧩 灵活使用：网页试用、本地部署、API 接入全支持；

🧠 可训练：适合个性化微调；

🪪 部分版本开源（Apache 2.0），可自由商用。

这使得它特别适用于：

实时设计与原型制作

动态风格切换与艺术探索

AI 辅助内容生成与编辑

四种模型变体

FLUX.2 [klein] 9B

核心旗舰版。

建立了“质量-延迟”最优平衡点。

在 <0.5 秒内生成结果，质量匹敌比其大 5 倍的模型。

使用 9B flow model + 8B Qwen3 text embedder。

支持多图像混合、复杂概念融合与高速迭代。

FLUX.2 [klein] 4B

轻量完全开源版（Apache 2.0）。

支持本地部署与边缘计算。

性能虽小但质量出众。

Base 模型（9B / 4B）

未蒸馏（undistilled）版本，保留完整训练信号。

输出多样性更高，适合科研与自定义控制场景。

硬件要求与适配性

4B 版本只需：

✅ RTX 3090 / 4070（13GB VRAM 即可）

✅ 本地运行，支持 Windows / Linux / macOS

✅ 开源权重（Apache 2.0）

9B 版本适合：

🔧 开发者与研究人员（需约 16GB+ VRAM）

🚀 支持 LoRA 微调与自定义训练

BFL 与 NVIDIA 合作推出 FP8 / NVFP4 量化方案后，即便是 RTX 3060 / 4060 级别显卡也能流畅运行。

主要功能与技术特点

1️⃣ 统一模型：生成 + 编辑 + 多参考

传统的图像生成模型通常分为独立的模块

FLUX.2 [klein] 并非仅仅做生成，而是将以下功能整合进一个模型：

T2I（Text-to-Image）：从文本生成图像；

I2I（Image-to-Image）：基于已有图像进行编辑；

Multi-Reference Generation：综合多张图片的视觉特征生成新图像。

FLUX.2 [klein] 采用统一架构，将这三者融合。

也就是说，一个模型就能：

从文字生成图像；

对已有图像进行修改；

融合多个图像的风格或内容生成新图像。

这种整合不仅减少了推理延迟，也使模型能更自然地处理复杂的视觉任务。

2️⃣ 亚秒级推理：真正的实时生成

FLUX.2 [klein] 实现了低于 0.5 秒的推理时间。这意味着用户几乎可以实时看到修改后的图像结果。这种性能突破为：

交互式创作软件（例如 Photoshop 类产品的 AI 功能），

视觉对话系统，

AI 设计助手提供了基础。

🔹 以往的扩散模型通常需要 20～50 步推理，而 FLUX.2 通过“step-distillation（步骤蒸馏）”技术，将其压缩至仅 4 步即可完成。

3️⃣ 高效与小型化

“klein”在德语中意为“小”，暗示了其设计理念：小体积、低延迟、却保持高性能。

4B 模型：只需约 13GB VRAM 即可运行，适配 RTX 3090 / 4070 等消费级 GPU。

9B 模型：虽然更大，但提供旗舰级质量与功能。

性能对比： FLUX.2 [klein] 的输出质量可以匹敌甚至超过比其大五倍的模型，而延迟仅为对方的一半以下。

4️⃣ 高保真输出与多样性

在图像质量上，FLUX.2 [klein] 具备：

照片级真实感（Photorealism）；

丰富的图像多样性（Diversity）；

在复杂概念组合中的表现力，例如人物、光线、风格同时变化的场景。

其“Base”版本（未蒸馏）保留了完整训练信号，允许研究者在多样性与速度之间做权衡。

速度与性能

FLUX.2 [klein] 最大的亮点就是 —— 速度快得惊人。

根据 BFL.ai 的官方测试：

生成时间： 🔹 低于 0.5 秒（1024×1024 分辨率） 🔹 在 RTX 4090 或 4070 上几乎是“实时”的

推理步数：仅需 4 步推理（step-distilled），而类似模型通常需要 20~30 步。

量化版 (FP8 / NVFP4)

FP8 模式：快 1.6×，显存节省 40%

NVFP4 模式：快 2.7×，显存节省 55%

➡️ 换句话说：

以前生成一张图需要 5~10 秒，现在只要不到 1 秒。这让 AI 绘图第一次真正进入“交互式实时”时代。

图像质量

BFL 官方对比显示：

在照片真实感（Photorealism）与风格一致性（Style Coherence）上， FLUX.2 [klein] ≈ SD3 ≈ Midjourney V6。

在多样性（Diversity）上， Base 模型版本 > 蒸馏版（Distilled）> SDXL。

在一致性（Composition Control）上， Multi-reference 模式远超 SDXL，可将多个图片/概念融合为一张高质量结果。

开放与许可政策

FLUX.2 [klein] 在开放性方面延续了 BFL 一贯的策略：

4B / 4B Base：采用 Apache 2.0 开源许可，允许商业使用；

9B / 9B Base：提供开放权重 (Open Weights)，但限于非商业用途；

支持在 Hugging Face 平台下载模型权重；

🧠 支持微调（Fine-tuning）

FLUX.2 [klein] 的设计充分考虑了二次开发需求。用户可以在自己的硬件上对模型进行微调，定制特定风格或领域，例如品牌视觉、游戏角色、艺术风格迁移等。这一功能特别适合企业和高端用户进行个性化 AI 模型训练。

📄 相关资源：

🤗 Hugging Face 模型页：black-forest-labs

🧩 GitHub 项目地址：black-forest-labs/flux

📜 许可政策详情：bfl.ai/licensing

官方介绍：https://bfl.ai/models/flux-2-klein

在线体验：https://bfl.ai/play

来源：Black Forest Labs 推出FLUX.2 [klein]模型：亚秒级速度图像生成实现0.5秒出图改图

Google 开源全新翻译模型：TranslateGemma 覆盖 550 种语言可在各种设备上运行

goodinfo.net — Fri, 16 Jan 2026 08:00:00 +0800

📰 正文

机器翻译（MT）模型在过去十年经历了两种技术主流： 1.

传统大型语言模型（LLM）路线：例如 GPT、Gemini、Claude 等，它们具备翻译能力，但模型庞大、计算昂贵，不便开源，也无法轻易部署在本地或移动设备。

专用翻译模型路线：如 Facebook 的 NLLB (No Language Left Behind)、Meta 的 SeamlessM4T、Google 自家的 Gemma 系列，它们在开放性和多语言支持上更好，但在模型效率和低资源语言表现上仍有提升空间。

TranslateGemma 的出现正是为了解决这一矛盾：

“如何在保持高翻译质量的前提下，让模型更轻、更快、更普及。”

因此，Google 设计了一个新系列模型 —— TranslateGemma，它能在不同硬件环境中运行，效率高、精度强，并且完全开放。

TranslateGemma 覆盖 55 种主要语言，并扩展至约 500 个语言对，并推出三种规格（4B / 12B / 27B）。在翻译精度、效率与多模态泛化方面均取得显著提升。

它的目标：让高质量翻译不再依赖超大模型。

功能亮点：

🧠 轻量高效：12B 模型性能超越 27B 版本，速度更快、能耗更低；

🌍 广泛语言覆盖：从英语、中文到低资源语言，全面优化；

🔄 智能蒸馏 + 强化学习：融合 Gemini 模型知识，翻译更自然、更准确；

🖼️ 多模态能力：可直接翻译图像中的文字内容；

💻 多平台适配：可运行在手机、笔记本甚至单张 GPU 上；

🔓 完全开源：Kaggle、Hugging Face、Vertex AI 均可使用。

TranslateGemma 正在重塑机器翻译的效率边界，让 AI 翻译真正“普惠全球”。 🌏

技术亮点

🔍 双阶段训练策略

监督微调（SFT）：融合人工平行语料与 Gemini 生成数据；

强化学习优化（RL）：基于 MetricX-QE + AutoMQM 奖励信号，优化自然度与上下文一致性。

🧠 高效知识蒸馏

将 Gemini 系列的语义理解“压缩”进更小模型；

在同等质量下参数减少 50%。

🧩 多模态兼容

在 Vistra 图像翻译基准上实现零样本提升；

无需额外微调即可翻译图像文字。

⚙️ 全平台推理能力

4B 可运行于移动端；

12B 适配笔记本级硬件；

27B 单卡 GPU 即可部署云端生产级翻译服务。

模型体系结构：三种规格、同一核心

TranslateGemma 是建立在 Gemma 3 基座模型上的翻译专用系列，包括以下三种参数规模：

该系列包含三个不同参数规模的模型：

4B 参数模型（移动端与边缘设备优化）

12B 参数模型（个人开发机级别）

27B 参数模型（高精度云端部署）

开放性：所有版本开放下载与使用；

效率最大化：实现“小模型超过大模型”的性能；

广语言覆盖：兼顾高资源与低资源语言；

多模态兼容：可处理图像内文字的翻译任务。

模型性能与突破：小模型超越大模型

在 Google 的测试中：

TranslateGemma-12B 在 WMT24++ 基准上超过 Gemma 3 的 27B 模型；

TranslateGemma-4B 的表现接近甚至略优于旧版 12B 模型。

💡 关键指标提升：

MetricX 指标：比同规模Gemma模型高出约15–20%；

错误率（Error Rate）：在55种语言中全面下降；

低资源语言表现：显著提升，特别是非洲及南亚语系。

这意味着 TranslateGemma 在同等计算资源下可以提供更高质量的翻译输出，是一次参数利用效率的重大突破。

语言覆盖与低资源适应性

TranslateGemma 是目前覆盖语言最广的开源翻译模型之一。

此外，Google 已在研究中扩展训练至约500个语言对（包括罕见语言组合），以便研究者能在此基础上进行领域适配或低资源微调。

多模态翻译能力（Multimodal Translation）

TranslateGemma 延续了 Gemma 3 的多模态结构，具备“图文一体”理解能力。

🔹 评测基准：Vistra（图像翻译测试）

结果显示：

即使未专门进行多模态微调，TranslateGemma 仍能较好地翻译图片中的文字内容；

模型在 OCR 场景（如文档、图像、海报）中表现优异；

多模态表现的提升来自基础语言理解能力的强化，而非专门视觉优化。

这一点说明，TranslateGemma 拥有潜在的跨模态扩展潜力。

模型的训练方法：两阶段蒸馏体系

TranslateGemma 的核心训练理念是——

“把最强大模型（Gemini）的知识压缩进一个更轻的开源结构中。”

整个训练分为两个阶段：

第一阶段：监督微调（Supervised Fine-Tuning, SFT）

🔹 目标：

让模型学习语言对齐、句法转换和语义映射能力。

🔹 数据来源： 1.

高质量人工平行语料（即人工双语翻译对）；

Gemini 模型生成的高保真合成翻译数据（synthetic data）。

🔹 特点：

包含高资源语言（如英语、西班牙语、法语、中文）；

同时扩展至中低资源语言；

重点保证语义一致性与上下文流畅性；

构建更广泛的语言覆盖面。

通过 SFT，模型获得了对语言结构的“基础直觉”。

第二阶段：强化学习优化（Reinforcement Learning, RL）

🔹 目的：

进一步提高翻译结果的自然度与上下文适应性。

🔹 方法：

引入奖励模型（Reward Models），通过反馈信号指导模型改进翻译质量。

🔹 奖励信号包括：

MetricX-QE：评估翻译文本的上下文质量；

AutoMQM：基于自动化的多维质量评分；

参考奖励：由多模型集合（ensemble）判定的语言流畅度和准确性。

这种基于 RL 的精调方式使模型能学习到人类偏好：不仅要“对”，还要“自然、顺畅、上下文一致”。

技术报告：https://arxiv.org/pdf/2601.09012

模型下载：https://huggingface.co/collections/google/translategemma

体验：https://colab.research.google.com/github/google-gemini/gemma-cookbook/blob/main/Research/[TranslateGemma]Example.ipynb

来源：Google 开源全新翻译模型：TranslateGemma 覆盖 550 种语言可在各种设备上运行

Google 发布开源医疗模型 MedGemma 1.5 4B 和医疗语音识别模型 MedASR

goodinfo.net — Wed, 14 Jan 2026 08:00:00 +0800

📰 正文

Google 在 2024 年发布了 MedGemma 系列：一套开放的医疗生成式AI模型，用于医疗文本与影像任务。这一系列属于 Health AI Developer Foundations（HAI-DEF）计划的一部分，允许开发者基于 Google Cloud 和 Vertex AI 自主定制医疗AI应用。

发布后，MedGemma 模型在 Hugging Face 上被下载数百万次，衍生出数百种社区版本。

此次更新发布了 MedGemma 1.5 4B 模型（40亿参数），主打：

支持多模态（文本 + 图像 + 医学报告）

优化医疗影像的理解与结构化分析

可本地运行，也可在云端扩展（Google Cloud / Vertex AI）

它能理解的内容包括：

医学影像：CT、MRI、X光、病理切片等；

医学文本：病历记录、化验报告、病理描述等；

多时间点数据：同一个病人的影像随时间变化，例如对比两次胸片；

解剖学定位：识别出影像中具体的器官或结构位置；

实验室数据提取：从化验单中提取数值、单位和检测类型。

MedGemma 1.5 的性能提升

Google在这次更新中，不只是增加功能，还大幅提高了准确率。下面是关键指标的变化：

影像理解能力更强了，尤其是在CT、MRI、病理和结构定位方面。

Google还指出，这个模型的3D影像理解能力在开源领域属于“首创”，是第一个公开能解释三维医学数据的开源模型。

模型的使用方式

MedGemma 1.5 有多种用法。

开发者可以用它来训练新的医学 AI 系统；

医院可以基于它定制特定科室的辅助工具；

医学研究者可以用它来分析大规模影像数据集。

这个模型支持DICOM格式，也就是医院通用的医学影像标准文件，所以几乎能无缝地接入现有医疗系统。

MedASR：专为医疗语音打造的语音识别模型

除了图像模型，Google 还发布了一个全新的医疗语音识别模型——MedASR。

在医疗场景里，医生最常用的沟通方式其实是“口述”。无论是病历录音、影像描述，还是医患交流，都依赖语音。

这款专为医疗场景优化的语音识别系统（ASR），可以：

将医生口述的病历、影像描述转成文字；

与 MedGemma 联动，实现“语音输入 + AI推理”。

性能对比：

谷歌将 MedASR 与 OpenAI 的 Whisper large-v3（通用语音模型）进行了比较：

在胸片口述任务中，MedASR 的错误率为 5.2%，Whisper 为 12.5%；

在综合医学口述任务中，MedASR 的错误率为 5.2%，Whisper 为 28.2%。

也就是说，MedASR 比通用模型的语音识别准确率高出了一倍以上。对于需要口述病历或生成医疗报告的医生来说，这会极大地提升效率。

开放性

Googl继续保持了开放策略：

所有 HAI-DEF 模型，包括 MedGemma、MedASR、MedSigLIP，都是免费可商用的；

模型可在 Hugging Face 上下载，也能直接在 Vertex AI 上运行；

详细内容：https://research.google/blog/next-generation-medical-image-interpretation-with-medgemma-15-and-medical-speech-to-text-with-medasr/

模型下载：https://huggingface.co/google/medgemma-1.5-4b-it

来源：Google 发布开源医疗模型 MedGemma 1.5 4B 和医疗语音识别模型 MedASR

Vercel 发布 “Agent Browser”：专为AI 代理开发的浏览器自动化工具

goodinfo.net — Tue, 13 Jan 2026 08:00:00 +0800

📰 正文

Vercel 实验室（Vercel Labs）发布全新开源项目 Agent Browser 。该工具是一个为人工智能代理（AI Agents）设计的浏览器自动化命令行工具（CLI），旨在让 AI 模型不仅能理解网页信息，还能直接在网页上执行操作。

Vercel 表示，Agent Browser 的出现，为 AI 代理与真实互联网交互提供了底层执行能力，标志着从“对话式智能”向“行动式智能”迈出了关键一步。

零配置（Zero config）：安装即可用，无需手动设置浏览器或依赖。

高性能（Fast Rust CLI）：底层用 Rust 实现，运行速度远高于传统 Node/Python 工具。

支持两种模式（Headed / Headless）：既可打开可视化浏览器调试，也能在后台静默执行任务。

轻量高效（93% 减少上下文）：相比 Playwright MCP，Agent Browser 为 AI 提供更紧凑的数据结构，使交互更高效。

广泛兼容（Compatible with major AI agents）：支持 Codex、Claude Code、Gemini、Cursor、Copilot、opencode 等主流 AI 工具，以及任何能运行 Bash 命令的系统。

Agent Browser 是一个为「AI 代理（AI Agents）」设计的浏览器自动化命令行工具。

它的目标是让 AI 能够像人类一样操作网页，而不仅仅是读取网页内容。

它不是给人用的「浏览器」，而是一种让 AI 在网页环境中执行操作的底层接口。

可以理解为：“让 ChatGPT 或 Claude 这样的模型有一双能使用浏览器的手。”

核心能力概览

Agent Browser 是一个命令行工具（CLI）。

它通过简洁的命令让 AI 或脚本直接控制浏览器的行为。

主要功能包括：

AI 专用特性

Snapshot + Ref 模式

Agent Browser 的设计重点在于让 AI 能稳定、可控地操作浏览器。项目引入了独特的 Snapshot + Ref 机制：

AI 先执行 snapshot 命令，获取网页的结构化快照（包含所有交互元素）；

每个元素拥有唯一引用（例如 @e1, @e2）；

如：

@e1 = 登录按钮
@e2 = 邮箱输入框
@e3 = 密码输入框

随后，AI 可通过这些引用精确执行操作：

agent-browser click @e1
agent-browser fill @e2 "user@test.com"

这种方式既避免了传统CSS/XPath选择器的不稳定问题，也更符合AI的“符号化”思维逻辑。所有结果均可返回为 JSON 格式，方便AI解析和决策，实现“感知—推理—执行”的闭环。

这种方式具有三个特点：

确定性强：不会因页面结构变化出错；

执行快速：无需重新查找DOM；

AI可理解：输出为JSON，方便模型解析。

JSON 输出模式

所有命令都可以返回结构化数据：

agent-browser get text @e1 --json

输出：

{"success": true, "data": "Submit"}

AI 可以直接读取和解析结果，形成“观察—决策—执行”的闭环。

Claude / GPT 集成能力

Vercel 提供了 .claude/skills/agent-browser 模板。这意味着 Claude Code 或 CoWork 可以自动识别并使用 Agent Browser。开发者无需额外适配，AI 便能执行网页操作。

开发者可直接在 .claude/skills/ 目录中加载该工具，使 Claude 自动具备网页操作能力。

同时，其标准化 CLI 接口和 JSON 输出格式，也便于与 OpenAI、LangChain、LlamaIndex 等生态工具集成。

Vercel Labs 表示，Agent Browser 将成为构建**具备实际执行力的AI工作流（Agent Workflows）**的重要基础设施。

技术架构

Agent Browser 采用双层架构，兼顾性能与可移植性：

┌─────────────────────────────┐
│ Rust CLI 层 │ ← 解析命令，快速响应
└──────────────┬──────────────┘
│
┌──────────────▼──────────────┐
│ Node.js 守护进程（Daemon） │ ← 管理 Playwright 浏览实例
└──────────────┬──────────────┘
│
┌──────────────▼──────────────┐
│ 浏览器引擎（Chromium / WebKit）│ ← 执行网页操作
└─────────────────────────────┘

运行逻辑：

用户或AI输入命令；

Rust CLI 解析并传递给 Node.js 守护进程；

守护进程驱动 Playwright 与浏览器交互；

命令执行结果返回给调用者（人或AI）。

优势：

Rust 层高性能（接近原生二进制速度）；

Node 层高兼容性（易部署在各种系统）；

守护进程常驻（减少浏览器重启开销）。

可以通过以下方式安装：

npm install -g agent-browser
agent-browser install

也支持嵌入式部署，例如在云端函数中：

import { BrowserManager } from "agent-browser";
const browser = new BrowserManager();
await browser.launch({ headless: true });

典型应用场景

AI 办公自动化：AI 自动登录企业系统、下载报表、汇总数据；

网页测试与质量验证：快速替代 Selenium/Playwright 测试脚本；

信息采集与监控：智能识别网页结构，自动提取与比对内容；

多Agent协作：多实例并行操作，实现跨系统任务执行；

安全分析与验证：在隔离环境中模拟用户行为，测试安全风险。

GitHub：

来源：Vercel 发布 “Agent Browser”：专为AI 代理开发的浏览器自动化工具

一个能让 Claude 打电话给你的 Claude Code插件

goodinfo.net — Sat, 10 Jan 2026 08:00:00 +0800

📰 正文

Call Me 是一个为 Claude Code插件

当你让 Claude 全自动任务，你出去潇洒的施工和，如何它遇到问题、或需要你做决定时，它会主动打电话找你帮助。😂

告诉你它遇到的问题、请你做决定、或者汇报结果。

比如：

Claude 跑完代码后给你打电话说： “我测试完了，你要我继续部署吗？”

Claude 卡在一个报错时打电话说： “出错了，你要我重启服务吗？”

Claude 在你外出时打电话说： “我写完接口了，还有一个改进建议。”

就像 AI 成了一个“会打电话的助手”，帮你盯着任务。

你可以：

通过手机、手表直接和 Claude 语音对话

而且Claude 还可以一边讲电话，一边查资料

安装步骤也不复杂：注册电话平台（Telnyx/Twilio）、设置环境变量、装上插件，就能让 Claude 给你打电话了。

价格也很低：一分钟通话几分钱。

主要功能

✅ 单一功能：让 Claude 能打电话给你，无需复杂设置。

🔄 多轮对话：可以在电话中来回交流。

🌍 多设备兼容：手机、智能手表、甚至座机都能用。

🧩 可组合工具：Claude 可以在通话时同时进行其他任务（如网页搜索）。

怎么实现的？（原理）

简单说，就是下面这条链路👇：

Claude → Call Me 插件 → ngrok（网络通道） → 电话服务商（Telnyx/Twilio） → 你的手机

也就是： 1.

Claude决定要打电话时，

它调用 Call Me 插件，

插件通过 ngrok 建一个安全通道到外部网络，

再联系到一个电话服务平台（Telnyx 或 Twilio），

电话平台拨打你的号码，

你接电话后，AI 说话的内容通过 OpenAI 的语音功能转成声音，

你说的话再被转成文字发回 Claude。

于是你和 AI 就真的能“打电话聊天”了。📞🤖

怎么用？

这部分看起来复杂，但其实照着一步步来很简单 👇

① 你需要准备 3 个账号：

② 配置环境变量（告诉插件账号信息）

就像给插件一份“电话通讯录”和“凭证”。

{
"env": {
"CALLME_PHONE_PROVIDER": "telnyx",
"CALLME_PHONE_ACCOUNT_SID": "你的Telnyx连接ID",
"CALLME_PHONE_AUTH_TOKEN": "你的Telnyx API密钥",
"CALLME_PHONE_NUMBER": "+15551234567", // Claude打出的号码
"CALLME_USER_PHONE_NUMBER": "+15559876543", // 你的手机号
"CALLME_OPENAI_API_KEY": "sk-xxx", // 用于语音功能
"CALLME_NGROK_AUTHTOKEN": "你的ngrok token"
}
}

③ 安装插件命令

在 Claude Code 里输入命令：

/plugin marketplace add ZeframLou/call-me
/plugin install callme@callme

然后重启 Claude Code。搞定。

插件能干的几件事

举个实际例子：

const { callId } = await initiate_call({
message: "我完成注册系统了，要不要加上限流？"
});
await speak_to_user({
call_id: callId,
message: "好的，我查一下接口性能。"
});
await continue_call({
call_id: callId,
message: "我发现系统每分钟可处理500请求，要不要再优化？"
});
await end_call({
call_id: callId,
message: "好的，那我开始干活啦！"
});

是不是就像你和一个远程助理打完一次工单电话？

打电话要花多少钱？

其实非常便宜 💵👇

➡️ 总成本大概 $0.03~$0.04 一分钟也就是一块人民币能聊十几分钟。

GitHub：https://github.com/ZeframLou/call-me

来源：一个能让 Claude 打电话给你的 Claude Code插件

MiroThinker 1.5：全球最强搜索智能体

goodinfo.net — Thu, 08 Jan 2026 08:00:00 +0800

📰 正文

MiroThinker 是由 MiroMindAI 团队开发的开源研究代理（search agent），旨在提升 AI 的“工具增强推理（tool-augmented reasoning）”与“信息检索”能力。

模型参数规模：

MiroThinker-v1.5-30B

MiroThinker-v1.5-235B

主要特性：

支持 256K 上下文窗口。

支持 400 次工具调用。

强化多步推理与长程任务管理。

传统大模型的路线是 “把世界背进参数里”，依赖统计与记忆。

而 MiroMind 的理念是：

“真正的智能不靠全知，而靠研究能力。”

也就是说，智能体不应只是“会答题（做题家）”，而应像“科学家”那样： 1.

主动查证；

识别不确定；

自我修正；

通过证据收敛得到可靠结论。

MiroThinker 不仅仅是一个模型，而是一整套可复现、可扩展的 AI 研究代理框架（Research Agent Framework），能够在复杂的真实世界任务中实现：

自动化信息搜索；

支持多步思考与自我纠错；

具备长时记忆与上下文理解

工具调用与执行；

研究级信息整合与评估。

你可以把它理解为：

👉 一个会思考、能查资料、还能动手实验的 ChatGPT。

它不是单纯的“对话机器人”，而是一个能：

打开网页、抓取信息；

能运行代码并分析结果；

汇总研究结果；

还会自己检查答案准确性；的智能“研究助理”。

MiroThinker v1.5 在广泛的基准测试中展现了强大的通用研究性能，在 HLE-Text、BrowseComp、BrowseComp-ZH 和 GAIA-Val-165 上分别达到 39.2%、69.8%、71.5% 和 80.8%。

超越了之前的开源代理，创造了新的业界领先 BrowseComp 性能。

MiroThinker-v1.5-30B 仅用 1/30 的参数规模跑出了比肩众多 1T 模型的性能表现，其 235B 的版本在多个搜索智能体基准测试中跻身全球第一梯队。

它能干什么？（主要功能）

MiroThinker 能完成的事情可以分为四大类👇：

主体智能体（MiroThinker）

这就是“AI 大脑”。它能理解问题、规划步骤，然后调用各种工具去解决任务。

比如：

你问它：“请总结过去一个月AI领域的新研究趋势。”

它会： 1.

自动去 Google 搜索；

抓取各个论文网页；

提取信息；

分析关键词；

最后写出一篇总结。

整个过程全自动完成！

工具系统（MiroFlow）

MiroThinker 的“手脚”。它提供了各种可以被调用的工具，比如：

🔍 搜索（Serper API）

🧾 网页抓取（Jina）

🧠 LLM摘要（小模型总结内容）

💻 执行 Python 代码（E2B 沙盒环境）

举个例子： MiroThinker 发现要算某个统计结果，它会自己用 E2B 执行 Python 代码。

核心技术概念

1️⃣ 工具增强推理（Tool-Augmented Reasoning）

MiroThinker 通过内置的工具接口系统（Tool API），使模型能在推理过程中主动调用外部工具（搜索引擎、爬取器、代码执行环境等）以辅助推理。

支持的典型工具包括：

Serper API：访问 Google 搜索；

Jina API：网页抓取与语义摘要；

E2B Sandbox：代码执行与结果验证；

LLM-as-a-Judge：基于 GPT 或 Qwen 的模型评估器。

这一设计使模型能够执行如：

“搜索论文 → 抓取内容 → 提取要点 → 执行验证脚本 → 汇总结论” 的完整研究任务流程。

🧠 优势

提升了模型的“信息访问能力（Information Access Capability）”；

减少幻觉（Hallucination）；

能处理真实世界任务（如科研报告生成、技术文档分析）。

2️⃣ 交互扩展（Interactive Scaling）

传统性能扩展依赖于：

模型规模（parameters）

上下文长度（context window）

MiroThinker 提出了第三维：

交互深度（interaction depth）

即模型在任务中能主动进行多轮外部环境交互，例如多次搜索、分析、运行代码、再验证。

MiroThinker 引入 “交互维度” 作为性能第三维：

🧠 核心机制

通过 memory-managed multi-round reasoning：

保留最近 5 次对话上下文；

清理无关历史；

维持信息完整性与低资源开销。

这种交互循环让模型具备了“自主探究式学习（self-directed inquiry）”能力。

在 v1.5 版本中，单任务可支持多达400次工具交互，使模型能在复杂任务中形成递归式、层级化的推理链。

MiroThinker vs DeepResearch 有什么不同

🧠 MiroThinker 架构 = 「AI 大脑 + 工具生态 + 环境交互」

它采用模块化设计：

🔧 支持外部 API 工具（如 Serper、Jina、E2B），能：

搜索网页；

抓取文本；

执行 Python 代码；

评估结果。

➡️ 你可以理解为：它是一个完整的 AI 研究操作系统，不只是一个模型。

🔍 DeepResearch 架构 = 「网页爬虫 + 推理引擎 + 内容压缩器」

DeepResearch（尤其是 DeepResearcher、DeepSearchQA 等）更多是：

聚焦于信息检索 + 内容理解；

强调“深度网页搜索”和“内容压缩总结”。

结构更轻量，通常包括： 1.

搜索模块（基于 Google / Bing API）

抓取模块（BeautifulSoup / Jina）

LLM 总结模块（通常是 GPT-4/5）

结果聚合模块（评分 + 排序）

➡️ 它更像一个智能搜索引擎 + 总结机器人。

举例说明：两者在同一任务下的行为差异

任务：

“请总结过去一个月人工智能安全领域的主要研究成果。”

🔍 DeepResearch 的做法： 1.

搜索 “AI safety research December 2025 site:arxiv.org”

抓取前5页；

提取摘要；

拼接总结（无代码执行，无引用验证）。

输出结果：

“近期AI安全领域关注模型可解释性与鲁棒性，多篇论文聚焦于…（简略）”

优点：快。缺点：浅，缺乏验证或多源交叉。

🧠 MiroThinker 的做法： 1.

搜索 arXiv 最新论文；

抓取 + 提取多篇；

运行文本聚类分析；

对比引用来源；

生成结构化总结（附论文编号）。

输出结果：

“在2025年12月，AI安全研究主要集中在三大方向：

对抗鲁棒性（6篇）

AI伦理检测与防护（4篇）

LLM溯源与安全验证（3篇）主要代表作包括 arXiv:2512.1034、arXiv:2512.2155 等。”

优点：全面、有分析、有出处。缺点：执行时间更长。

想了解更多？

官方网站：🌐 https://miromind.ai GitHub 项目页：📦 https://github.com/MiroMindAI/MiroThinker 论文引用：

在线体验：https://dr.miromind.ai/

来源：MiroThinker 1.5：全球最强搜索智能体

Spatial Lingo：一款沉浸式语言学习VR+AI应用

goodinfo.net — Wed, 07 Jan 2026 08:00:00 +0800

📰 正文

Meta发布了一个令人惊喜的开源项目：Unity-SpatialLingo。

用于在 Meta Quest（AR/VR头显）上开发混合现实（MR）语言学习体验。

通过现实世界物体识别 + 自然语言 AI 交互的方式，用户能够在真实的物理空间中，与AI一起练习语言。

也就是不用担心没有语言环境了。

无论你身处卧室、办公室还是客厅，Spatial Lingo 都能识别你周围的物品（如椅子、桌子、电脑），并在虚拟空间中为它们贴上对应语言的单词。

你可以听AI发音、跟读练习、得到即时评分，还能与虚拟语言导师互动。

它能识别你房间里的物体，比如看到“桌子”就会说：“这在法语里叫 la table。”

你可以跟它对话，它会听你的发音并打分，能学习不同语言。

有个可爱的虚拟角色 “Golly Gosh” 带着你边看实物边学语言。

还能用手势或控制器操作，完全沉浸式学习。

你不再对着屏幕背单词，而是——当你看到桌子、书本或咖啡杯时，AI会告诉你它们在不同语言中的名称，并和你进行语音互动。

这不是游戏，而是一种“空间语言学习体验”。

学习方式：AI + 现实空间 = “沉浸式语言练习”

🏡 “用真实环境学语言”

Spatial Lingo 让语言学习不再停留在书本或屏幕上。当你环顾四周，系统会识别出房间中的物体并显示对应外语名称。例如：

当看到“书”时，系统显示 book；

当识别到“灯”时，会提示 lamp，并播放标准发音。

这种视觉与空间记忆结合的学习方式，帮助你用真实场景强化记忆。

主要功能

玩法与体验方式

🎮 单人体验（Single User）玩家独自与虚拟角色互动，通过“语言任务”学习新词。

🏠 Roomscale 模式需要你在有一定空间的现实环境中移动，让系统识别不同的物体。

✋ 支持多种输入方式

手势识别（Hand Tracking）

语音交互（Voice）

控制器操作（Touch Controllers）

💬 实时反馈机制说错发音时，AI 会实时指出问题，并播放标准发音。

核心技术

GitHub：https://github.com/oculus-samples/Unity-SpatialLingo

有设备的可以体验：https://www.meta.com/en-gb/experiences/spatial-lingo-language-practice/24846121391731831/

来源：Spatial Lingo：一款沉浸式语言学习VR+AI应用

开源版Veo 3：LTX-2 宣布开源支持音视频同步输出

goodinfo.net — Wed, 07 Jan 2026 08:00:00 +0800

📰 正文

LTX-2 是由 Lightricks 开发的 DiT（Diffusion Transformer）架构的音视频基础模型，支持灵活的生成控制、快速推理、以及音视频同步输出。

它是目前首个公开发布的、在单一模型中整合视觉、听觉、语言理解的音视频生成系统。

该模型在质量、速度与同步精度上均达到开源领域的领先水平。

LTX-2 是首个真正开源的音视频生成模型，发布了完整的模型权重和训练代码。

原生支持 4K / 50 FPS 输出，支持最长 20 秒高保真视频生成。

音视频同步：同时生成动作、对白、环境音与音乐，保持时间一致性。

模型可在消费级 RTX 显卡上本地运行。

开源内容包括：

完整模型权重及精简版本

可控的 LoRA 模块（用于摄像头、结构、条件控制）

多模态训练器

基准测试、评估脚本及文档

模型支持音视频同步生成、多关键帧、细粒度控制，所有功能原生集成。

提供完整工作流支持，包括摄像头控制与 IC LoRA 条件输入。

提供 LTX API，支持开发者在生产环境中直接调用模型，快速集成视频生成能力。

之前有介绍：

该模型具备以下特性：

音视频同步生成

高保真视频质量

多种性能模式

可生产级输出

模型版本及特点

1、开源内容清单

这一开源版本不仅仅是模型权重，而是提供了构建与再训练完整系统所需的所有组件，包括：

完整模型权重

精简（蒸馏）版本：用于更轻量级部署。

Controllable LoRAs（低秩适配器）：控制以下方面：

Camera（摄像头视角/运动）

Structure（结构布局）

Conditioning（输入条件/上下文）

多模态训练器（multimodal trainer）：支持训练和微调。

基准测试工具、评估脚本与详细文档。

这套发布堪称“完整栈”（full stack）开源。

2、原生音视频同步与控制功能

LTX-2 将音频和视频生成功能内建于一个单一模型中，支持：

原生的音视频同步生成

多关键帧支持，适合生成动态视频而非单一场景

细粒度控制，例如控制视角、结构、语音内容等，全部在模型内部支持，而非依赖后处理或外挂脚本

该模型完全可检视（inspectable）和可复现（reproducible），保证研究性和透明度。

3、工作流优先设计

与以研究为导向的模型不同，LTX-2 强调工作流适配性：

摄像头控制和 IC LoRA 被设计为模型的一级输入项（first-class conditioning inputs）

支持开发者基于这些控制项进行微调（fine-tune）和扩展（extend）

适用于生产级工作流程，如影视、游戏、虚拟人等场景

4、本地部署与性能优化

LTX-2 专门为本地运行优化：

在 RTX 消费级 PC 上实现“高保真度 + 实用速度”

提供量化模型检查点（quantized checkpoints），可有效降低内存消耗同时保持输出质量

所有这些功能完全在本地运行，无需连接云服务

主要技术特点

1️⃣ 统一的音视频生成架构

LTX-2 采用双流 Transformer 结构（Dual-Stream Diffusion Transformer）：

视频流（14B 参数）负责画面生成；

音频流（5B 参数）负责声音生成；两者通过双向跨模态注意力（Cross-Modal Attention）实时交换信息，确保声音与画面在时间上精确同步（如嘴型、动作、环境变化等）。

这种设计避免了传统“先视频后加音”方式的延迟和错位问题。

2️⃣ 非对称架构与高效推理

音频和视频在信息密度上差异很大。 LTX-2 通过“非对称架构”为视频分配更多计算资源、为音频流减轻负担，从而在保证质量的同时显著提升推理速度。

在相同硬件条件下：

LTX-2 的生成速度约为 Wan-2.2 模型的 18 倍；

能生成最长 20 秒、1080p 分辨率的同步音视频。

3️⃣ 多层文本理解与“思考Token”机制

模型使用 Gemma-3 大型语言模型作为文本理解模块，并提取其所有层的语义特征，而非只使用最终层输出。此外引入“Thinking Tokens（思考Token）”，帮助模型在正式生成前建立更完整的语义与情境理解。

这一机制显著提升了：

语音内容与嘴型的匹配度；

语音语调、情感、节奏的自然性；

对复杂、多句 Prompt 的理解能力。

4️⃣ 高保真的音频生成系统

音频部分采用 Causal Audio VAE + 改进版 HiFi-GAN Vocoder。

将原始音频压缩为 128 维潜空间表示，保证高效训练与推理；

最终输出 24 kHz 双声道立体声，保真度高、空间感强。

5️⃣ 模态感知引导（Modality-Aware CFG）

在推理阶段引入新的双向指导机制，可以分别调节：

文本对生成的影响强度（st）；

音视频之间的同步强度（sm）。

这使生成过程更加稳定且可控。

6️⃣ 多尺度、多块推理（Multi-Scale & Multi-Tile）

模型先生成低分辨率基础视频，再通过潜空间上采样与局部细化，实现高分辨率（最高 1080p）输出，显著节省显存占用。

7️⃣ 训练与数据系统

LTX-2 在 LTX-Video 数据集的子集上训练，并使用 Lightricks 自研的音视频联合字幕系统进行数据标注，确保每个样本同时包含：

精确的画面描述；

环境声、对白内容；

说话者身份、语言与口音等元信息。

这种高质量三模态数据是其同步效果突出的关键。

Prompt（提示词）建议

LTX-2 的视频生成效果极大依赖于 prompt 的写法。 Lightricks 官方建议按“导演分镜”思路写：

✅ 写得好的 Prompt 示例：

A cinematic shot of a woman standing on a rainy street, neon reflections on wet asphalt, the camera slowly zooms in.

❌ 写得差的 Prompt 示例：

A woman in rain.

📘 关键技巧：

详细描述镜头动作（zoom, pan, tilt）

指出时间、光线、环境

保持时序清晰，一段文字讲完一个场景

控制字数在 200词以内

在线体验

LTX-Studio Text-to-Video

LTX-Studio Image-to-Video

直接在浏览器中输入文字或上传图片，即可生成视频。

LTX-2 已内置于 ComfyUI，可以在图形界面里用拖拽节点方式生成视频。

安装方法：在 ComfyUI Manager 搜索 “LTXVideo” 即可。

GitHub：https://github.com/Lightricks/LTX-2

模型下载：https://huggingface.co/Lightricks/LTX-2

模型介绍：https://ltx.io/model

来源：开源版Veo 3：LTX-2 宣布开源支持音视频同步输出

波士顿动力推出新款 Atlas 机器人能自主执行任务快速学习新任务可快速部署到企业生产中

goodinfo.net — Tue, 06 Jan 2026 08:00:00 +0800

📰 正文

Boston Dynamics 在2026年CES展会上正式发布了其 Atlas类人机器人的产品版本，并宣布将立即开始生产。新的Atlas机器人将在现代汽车集团的机器人超工厂应用中心（RMAC）和 Google DeepMind 部署，预计2027年将扩展到更多客户。

这是他们开发的企业级类人机器人，旨在为未来的工业和制造业提供更加灵活和智能的自动化解决方案。

新版Atlas 机器人拥有：

强大的力量与动作范围；

精确的操作能力；

高度的智能适应性。

这些特点使得 Atlas 成为企业自动化的新选择，推动了下一代工业革命。

核心功能与特点

高适应性与灵活性

无须重建基础设施：Atlas 能够直接在现有工作环境中投入使用，无需额外的设备或基础设施改造。

可替代人类执行重复性或高风险体力劳动；

与人类和其他机器人共享空间：能够与人和其他机器协作，最大化生产效率。

适用于标准温度范围（-20°C 至 40°C），高机械耐受性和环境适应性。

增强安全性

内置安全系统，能够自动识别附近的人或车辆，避免与人发生碰撞。

“无围栏安全区”模式（fenceless guarding）：有人靠近时自动暂停；

具有软质外壳和防夹设计，确保工作场所的安全性。

持久作业能力

Atlas 的电池续航为 4小时，并且能自动更换电池，实现24小时不间断工作。

可在**标准电压（110V/220V）**条件下工作，无需复杂的电力基础设施改造。

控制与操作

自主工作：Atlas 可以完全自主地执行任务，不需要人为干预。Atlas能够自主执行任务，快速学习新任务，并能在电池电量低时自动导航到充电站，更换电池后继续工作。

远程控制：可以通过VR 头盔或平板控制器进行远程操作，并且可以实时监控机器人的工作状况。

与其他企业系统集成：通过 Orbit™ 平台，Atlas 能与现有的企业系统（如制造执行系统 MES、仓库管理系统 WMS）无缝对接。

Orbit 平台的功能包括：

机器人队列管理；

性能监控与数据分析；

与企业系统集成（MES、WMS、RFID、条码系统等）；

支持云端、本地或虚拟化部署；

通过 SOC2 Type II 安全认证，支持 SSO 与多级权限管理。

硬件与设计

Atlas是一款全电动类人机器人，专为企业级应用设计，能够执行广泛的工业任务，如物料搬运、订单履行和搬运重物（最高可达 50 kg (110 lbs)）。

灵活性：Atlas拥有 56个自由度，具有完全可旋转的关节，最大工作范围可达 2.3米（7.5英尺），能够在不同环境和工作条件下灵活操作，且可在 -20°C 到 40°C 的温度

耐用设计：Atlas 的硬件具有 IP67防水防尘等级，能在各种恶劣环境下工作，且易于清洁。

快速维修与维护：所有部件可以在现场 5分钟内更换，便于维护和修理。

企业级应用

立即产生回报：Atlas 旨在帮助企业从第一天起就实现投资回报（ROI），大多数客户会在两年内看到明显效益。

扩展与升级：随着时间的推移，Atlas 的功能可以随着需求的变化进行扩展和升级。

Atlas 的软件系统基于最新AI算法，可在一天内完成应用定制。支持多种工业任务：

物料搬运；

机器上料（machine tending）；

拣选与分拣；

零件排序（part sequencing）；

订单履行（order fulfillment）。

学习过的任务可快速扩展至整个 Atlas 机器人队列。

智能与AI：Boston Dynamics × Google DeepMind

快速学习与适应：Atlas 利用先进的AI技术能够快速学习新任务，并能在一天之内定制和配置到特定工作场景中。

与 DeepMind 合作：DeepMind 的 AI 技术使 Atlas 更加智能，能在复杂环境中理解任务和做出判断，提高效率。

在 2026 CES（国际消费电子展）上，全球最厉害的两家科技公司宣布强强联手：

一起开发一种全新的智能系统，把 DeepMind 的超级AI“大脑”Gemini Robotics，装进 Boston Dynamics 的“类人身体”里。

简单说就是：

🧠 DeepMind 负责大脑（AI） 🤖 Boston Dynamics 负责身体（机器人）两者合体，造出真正“懂人话、能干活”的机器人！

双方的目标是：

建立具备自主学习、视觉理解、语言推理与任务执行能力的通用型类人机器人平台。

此合作将结合：

Boston Dynamics 的新一代 Atlas® 类人机器人平台；

DeepMind 的 Gemini Robotics AI 模型（源自多模态 Gemini 基础模型）。

这标志着机器人从“机械化执行”向“认知化操作”转变的关键阶段。

Gemini Robotics 模型

Gemini Robotics 是 DeepMind 近期发布的机器人专用AI基础模型。它建立在多模态 Gemini 架构上，融合了视觉、语言、动作与推理能力。

主要特性包括：

环境感知：通过视觉与传感数据理解物理空间；

语义推理：将自然语言指令转化为可执行动作计划；

工具使用能力：具备操作与组合使用工具的能力；

自适应学习：通过经验不断优化任务策略。

新一代 Atlas®

Boston Dynamics 的 Atlas 机器人以类人外形和高动态运动能力著称。新版 Atlas 在机械灵活性、平衡控制与手部精度上均有重大改进。通过集成 DeepMind 模型，该平台可实现：

自主任务规划；

动态环境中的自我调整；

无需人类逐步编程即可完成新任务。

合作将重点开发：

视觉-语言-动作（VLA）模型：将多模态输入（图像、语言、动作反馈）统一到决策层；

泛化学习体系：使机器人能在不同工业任务间迁移知识；

安全与可扩展性机制：确保机器人在开放环境中安全执行任务。

Alberto Rodriguez（Boston Dynamics Atlas 项目负责人）：

“我们正在构建全球最先进的类人机器人。DeepMind 是唯一能够帮助我们开发可靠、可扩展视觉-语言-动作模型的合作伙伴。”

Carolina Parada（DeepMind 机器人部门高级总监）：

“Gemini Robotics 模型的目标是让AI进入物理世界。与 Boston Dynamics 的合作，将加速我们实现这一愿景，并确保大规模机器人部署的安全与效率。”

产业化与应用场景

初步落地领域：制造业

合作的首个应用重点是工业自动化，特别是汽车制造业。目标是让机器人能在复杂生产线中执行多样化任务，如：

装配与检测；

零件搬运；

工具操作；

故障识别与恢复。

中长期应用方向

仓储与物流自动化：在动态环境中自主搬运、分拣；

精密制造与电子装配：实现高精度操作；

服务型机器人：辅助医疗、维护、建筑等领域；

危险环境作业：如灾害救援、核设施维护等。

来源：波士顿动力推出新款 Atlas 机器人能自主执行任务快速学习新任务可快速部署到企业生产中

Claude-scientific-skills：一套 Claude 的科学技能库 138个即插即用的科学技能覆盖20+领域

goodinfo.net — Mon, 05 Jan 2026 08:00:00 +0800

📰 正文

Claude Scientific Skills 是由 K-Dense Inc. 团队开发的开源项目，旨在为 Anthropic 的 Claude 模型提供系统化的科学计算与研究能力扩展插件集。

该项目包含 138 个预构建科学技能（Scientific Skills），覆盖从生命科学、化学、医学、材料科学、物理学、工程学到机器学习的主要科研领域。

项目通过 MCP（Model Context Protocol）框架使 Claude 能够直接调用高水平科研工具和数据库，实现从数据检索到建模分析、从多组学集成到报告生成的全流程科研任务自动化。

Claude Scientific Skills 的核心目标是：

将 Claude 从通用语言模型扩展为具备专业科研能力的 AI 研究助理（AI Co-Scientist）。

它通过标准化接口封装科研工具，使 Claude 能够： 1.

调用专业数据库与科学计算库；

执行复杂多步科研分析流程；

生成可重复、可审查的科学结果；

进行科学写作、文献综述与可视化。

该体系的核心优势在于跨领域融合 —— 用户无需自行集成不同的科学库与API，Claude可在单一环境中完成从数据采集 → 分析建模 → 结果可视化 → 科学写作的全流程任务。

一句话就是：一个能让 Claude变成“AI 科学家”的工具箱。它为 Claude 加上了 138 个科学技能，能自动完成科研分析、建模、图表制作，甚至撰写论文。

主要功能与模块

Claude Scientific Skills 包含 138 项科学技能，分布在多个科研领域中：

1️⃣ 生物与医学类

生物信息学与基因组学：序列分析、单细胞RNA-seq、变异注释、系统生物学等。

化学与药物发现：分子性质预测、虚拟筛选、分子对接、药物优化（RDKit、DiffDock、DeepChem）。

蛋白质组学与质谱学：LC-MS/MS 分析、蛋白鉴定与定量。

临床研究与精准医疗：药物安全性分析、临床试验检索、变异解释、药物基因组学。

医学影像与病理学：DICOM 图像分析、数字病理切片识别。

2️⃣ AI与计算科学类

机器学习与AI：深度学习、强化学习、时序分析、贝叶斯推断、模型可解释性。

多组学整合与系统生物学：多模态整合、通路富集、网络生物学。

材料科学与物理：晶体结构分析、量子计算（Qiskit、PennyLane）。

工程与仿真：系统建模、优化仿真、流体动力学。

3️⃣ 数据与科研支持类

数据分析与可视化：统计分析、网络可视化、出版级图表绘制（Matplotlib、Seaborn）。

实验室自动化：实验协议自动化、LIMS系统集成、Opentrons控制。

科学传播与写作：文献综述、同行评审、论文写作、幻灯片与海报生成。

研究方法学：假设生成、科研思维、基金申请、学者评估。

典型科研工作流实例

药物筛选与分子优化

任务：筛选潜在的 EGFR 抑制剂用于肺癌治疗。

自动化流程： 1.

查询 ChEMBL 获取已知 EGFR 抑制剂（IC50 < 50nM）；

使用 RDKit 分析分子结构与SAR关系；

借助 Datamol 生成衍生物并评估ADMET性质；

利用 DiffDock 进行虚拟对接；

查询 COSMIC 获取突变背景；

使用 PubMed 搜索耐药机制文献；

生成整合报告。

涉及技能： RDKit, DiffDock, DeepChem, PubMed, COSMIC, ReportLab

单细胞RNA-seq分析

任务：分析10X Genomics单细胞数据集，识别细胞类型并进行通路富集。

执行步骤： 1.

读取10X数据 → Scanpy进行质量控制；

移除双细胞并整合Cellxgene数据库；

基于 NCBI Gene 标记识别细胞类型；

使用 PyDESeq2 进行差异表达分析；

通过 Reactome/KEGG 进行通路富集；

自动生成报告与可视化图表。

涉及技能： Scanpy, Arboreto, KEGG, Reactome, PyDESeq2

临床变异解释

任务：解读VCF文件以评估遗传性肿瘤风险。

执行步骤： 1.

使用 pysam 解析VCF文件；

查询 Ensembl VEP 注释变异；

联合 ClinVar / COSMIC 获取致病性信息；

查询 ClinPGx 提取药物基因组学关联；

使用 ReportLab 自动生成临床报告。

涉及技能： pysam, Ensembl, ClinVar, COSMIC, ClinPGx, ReportLab

安装与配置流程（技术说明）

环境要求

Python ≥ 3.9（推荐3.12）

系统：macOS / Linux / Windows (WSL2)

依赖管理工具：uv

客户端：Claude Code / Cursor / 任意MCP兼容客户端

安装示例

# 1. 安装 Claude Code
curl -fsSL https://claude.ai/install.sh | bash
# 2. 注册科学技能插件
/plugin marketplace add K-Dense-AI/claude-scientific-skills
# 3. 安装技能集
Open Claude Code → Plugins → Install “scientific-skills”

Claude 将自动检测科研任务并加载对应技能。

🌐 GitHub地址：https://github.com/K-Dense-AI/claude-scientific-skills

📄 许可证：MIT（允许商业使用）

⭐ Star 数：4.2k+

🧑‍💻 作者：K-Dense Inc.

🧩 兼容平台：Claude Code、Cursor IDE、任意 MCP 客户端（包括 ChatGPT、OpenAI Agent SDK 等）

来源：Claude-scientific-skills：一套 Claude 的科学技能库 138个即插即用的科学技能覆盖20+领域

Antigravity-Manager ：为 Antigravity 提供一键无缝账号切换功能

goodinfo.net — Sat, 03 Jan 2026 08:00:00 +0800

📰 正文

Antigravity-Manager 是一个集 AI 账号管理、协议中转、智能调度于一体的“本地 AI 控制中心”。

它能帮你： ✅ 一键切换多个 AI 账号 ✅ 稳定调用 Claude / GPT / Gemini ✅ 自动修复限流错误 ✅ 节省 Token 与时间

帮你统一管理和中转多家 AI 服务的账号（如 OpenAI、Claude、Gemini 等），并将不同厂商的接口协议转换成统一的 API 标准。

换句话说：它让你在一个应用里就能一键切换账号 + 调用不同模型 + 自动中转请求，不再需要记 token、改 API URL、手动登录登出。

✅ 一键切换账号（不用反复登录/登出）

✅ 自动检测失效账号

✅ 兼容多个 AI 协议（OpenAI / Claude / Gemini）

✅ 智能分流和修复请求

✅ 本地运行，无隐私风险

✅ 图形界面 + 命令行都支持

核心功能

① 智能仪表盘（Smart Dashboard）

💡 一眼看清所有 AI 账号的状态。

实时显示：各账号的剩余额度、状态（健康/封禁/限流）

自动推荐最优账号：系统根据配额、延迟、速率，动态推荐最合适的账号调用

快照记录：每个账号的更新时间和使用率

🧠 举例：你有 3 个 Claude 账号、2 个 Gemini 账号，它会告诉你哪个快用完了，哪个最空闲，并自动优先使用最稳定的那个。

② 强大的账号管家（Account Manager）

💡 让账号管理彻底自动化。

支持 OAuth 2.0 登录（自动生成授权链接）

支持批量导入 JSON 配置（一次添加几十个账号）

自动识别 403 封禁 / 401 失效

可视化管理界面 + 拖拽排序

一键禁用 / 启用账号

🧩 小功能亮点：

拖拽调整账号顺序，常用账号置顶

自动保存排序偏好，下次启动直接生效

③ 协议转换（API Proxy）

💡 把不同厂商的接口统一成标准格式。

🔄 自动修复：

当遇到限流（429）或 Token 过期时，系统会自动切换账号继续请求

完全无感知，调用不中断

📈 应用场景：

你可以把它当作「本地中转服务器」，让任何 AI 客户端（Cursor、Claude CLI、Cherry Studio）都统一走一个 Base URL。

④ 模型智能路由（Model Router）

💡 把复杂的模型体系自动分层调度。

自动分类模型家族（如 GPT-4 → gemini-3-pro-high）

按账号类型（Ultra / Pro / Free）自动优先级排序

高级模型优先供前台对话，后台任务自动降级（省 Token）

支持正则匹配自定义映射

🧠 举例：当你跑 Claude CLI 时，它能自动识别“后台摘要任务” → 降级到 Flash 模型；而主要对话仍用高级模型（Sonnet / Gemini 3 Pro）。

⑤ 多模态与图像生成功能（Imagen 3 支持）

支持图片生成与识别（4K 高清）

支持多种分辨率：1024×1024、16:9、21:9、2K

支持自动参数映射：size=1024x1024 → 匹配合适的 Imagen 3 模型

🧩 适用范围：

文本转图像

图片理解（OCR / 视觉输入）

UI 原型生成

⑥ 智能错误恢复（Self-Healing System）

遇到错误时自动修复，不需要你手动干预。

🧠 意思是：

你的请求基本不会失败。系统会自己“想办法重试”，直到成功。

⑦ 高级调度系统（Scheduling Engine）

账号池支持三种模式： 1️⃣ Exclusive 专属模式：单账号独享 2️⃣ Pooled 池化模式：多个账号轮流使用 3️⃣ Fallback 模式：备用账号自动顶替

内置 3 层限流保护机制

全局 Session 粘性（同一会话始终用同一账号）

⑧ 日志系统与可视化监控

实时显示请求、响应、耗时、Token 使用量

日志等级（INFO / DEBUG / TRACE）分层

可搜索、过滤、导出

请求完成时自动标记 Token 消耗与账号来源

安装与使用

🖥️ 方式一：macOS（推荐）

brew tap lbjlaq/antigravity-manager https://github.com/lbjlaq/Antigravity-Manager
brew install --cask --no-quarantine antigravity-tools

🪟 方式二：Windows

直接下载 .msi 安装包

或下载 portable 便携版（可放 U 盘运行）

🐧 方式三：Linux

下载 .AppImage 或 .deb，命令行执行：

chmod +x AntigravityTools.AppImage
./AntigravityTools.AppImage

🧠 五、接入示例（Claude / Gemini / Python）

Claude CLI:

export ANTHROPIC_API_KEY="sk-antigravity"
export ANTHROPIC_BASE_URL="http://127.0.0.1:8045"
claude

Python SDK:

import openai
client = openai.OpenAI(
api_key="sk-antigravity",
base_url="http://127.0.0.1:8045/v1"
)
response = client.chat.completions.create(
model="gemini-3-flash",
messages=[{"role": "user", "content": "写一个Python快速排序"}]
)
print(response.choices[0].message.content)

项目信息

🌍 GitHub： https://github.com/lbjlaq/Antigravity-Manager

来源：Antigravity-Manager ：为 Antigravity 提供一键无缝账号切换功能

IQuest-Coder-V1-40B：2026开年全球代码智能模型性能冠军

goodinfo.net — Sat, 03 Jan 2026 08:00:00 +0800

📰 正文

IQuest Coder 是一个面向软件工程和算法竞赛的代码大模型体系。它目前拥有多个规模版本：

7B（基础版本）

14B（中型版本）

40B（高性能版本）

40B-Loop（基于创新架构的优化版本）

所有模型均支持 128K tokens 的长上下文输入，可在单张高端 GPU（如 RTX 3090/4090）上运行。

IQuest Coder 通过多阶段训练策略、创新架构和推理强化机制，在多个代码任务基准测试中（如 SWE-Bench、LiveCodeBench、Terminal Bench）均取得领先表现。

技术创新：从“写代码”到“理解开发过程”的模型

大多数代码模型（如 CodeLlama、Codex）只是学习“代码片段”或“函数模式”。

IQuest-Coder 的创新在于，它不是学“结果”，而是学“过程”。

它的核心目标是：

🧠 让 AI 理解代码如何演化、为什么修改、如何推理出修复方案。

这就是所谓的「Code-Flow 训练范式（Code Flow Training Paradigm）」 —— 它是 IQuest-Coder 最大的技术创新。

创新一：Code-Flow 训练范式（核心突破）

传统代码模型的训练数据是：

“单个文件或函数 + 文本描述。”

而 IQuest-Coder 的训练数据是：

“完整项目仓库 + 多次提交记录 + 差异（diff） + 修复说明 + PR 讨论。”

🔍 训练步骤：

1️⃣ 阶段一：静态学习（Base）学习通用语法、代码结构、函数设计。

2️⃣ 阶段二：动态学习（Stage 1）学习仓库的变更历史（commit diff），理解 bug 修复、重构、代码演化。

3️⃣ 阶段三：Code Flow 推理通过序列化代码演化过程，训练模型预测「下一次变更」的逻辑。

🧩 意义：模型开始理解“为什么代码这样改”，而不是“这段代码长什么样”。

📈 效果：在 SWE-Bench Verified（真实代码修复测试）上达到 81.4% 准确率，远超其他模型（多数仅在 60~70% 之间）。

创新二：Loop Transformer 架构（循环式语言模型）

传统 Transformer 的注意力是“一次性”的：输入 → 输出，一步到位。

IQuest-Coder 引入了 Loop Transformer（循环结构）：

模型会在内部“思考两遍”，共享参数但重复推理，像人类审查答案一样。

🧩 原理：

第一轮推理：生成初步答案

第二轮推理：复用隐藏状态，重新评估输出

输出更稳定、更少逻辑漏洞

💡 优势：

推理更深、回答更准

显存消耗不翻倍（因为权重共享）

在复杂任务（如算法解释、长代码阅读）中显著优于普通架构

创新三：Grouped Query Attention (GQA)

GQA 是一种高效注意力机制（源自 LLaMA2/3）， IQuest-Coder 在此基础上进行了强化优化。

🧠 工作原理：

把多头注意力（Multi-Head Attention）分组，每组共享部分计算 → 降低显存占用，提高推理速度。

📊 效果：

降低推理延迟约 30%

使得 40B 模型能流畅运行在 8×A100 配置上

这也是为什么它可以原生支持 128K 长上下文而不崩。

创新四：双路径模型设计

（Thinking 模式 vs Instruct 模式）

这是 IQuest 系列区别于所有其他模型的关键设计理念。

💡 这样用户可以根据场景选择：

要速度：用 Instruct；

要逻辑深度：用 Thinking。

这种「同底层、双人格」的架构设计，在当前开源模型中非常罕见。

创新五：RRL（Reasoning-driven Reinforcement Learning）

普通 RLHF（人类反馈强化学习）主要训练模型「听懂人话」。

而 IQuest-Coder 的 RRL 则训练模型「会推理」。

🔬 工作方式：

模型先生成解题步骤；

系统自动验证逻辑正确性；

根据推理链条得分（不是答案分），奖励正确推理。

这样训练出的模型能：

🔍“解释为什么这么写”，而不是“只是写对”。

💡 结果：模型在长逻辑问题（如算法推导）中性能大幅提升。

创新七：原生 128K 上下文支持

多数模型（如 CodeLlama）通过外部扩展（如 RoPE Scaling）实现长上下文，精度会衰减。而 IQuest-Coder 是“原生支持 128K”，即训练时就使用长序列。

💡 价值：

可以一次性加载整个大型项目；

跨文件引用、依赖分析更加准确；

在真实企业代码环境中可用性极高。

创新八：Loop Self-Reflection（循环自省）

IQuest-Coder 的 Loop 模型具备一种“自省机制”：

模型在一次回答中可以“回顾自己前面的思路”，并进行修正。

这类似于人类写完一段代码后“自检”的过程。

💡 体现为：

生成结果逻辑更严密；

错误率明显降低；

输出更简洁、更稳定。

与其他模型对比（直观表）

SWE-Bench Verified：81.4%（代理式软件工程任务）

BigCodeBench：49.9%

LiveCodeBench v6：81.1% 这些分数在40B规模模型中领先，据称接近或超过Claude 4.5 Sonnet、GPT-5.1等更大闭源模型（社区有讨论是否过度优化基准）。

在综合代码任务上，IQuest 已经与 GPT-5.1、Claude 4.5 平级；

在 bug 修复、全栈开发、SQL 理解上反而更强；

在算法题与对话逻辑性上略低于 GPT-5.1；

最大优势在于：完全开源 + 可本地部署。

官方介绍：https://iquestlab.github.io/

GitHub：https://github.com/IQuestLab/IQuest-Coder-V1

模型下载：https://huggingface.co/IQuestLab/IQuest-Coder-V1-40B-Instruct

来源：IQuest-Coder-V1-40B：2026开年全球代码智能模型性能冠军

Claude Code Workflow Studio： Claude Code 可视化工作流编辑器

goodinfo.net — Tue, 30 Dec 2025 08:00:00 +0800

📰 正文

Claude Code Workflow Studio 是为 Anthropic Claude Code CLI 打造的可视化工作流编辑器，支持拖拽式 AI 工作流设计，无需编程即可创建和导出自动化流程。

它让用户能用图形界面创建、修改、运行 Claude code 的自动化流程。

比如：

你可以设计一个自动“文档总结”机器人；

也可以创建一个“代码分析+修复建议”的工作流；

甚至能做一个“网页爬取+内容提取+结果汇报”的自动流程。

它能帮你做什么？

功能亮点：

可视化拖拽编辑器

通过拖放节点（Prompt、Sub-Agent、Skill、MCP、IfElse、AskUserQuestion）构建复杂工作流。

AI 辅助迭代式工作流改进

使用自然语言描述修改需求，Claude AI 会根据上下文逐步优化工作流。

一键导出

自动生成 .claude/agents/.md 与 .claude/commands/.md 文件，可直接在 Claude Code CLI 中运行。

Slack 集成（Beta）

允许将工作流分享至 Slack，并支持一键导入。

本地安全执行

所有操作在本地运行（除 MCP 节点外可能依赖网络连接）。

国际化支持

支持五种语言：英语、日语、韩语、简体中文、繁体中文。

工作流组件详解

你在 VSCode 打开 Claude Code Workflow Studio 后，会看到一个“画布”界面：

Prompt Nodes：模板化提示词节点（支持变量与动态替换）

Sub-Agent Nodes：独立智能体，具有自定义系统提示、模型选择（Opus、Sonnet、Haiku）

Skill Nodes：可引用或创建 Claude Code Skills（带 YAML 元数据的技能模块）

MCP Tool Nodes：基于 Model Context Protocol 的外部工具集成节点（如数据库、API、Playwright 浏览器）

Conditional Branching：IfElse、Switch 实现条件分支逻辑

AskUserQuestion Nodes：用户交互节点，支持多选项分支

每个节点之间用“线”连起来，形成一个完整的自动化流程。

AI 辅助编辑（最强功能）

这部分是 Claude Code Workflow Studio 最独特的亮点。

传统工具要手动修改流程逻辑；但在这里，你可以用“自然语言”告诉 AI 你想改什么。

例如：

“帮我在开始节点后添加一个验证用户输入的步骤。” “把输出结果改成保存成文件。” “增加一个判断：如果文本超过1000字，就分段处理。”

AI 会自动：

理解你的意图；

修改流程；

调整布局；

确保逻辑正确；

并让你审查、接受或撤销更改。

它不仅帮你生成，还能帮你“反复改进”流程。

如何安装和使用？

🪜 1. 安装依赖

首先你需要安装 Claude Code CLI：

https://claude.com/claude-code

安装完成后输入：

claude --version

确认可以正常运行。

🧩 2. 安装插件

两种方法：

✅ 从 VSCode 商店安装 1.

打开 VSCode；

按 Ctrl+Shift+X；

搜索 Claude Code Workflow Studio；

点击安装。

💻 从源码安装

git clone https://github.com/breaking-brake/cc-wf-studio.git
cd cc-wf-studio
npm install
npm run build
npx vsce package

然后在 VSCode 扩展管理器中选择“从 VSIX 安装”。

🎨 3. 打开编辑器

在 VSCode 命令面板中输入：

Claude Code Workflow Studio: Open Editor

首次使用会启动一个交互式教学向导（带演示动画），一步步教你如何添加节点、连接线、配置参数。

🧠 4. 创建一个简单工作流

举个例子：

目标：创建一个“自动问候”工作流。 1.

添加一个 Prompt Node 内容：你好，我是Claude！

添加一个 AskUserQuestion 节点内容：你现在感觉如何？（开心 / 忙碌 / 放松）

添加一个 Sub-Agent 节点根据不同回答生成回应。

点击“导出” 自动生成 .claude/commands/greeting.md 文件。现在你可以直接用 Claude CLI 执行！

Skill 与 MCP：让 Claude 更聪明

💡 Skill（技能）

类似“Claude 的插件”。比如你有一个 PDF 解析技能，Claude 就能在工作流里自动用它读文件。

技能文件定义在：

个人技能：~/.claude/skills/

项目技能：.claude/skills/

每个技能都是一个带 SKILL.md 的 Markdown 文件，里面写着：

name: pdf-reader
description: 从PDF中提取文本
tools: [Read]

然后你只需在可视化编辑器中选择该 Skill，Claude 就能用它。

🌐 MCP（Model Context Protocol）

MCP 是 Claude 的“扩展接口系统”。你可以让 Claude 调用外部 API 或本地工具。

例如：

Playwright MCP → 控制浏览器；

API MCP → 访问网络接口；

Database MCP → 查询数据库；

Filesystem MCP → 访问文件系统。

添加 MCP 节点后，只需选择：

服务器（MCP Server）

工具名（Tool）

参数配置（自动生成表单）

即可完成配置。

常见问题（FAQ 精选）

📘 总结一句话：

Claude Code Workflow Studio 就是一个「让你像搭积木一样创建 AI 自动化工作流」的 VSCode 插件。

无需编程，只需想好流程，拖几个模块、点几下、和 AI 聊两句，它就能帮你生成一个真正能运行的智能系统。

GitHub：https://github.com/breaking-brake/cc-wf-studio

来源：Claude Code Workflow Studio： Claude Code 可视化工作流编辑器

AntV Infographic：一句话自动生成漂亮、结构化的信息图

goodinfo.net — Sun, 28 Dec 2025 08:00:00 +0800

📰 正文

AntV Infographic 是阿里巴巴 AntV 团队推出的一个新一代信息图生成与渲染框架。

它的目标是：

“让文字变成图形，让数据开口说话。”

也就是说，你只需要输入几句话描述信息，系统就能自动生成一张漂亮、结构化的信息图（Infographic）。

这项技术让“AI自动可视化”成为现实，非常适合教学、数据展示、报告、AI输出可视化等场景。

AI原生：语法和结构都为AI生成优化，兼容ChatGPT、Gemini等大模型。

声明式图形语言：用文字描述图，不需要复杂坐标或绘图命令。

高质量SVG输出：输出的图是矢量的（SVG），不会失真，可直接放进PPT或网页。

模板丰富：200+ 信息图样式一键调用。

多主题风格：支持“手绘风”“渐变风”“卡通风”“商务风”等主题，可自定义。

实时可视化：流式渲染技术，让AI能“边说边画”。

内置编辑器：有一个网页编辑器，可以手动微调AI生成的图。

流式渲染：当AI模型一边“说话”一边输出内容时，图也能边生成边出现。就像AI在“画思维导图”一样。

开发者友好：完整API、可扩展架构、可定制样式。

GitHub： https://github.com/antvis/Infographic?tab=readme-ov-file

网站：https://infographic.antv.vision/

来源：AntV Infographic：一句话自动生成漂亮、结构化的信息图

阿里巴巴发布全新开源语音交互大模型 Fun-Audio-Chat 超低延迟富有同理心、能理解语调和情感

goodinfo.net — Wed, 24 Dec 2025 08:00:00 +0800

📰 正文

阿里云 Tongyi Fun 团队发布全新的开源语音大模型 Fun-Audio-Chat ，在实现自然、低延迟的语音交互（Voice Interaction），专为实现自然、低延迟的语音交互而设计。

你不需要打字，只要用语音对它说话，它就能实时理解、思考、回答你，并用自然流畅的语音回复。

它可以：

回答语音问题（比如“帮我总结这段语音”）

理解语音内容（比如识别情绪、音色、命令）

按语音执行任务（比如“帮我打开音乐”、“拨打电话”）

语音生成语音（你说话它直接“开口”回应）

模拟语音情感（比如开心、温柔、严肃）

它可以完成端到端的语音问答、语音理解、语音函数调用、语音指令执行与语音共情等任务。

该模型的设计目标是： 1.

在低延迟条件下实现自然的语音交互体验；

在保持大语言模型语义理解能力的同时增强语音感知与生成能力；

提供统一框架支持语音→语音、语音→文本等多模态任务。

技术创新

Fun-Audio-Chat 的核心目标是：

在统一的大语言模型框架下，实现自然、实时的语音理解与语音生成。

为此，它引入两个核心创新：

🧩 1. 双分辨率语音表示（Dual-Resolution Speech Representations）

传统语音模型采样频率高（12.5Hz 或 25Hz），虽然声音细节多，但计算量很大、延迟高。 Fun-Audio-Chat 采用了一种聪明的折中方法：

主干部分（5Hz）：负责理解语音的“意思”，计算量低；

精细部分（25Hz）：负责保留声音细节，让语音听起来自然。

👉 好处：

推理速度快（延迟低）

将 GPU 成本降低约 50%

声音依旧高质量自然

这就像你看电影时，主干剧情是5帧/秒，人物表情用25帧补足，看起来流畅又省资源。

🧪 2. 核心混合训练（Core-Cocktail Training）

它结合了“语音模型”和“文本大模型”的训练方式：

从文本大模型（LLM）那里学到理解能力；

从语音模型那里学到听觉与说话能力。

👉 这样，它既能像 ChatGPT 一样理解语义，又能像 Siri 一样“听懂说话”。

🔷 3.模型架构

Encoder：把语音转成语义特征（听懂你说啥）；

LLM Backbone：理解语义、做推理（想清楚怎么回答）；

TTS Head (CosyVoice)：把结果转成自然语音（说出来）。

🔄 4.全双工语音交互（Full-Duplex Interaction）

传统语音助手是“单工”的：说完一句 → 等回答。 Fun-Audio-Chat 实现了全双工语音，即边说边听、可打断、可轮换发言。

技术上，它通过： 1.

模拟重叠语音数据；

加入“轮次控制（Turn-taking Control）”信号；

同步语音输入与输出流。

实验显示：

在 Turn-Taking 精度上，Fun-Audio-Chat-Duplex 达到 100%；

响应延迟 < 400ms；

可在语音打断场景中稳定对话。

性能和测试结果

在多个语音理解与对话基准上达到同类模型最优（SOTA）；

在效率、音质、延迟三方面取得均衡；

Fun-Audio-Chat-30B-A3B 版本性能与 GPT-Audio、Gemini-2.5-Pro 相当；

Fun-Audio-Chat-8B 版本在开源模型中表现最强。

Fun-Audio-Chat 的 8B 模型在多个公开语音任务上都拿到了同级模型中的最高分

项目及演示：https://funaudiollm.github.io/funaudiochat/

GitHub：https://github.com/FunAudioLLM/Fun-Audio-Chat

技术报告：https://github.com/FunAudioLLM/Fun-Audio-Chat/blob/main/Fun-Audio-Chat-Technical-Report.pdf

模型：https://huggingface.co/FunAudioLLM/Fun-Audio-Chat-8B

来源：阿里巴巴发布全新开源语音交互大模型 Fun-Audio-Chat 超低延迟富有同理心、能理解语调和情感

智谱AI发布：GLM-4.7 引入三层思考模式编码和前端审美大幅提升性能直逼GPT-5和Claude 4.5

goodinfo.net — Tue, 23 Dec 2025 08:00:00 +0800

📰 正文

智谱 AI（Zhipu AI）发布新一代多模态与智能体化模型：GLM-4.7。

该版本并非单纯参数扩容，而是针对智能体场景中的“思考一致性（Thinking Consistency）”与“编程自治性（Agentic Coding）” 进行结构性增强。

该版本在多项标准化基准测试中显著超越 GLM-4.6。

相较 GLM-4.6，该版本重点解决了三大瓶颈： 1.

代码生成与修复的逻辑一致性不足；

多轮任务中保持思考一致性（不乱、不忘）

工具使用与上下文保持的碎片化。

GLM-4.7 在 17 个多维基准测试（涵盖 8 个推理、5 个编程、3 个智能体任务）中，相较 GLM-4.6 实现显著增益，尤其在复杂编程与长链任务中表现突出。

整体结果显示，GLM-4.7 在推理、编程与智能体执行三大维度均较 GLM-4.6 有10%~20% 的系统性提升。

GLM-4.7 的“思考系统”是核心亮点

GLM-4.7 的最大革新是：

引入了新的“思考机制（Thinking System）”，这是它区别于大多数模型的核心技术。

让模型“先思考，再行动”

在传统大语言模型（如 GPT、Claude、Gemini）中，生成过程是：

输入 → 直接输出文本

也就是说，模型没有明确的“思考阶段”——它一边预测单词，一边输出结果。这导致：

输出逻辑容易漂移（逻辑链断裂）；

多轮任务中容易遗忘之前的推理过程；

对复杂任务缺乏一致性和复盘能力。

GLM-4.7 打破了这种机制。它在架构中显式加入了“思考层（Thinking Layer）”，让模型在输出前进行“内部思考”，形成可持续的推理链。

💬 用人类类比： GPT-4 是“边说边想”的人， GLM-4.7 是“先想清楚再回答”的人。

三种思考模式

GLM-4.7 的创新点在于它同时具备三种思考层，这在当前所有主流大模型中是首次系统实现。

💡 举例说明：

假如你和 GLM 聊一个编程项目：

第一次：它思考怎么设计架构；

第二次：它继续沿用上次的思路完善功能；

不会像旧版那样忘记前面的逻辑。

Interleaved Thinking：让模型“分步思考”

每个响应或工具调用前，模型会自动生成一段“隐性推理过程”（即思考块）。

在这一阶段，模型不产出可见内容，而进行目标分解、验证与计划生成。

效果：显著改善指令遵循率（instruction following）与结构化输出一致性。

也就是在生成答案前，GLM-4.7 会自动进行一个内部推理阶段：

分析任务目标；

制定推理路径；

预测潜在障碍；

再生成可见输出。

这让模型在代码生成、逻辑推理等复杂场景中输出更稳定、条理更清晰。

📈 在 SWE-bench（真实编程任务）中，这一机制带来 5%–10% 的准确率提升。

Preserved Thinking：让模型“记住自己的思考”

传统模型的多轮对话存在“遗忘问题”：每次生成新答案时，它不会真正记得上一次的推理逻辑，只依赖上下文文本。

GLM-4.7 则在系统中引入**“推理状态缓存（Reasoning Memory）”**，将思考链（Reasoning Trace）显式保留在内部上下文中，并在后续调用。

这意味着：

它不会重复犯同样的逻辑错误；

可以在任务中连续改进；

适合长时程任务（如代码项目、科研分析、论文撰写）。

📊 实验证明： Preserved Thinking 在多轮推理任务中减少约 20% 的逻辑漂移（drift rate），在 Terminal Bench 长链任务中带来约 +16.5% 性能增益。

Turn-level Thinking：让用户“控制思考”

GLM-4.7 允许用户或系统控制每一轮的思考深度，用户可在每一轮启用或禁用思考层

轻量任务（如问答、摘要） → 关闭思考层，加快响应；

复杂任务（如数学推理、编程、多步规划） → 启用思考层，提升准确度；

混合任务 → 动态切换。

这一点让 GLM-4.7 成为一个**“可控推理系统”**，在成本、速度与智能之间实现灵活平衡。

为什么这是重大突破？

✅ 1. 从“输出导向”到“思维导向”

传统模型关注输出的质量；

GLM-4.7 关注思维过程的合理性与连贯性。它不只是“会说”，而是“会想并能自证逻辑”。

✅ 2. 从“对话式 AI”向“可控智能体”过渡

思考系统让 GLM-4.7 能够在智能体框架中执行更复杂的多步骤任务。它能：

理解任务目标；

拆解步骤；

调用工具；

保留上下文推理链；

自主完成执行闭环。

在 Claude Code、Roo Code、Cline 等智能体框架中的测试表明， GLM-4.7 的任务完成率明显优于前代（+10%～15%）。

✅ 3. 让推理变得“稳定、可复用、可解释”

由于推理链被显式保存，GLM-4.7 的输出具备：

稳定性：逻辑连贯、不易漂移；

可复用性：可延续推理结果，不必重复思考；

可解释性：可追踪模型的决策依据。

这为模型的安全性、可靠性和工程应用提供了新的基础。

GLM-4.7 有哪些重大升级？

🧩 1. 编程能力（Coding Ability）全面升级

GLM-4.7 的编码能力得到了大幅的提升

🧠 它能“先思考再动手”，比以前更少出错。比如：在写函数前，它会先规划结构和逻辑，不会一上来就乱写。

这点非常接近人类开发者的思维方式。

🎨 2. 视觉与设计能力（Vibe Coding）更强

GLM-4.7 不只是会“写代码”，它还会“设计界面”。

GLM-4.7 对生成内容的**视觉一致性（Visual Consistency）**做了大幅优化：

自动生成结构化 HTML、CSS、JavaScript 代码；

幻灯片（Slides）生成时改进了排版与比例感；

生成网页具备现代化风格与可用性。

举例：

能生成干净、现代感的网页；

能排版美观的幻灯片和海报；

自动控制布局、颜色和文字比例，视觉统一。

以前生成的网页像“开发者作品”，现在生成的网页更像“设计师作品”。

🛠️ 3. 工具使用与网络浏览更聪明

GLM-4.7 可以主动使用工具，比如上网搜索或调用外部 API。

在 BrowseComp 中，从 45.1% 提升至 52.0%；

支持多工具上下文融合（context-managed browsing 模式）；

在 τ²-Bench 中达到 87.4%，优于 GPT-5 (82.7)。

它能：

打开网页自己查资料；

自动提取信息；

在回答问题时引用最新内容；

自动执行命令（例如：下载文件、处理数据等）。

🔢 4. 复杂推理与数学能力更强

GLM-4.7 的逻辑推理能力有大幅度提升：

🧮 表现效果：

能正确解答更复杂的数学题；

在写代码前能推导更长的逻辑链；

在解释问题时更清晰、有条理。

和 GPT-5、Claude、Gemini 比起来如何？

GLM-4.7 的综合表现介于 GPT-5 与 Claude 4.5 之间，在“代码生成 + 思考机制 + 视觉输出”方面更具优势。

在推理能力上，GLM-4.7 的平均表现略低于 GPT-5 系列，但超过 Claude Sonnet 4.5 与 Kimi K2：

GLM-4.7 在性能层面达到“GPT-5 级别的综合平衡型模型”。

推理层面：数学逻辑接近 GPT-5，高于 Claude 4.5。

编程层面： SWE-bench、Terminal Bench 提升显著，具备行业级可用性。

智能体层面： τ²-Bench 成绩领先，展示出真实任务闭环能力。

稳定性：由于“Preserved Thinking”，在长任务、复盘任务中表现极佳。

多语言与成本：兼顾性能与性价比，是 2025 年底全球最具实用价值的开源模型之一。

使用方式（非常简单）

🌐 在线体验： 👉 Z.ai 平台切换模型为 GLM-4.7

🧰 API 调用：文档地址：GLM-4.7 API Guide

💾 本地部署：

可在 HuggingFace、ModelScope 下载模型权重

支持框架：vLLM、SGLang

兼容 OpenRouter 平台

💸 价格方案：

GLM Coding Plan 用户自动升级至 GLM-4.7。相较 Claude Code 模型：

成本为其 1/7；

使用配额为其 3 倍；

编程任务性能达到 90% Claude 水平。

GitHub：https://github.com/zai-org/GLM-4.5

模型下载：https://huggingface.co/zai-org/GLM-4.7

技术报告：https://arxiv.org/abs/2508.06471

来源：智谱AI发布：GLM-4.7 引入三层思考模式编码和前端审美大幅提升性能直逼GPT-5和Claude 4.5

A2UI：让 AI 能通过生成实时 UI 界面来回答用户问题

goodinfo.net — Mon, 22 Dec 2025 08:00:00 +0800

📰 正文

A2UI（全称 Agent-to-User Interface）是 Google 推出的一个开源项目，目标是让 AI 智能体（agent）能自动生成安全的图形化界面（UI）。

🧠 一句话解释： A2UI 是一种“让 AI 能说 UI 的语言”。

让智能体（Agents）能生成上下文相关的、动态的、可交互的用户界面（UI）。

传统上，AI 只能输出文字（比如 ChatGPT 给你一段文本），但它不能生成一个安全可交互的界面。

有两个难题： 1.

安全问题：如果让 AI 输出 HTML/JS 代码，会有执行任意代码的风险（如 XSS、RCE）。

跨平台问题：HTML、Flutter、React、SwiftUI 各有不同的渲染方式，AI 生成的代码往往不能通用。

A2UI 的出现就是为了解决这两个问题

它定义了一种开放的 UI 描述标准，让 AI 不直接生成代码，而是生成一种声明式的数据结构（JSON），用于描述界面的结构和行为。

客户端程序（前端 App）再根据这份数据结构，用自己的安全组件库去“解释并绘制”UI。

这样：

AI 不需要知道具体框架；

UI 可以跨平台；

安全性得到保证；

交互体验可以动态更新。

它让 AI 能用一种安全、标准的格式（JSON）告诉应用该怎么生成界面，而不是直接写代码。

举个例子：

以前你问 AI：“帮我查下东京餐厅” → AI 只能回一句文字说明；

用了 A2UI 后 → AI 能“生成”一个可交互的界面，比如地图上标出东京餐厅的位置。

也就是说，AI 不再只是“说话”，还能“画界面”。但它不是写代码（这会有安全风险），而是生成一种安全的数据描述（JSON），告诉应用程序要显示什么界面。

A2UI 的核心特性

让智能体安全地生成 UI，而不是执行代码。

也就是说：

AI 只输出结构化 JSON；

客户端渲染 UI；

所有组件都来自安全的“组件白名单”。

🚫 不再发送代码

过去的远程 UI 往往通过 HTML/JS 传递，这会带来：

安全隐患（执行脚本）；

样式不一致；

难以跨平台。

A2UI 为什么重要？

让我们看一个例子 👇

❌ 传统做法

AI 想生成一个界面（比如一个“酒店预订表单”），可能会输出：

<form>
<input type="text" placeholder="Destination">
<input type="date">
<button>Book</button>
</form>

但是：

这个代码可能包含恶意脚本（安全风险⚠️）；

前端框架可能不兼容（React、Flutter、SwiftUI 各不相同）；

更新 UI 很难做到“动态增量修改”。

✅ 用 A2UI 的做法

AI 不直接写代码，而是输出一个安全的 JSON：

{
"type": "form",
"children": [
{ "type": "text-field", "label": "Destination", "id": "input_destination" },
{ "type": "date-picker", "label": "Check-in Date", "id": "input_date" },
{ "type": "button", "text": "Book", "onClick": "submit_form" }
]
}

前端（比如 Flutter、Lit、React）拿到这个 JSON 后，会自动用本地的组件库去渲染出界面。

这样：

不运行 AI 生成的“可执行代码”，只解析数据 ✅

不限前端框架 ✅

AI 可以随时“增量更新 UI” ✅

技术结构与架构

A2UI 本质上是一个：

“声明式 UI 消息规范” + “跨平台渲染协议”

可以理解为：

AI → 生成 A2UI JSON → 前端解析 → 渲染本地组件

可以把整个 A2UI 的工作过程分为四个阶段。

生成（Generation）

智能体（Agent）——例如使用 Gemini 或其他大型语言模型（LLM）——生成一个符合 A2UI 规范的 JSON。这个 JSON 包含界面的结构、组件类型、内容、事件标识等。

传输（Transport）

这个 JSON 数据通过网络传给客户端。 A2UI 支持的传输协议包括：

A2A Protocol（Agent-to-Agent 协议）

WebSocket

未来可能支持 REST、gRPC 等形式

解析（Resolution）

客户端应用收到 JSON 后，由 A2UI Renderer（渲染器）进行解析。渲染器负责识别组件类型（如 “button”）并找到相应的本地实现。

渲染（Rendering）

渲染器将这些抽象组件映射到真实的 UI 元素上。例如：

在 Flutter 中，“type”: “button” 映射为 ElevatedButton

在 Web 上，映射为 Lit 或 React 的

阿里巴巴发布 Photoshop 级别的图像分层模型：Qwen-Image-Layered

goodinfo.net — Mon, 22 Dec 2025 08:00:00 +0800

📰 正文

阿里巴巴旗下 Qwen 团队推出的一款创新图像生成与编辑模型：Qwen-Image-Layered。

其核心创新点在于：

将单张图像自动分解为多个独立的 RGBA 图层，从而赋予图像“内在可编辑性”（inherent editability）。

这种分层结构使得每个图像元素（如前景人物、文字、背景等）可以被单独编辑，而不会影响其他部分，显著提升了编辑的灵活度与保真度。

什么是 RGBA 图层？

传统图像只有 3 个通道：

R、G、B（红、绿、蓝）

RGBA 则在此基础上增加了一个：

A（Alpha）通道 —— 控制透明度。

因此，**每个图层（Layer）**不仅包含颜色信息，还能保存“哪些区域透明，哪些可见”。

通过堆叠这些图层（前层透明的地方让下面的层透出），即可重构出完整图像。

这种方式使得：

每个对象（人物、物体、文字、背景）都能被单独编辑；

图层之间天然隔离，不会互相干扰；

操作（移动、缩放、删除）都不会影响其他层。

一句话解释：

Qwen-Image-Layered 是一个可以“自动把图片拆成多层”的 AI 模型，让你像在 Photoshop 里一样编辑图片，但不需要自己动手抠图。

我们平常看到的图片（比如一张女孩站在花园里的照片）其实是所有元素叠在一起的平面图像。

传统图片的问题是：

改一个地方（比如换衣服、改文字）会影响整张图；

删除东西容易留下痕迹；

想重新组合不同元素很麻烦。

而 Qwen-Image-Layered 就是为了解决这些问题。

它能自动把一张图片拆成多个「图层」，比如：

每一层都是一个带透明通道的 RGBA 图像（RGB + Alpha 通道），就像 Photoshop 的图层那样，你可以单独调整、隐藏或移动。

模型功能与应用示例

由于各图层在物理上相互独立，分解完成后，编辑操作仅作用于目标图层，将其与其他内容物理隔离，从根本上确保了编辑的一致性。

局部编辑（Localized Editing）

重新着色（Recoloring）：调整单一图层的颜色属性；你可以只改某个图层的颜色，比如给女孩的衣服换成蓝色，而背景、头发都不会被影响。

对象替换（Object Replacement）：将某一图层中的目标替换为其他内容；模型能让你直接把“女孩”这一层替换成“男孩”，其他图层仍保持原样。

文字修改（Text Replacement）：独立修改图层中的文字元素；如果图片里有字，比如 “Hello”，你可以只改文字图层，把它改成 “Qwen-Image”。

物体删除（Object Removal）：直接移除某层并重新合成图像；比如去掉背景中的路人、垃圾桶、广告牌等，删除后不会出现“糊”的地方。

几何变换（Geometric Transformation）：对层内对象进行平移、缩放、旋转等操作而无失真。普通图片放大一个元素会失真，而这里每个图层是独立的，所以缩放时不会损坏其他部分。

自由移动：你可以在画布上拖动人物、物体到新位置，因为每个对象都在独立图层上。

可变层结构与递归分解（Variable & Recursive Layering）

模型支持动态生成不同数量的层（例如3层、5层、8层等）；

任意图层都可再输入模型进行二级分解（Recursive Decomposition），形成层级化结构（Layer Hierarchy）。

📘 意义：实现从宏观（前景/背景）到微观（人物细节、配饰等）的多层次理解。

“可变层结构”是什么

以前的图像分层或分割模型通常只能把图像固定地分成两层，比如：

前景（foreground）

背景（background）

但现实世界中的图像往往更复杂，例如：

一张包含背景风景、人物、衣服、手中物品、文字的图片，如果只分两层，是不够细的。

Qwen-Image-Layered 的改进

这篇论文的模型不再固定层数，而是可以自动决定分几层，也就是说：

模型会根据图像内容的复杂程度，自适应生成 N 个图层， N 可以是 3、5、8……由模型自己决定。

举例：

这样，每层都是独立的、可单独编辑的 RGBA 图像。模型不需要你告诉它分几层，它会动态决定合适层数。

“递归分解（Recursive Decomposition）”

“递归（Recursive）”的意思是：

模型可以对“分出来的某一层”，再次执行同样的分解操作。

换句话说：

不是只分一轮，而是可以“层中有层”。

举个具体例子：

假设模型第一次分解一张图片（图层 1–4）：

然后你对 Layer 2（人物层）再执行一次分解，模型可以把这一层拆得更细：

如此，模型实现了层级化结构（Layer Hierarchy）：

图像
├── 背景层
├── 人物层
│ ├── 头发层
│ ├── 衣服层
│ └── 鞋子层
├── 动物层
└── 文字层

为什么要这样做？

1️⃣ 现实图像是“多层次”的

真实图像包含：

语义层次（人、物体、背景）

几何层次（前后遮挡）

视觉层次（颜色、光照、透明度）

一个平面的像素图无法同时表达这些关系。分层 → 递归分层，正是模拟人类感知图像结构的方式。

2️⃣ 递归分解提升了“可编辑性”

如果你想修改人物的衣服颜色，就不需要改整个“人物层”；递归分层后，直接操作“衣服子层”即可，避免影响头发、皮肤、阴影等部分。

这种层级式表示使得编辑可以精确到局部对象，而仍保持整体一致。

3️⃣ 提高模型的语义理解与泛化能力

在训练时，递归分层能让模型学习到：

不同层之间的语义独立性；

层级间的组合关系；

层内部结构的细粒度表示。

因此模型不仅能“拆图”，还能“理解图像组成逻辑”。

它让 AI 从“平面图像生成者”变为“结构化图像理解者”。

模型能在不同语义层次（从场景到局部）进行理解与编辑，实现真正的层次化视觉操作。

模型的三大技术模块

整套模型是由三个核心技术模块组成的： 🧩 RGBA-VAE 🧠 VLD-MMDiT 📈 Multi-Stage Training

1️⃣ RGBA-VAE —— 让模型理解“透明图层”

🧩 它是干什么的？

VAE（变分自编码器）是一个常见的图像压缩网络。它能把图像压成“潜空间向量”（latent vector）再重建回来。但以前的 VAE 只能处理 RGB 图像。

Qwen 团队改进为 RGBA-VAE：

支持四个通道（Red, Green, Blue, Alpha）；

可以同时理解颜色 + 透明度；

让模型知道“哪些区域属于物体，哪些是透明背景”。

📘 直白理解：普通模型只知道“有颜色的地方”， RGBA-VAE 还能理解“空白的地方”。所以它能学会“图层之间怎么叠在一起”。

📊 实验结果： RGBA-VAE 重建图像的质量显著提升，清晰度高、边缘自然。

2️⃣ VLD-MMDiT —— 模型的大脑

全称：Variable Layers Decomposition Multi-Modal Diffusion Transformer （可变层分解的多模态扩散变换器）

听起来复杂，但本质上它做三件事：

（1）支持可变层数输出

以往模型输出的层数是固定的（例如两层：前景+背景）。而 Qwen 的模型可以根据图像复杂度自动决定要拆成几层。

🧠 简单比喻：

如果是一张简单肖像图，模型可能只分3层（背景 / 人物 / 文字）；

如果是一张复杂的广告图，可能会分成8层（背景 / 人物 / 产品 / 反光 / 阴影 / 图标 / 文字 / 前景光效）。

📘 这就叫做：可变层结构（Variable Layering）。

（2）能处理图像与文字双输入（多模态）

VLD-MMDiT 既能从图像分解出图层（I2L），也能从文本直接生成图层（T2L）。

🧩 例如：

“一个女孩拿着花站在草地上” 模型会生成：

Layer1：背景草地

Layer2：女孩

Layer3：花

Layer4：阳光反射

这就是文字到多层图像生成（Text-to-Layers）。

（3）让模型理解层与层的关系

论文引入一个叫 Layer3D RoPE（三维相对位置编码）的机制。

📘 通俗解释：

模型在看图层时，不仅知道“这个像素在图里哪儿”，还知道“这个像素属于第几层（上面还是下面）”。

这能让模型生成正确的层叠顺序（例如人物在背景前，阴影在地面上）。

3️⃣ Multi-Stage Training —— 分阶段训练法

直接教 AI “从图像拆出所有图层”太难了。所以作者采用了一个循序渐进的训练过程，类似人类学习从简单到复杂：

📘 意思是：

模型先学会“画出图层”，再学会“理解别人画的图层”，最后学会“自动分解图层”。

这让模型训练更稳定，也避免直接分解带来的崩溃问题。

数据构建：让模型真正“见过图层”

他们从真实的 Photoshop PSD 文件提取了带图层的数据：

每个 PSD 文件包含多个对象层；

自动过滤无效层；

合并重叠层；

用 Qwen2.5-VL 自动生成图像描述。

这样，模型在训练时就能“看到”真实的图层结构，学会真实世界中图层之间的组合关系。

📊 数据覆盖：人物、产品、场景、文字、UI、广告等。

潜在应用前景

AI设计与绘图软件：自动为图像生成可编辑图层，直接导入 Photoshop、Figma。

AIGC 内容创作：生成图像后可精准微调，不再受“整体变化”限制。

游戏与动画建模：自动拆分角色、背景、特效层，便于动态渲染。

智能修图与广告制作：一键删除对象、替换文案或商品，无需重新渲染整张图。

一些案例：

模型已开放至以下平台：

GitHub

Hugging Face

ModelScope

在线 Demo 亦已上线

技术报告：https://arxiv.org/pdf/2512.15603

来源：阿里巴巴发布 Photoshop 级别的图像分层模型：Qwen-Image-Layered

Google 推出 FunctionGemma 模型能理解自然语言并将其转换为操作各种设备的命令

goodinfo.net — Fri, 19 Dec 2025 08:00:00 +0800

📰 正文

Google 推出了一个新的 AI 模型，叫做 FunctionGemma。

它是 Google 自家的 Gemma 3 270M 模型的一个特别版本，专为函数调用（Function Calling）任务优化的语言模型。

基于 Gemma 3 270M 模型进行二次微调（fine-tuning）。

其主要目标是：

将自然语言转换为结构化、可执行的操作指令（如 API 调用或系统函数执行），并能够在低功耗、离线设备（Edge Devices）上本地运行。

它是能把你“说的话”自动转成“可执行动作”的小型 AI 模型，将你的语言转换成能在移动设备上执行的命令。

比如：“播放我最常听的播放列表，并把空调调到 23 度。”

它可以自动理解并操作各种智能设备。

这一模型的推出，标志着 Google 从传统的“对话式语言模型” 向“可执行的智能代理（Action-oriented Agent）”方向过渡。

为什么 Google 要做 FunctionGemma？

现在很多 AI 模型（包括聊天机器人）都只是“语言理解器”，能聊天、能回答，但不会执行命令。

可未来的 AI 趋势，是从：

“会说话” → “能做事”

也就是所谓的 “Agent（智能代理）”。比如，AI 不光能告诉你天气，还能自动帮你订机票、设置提醒、发送邮件。

要实现这些功能，AI 模型必须： 1.

理解自然语言（听懂你说什么）；

调用函数 / API（知道该执行什么命令）。

而 FunctionGemma 就是为此设计的模型。

FunctionGemma 是怎么工作的？

你可以把它想成是一个“语言转命令引擎”。

例子：

你说：“帮我加个提醒，晚上8点喂猫。”

→ 模型会： 1.

分析语句的含义；

生成对应的函数调用，比如：

{
"function": "create_reminder",
"parameters": {
"time": "20:00",
"content": "喂猫"
}
}

系统执行这个命令（比如通过手机的提醒功能）。

它的特点

适用场景

FunctionGemma 适用于以下类型的开发需求：

实际效果

Google 做了一个测试集，叫 “Mobile Actions”（移动操作任务集）。

模型要做的事情包括：

创建日历事件

添加联系人

调整系统设置

启动手机功能（如手电筒）

结果：

原始模型（未微调）准确率：58%

微调后的 FunctionGemma 准确率：85%

也就是说，经过专门训练后，FunctionGemma 的理解与执行能力提升显著。

可以在哪用？

Google 给出了几个典型场景，帮助开发者理解用途。

1️⃣ 手机本地助手（Mobile Actions）

离线运行，不依赖网络。用户通过自然语言发出系统命令，例如：

“创建一个明天 12 点的会议。”

“添加联系人 John。”

“打开手电筒。”

模型自动将这些语句解析为底层系统函数调用。执行逻辑完全本地化，不依赖任何云端服务。

这类应用展示了 FunctionGemma 在移动操作系统层级代理中的可行性，尤其适合 Android、WearOS、车载设备等生态。

2️⃣ 智能游戏（TinyGarden Demo）

在一个小游戏中，玩家通过语音控制农场：

“种向日葵在最上排”

“给它们浇水”

模型会将语言转换为代码指令：

plantCrop("sunflower", row="top")
waterCrop(row="top")

整个过程在手机本地执行，不经过任何服务器，无需联网。

这验证了模型在“多步逻辑解析”与“函数参数分解”方面的能力。

3️⃣ 本地 AI 实验（Physics Playground）

一个基于 Transformers.js 的浏览器内物理模拟实验。用户通过自然语言描述物理场景（如添加物体、设定重力方向），模型直接在前端执行命令。

这展示了模型的轻量化与跨平台能力。

玩家可以用语音控制物理模拟，比如：

“让球从左往右滚动”

“添加一个木块” 运行完全在浏览器中，通过 FunctionGemma 和 Transformers.js 实现。

下载：在 Hugging Face 或 Kaggle 上获取该模型。

指南：https://ai.google.dev/gemma/docs/functiongemma

官方介绍：https://blog.google/technology/developers/functiongemma/

来源：Google 推出 FunctionGemma 模型能理解自然语言并将其转换为操作各种设备的命令

Meta 推出「SAM Audio」：让声音也能“像图像一样被分割”的 AI 模型

goodinfo.net — Wed, 17 Dec 2025 08:00:00 +0800

📰 正文

SAM Audio 是 Meta 最新发布的通用声音分离 AI 模型。它可以理解并“分割”复杂音频中的任意声音元素，比如：

🎸 一键提取歌曲中的吉他或人声；

🚗 过滤户外视频的交通噪音；

🐶 去除播客录音里的狗叫声。

这意味着 ——

“就像 Photoshop 能抠图，SAM Audio 能‘抠声音’。”

想象你拍了一段街头视频，背景有：

人声 + 车声 + 风声 + 狗叫声 + 音乐

现在，用 SAM Audio，只要告诉它：

“只保留人说话的声音”，或者点一下视频中说话的人， AI 就能瞬间把那部分声音提取出来，干净到像魔法一样。✨

不需要专业混音知识，也不必安装复杂软件。它能像图像“抠图”那样“抠声音”—— 真正让音频剪辑“像文字和图片一样简单”。

SAM Audio 的三大技术创新

AM Audio 属于 Meta 的 Segment Anything 系列（SAM Collection）。这个系列最初从图像分割（SAM for images）开始，允许用户在图像上点击或输入文字即可分离出任意物体。

而现在，Meta 将这一“可分割一切”的理念扩展到音频领域。

SAM Audio 代表了该系列的多模态延伸：

视觉 + 听觉 + 文本三种输入方式 → 全面理解并操作多媒体内容。

Meta 表示，SAM Audio 是首个统一的多模态声音分割模型，支持三种“提示方式（prompting）”，使声音编辑更加直观、精准：

可以组合使用，比如：

“在 0:30–1:00 之间，提取女声。”

这些提示方式可以单独使用，也可以任意组合，让创作者能够精准控制音频分离的细节。

Text prompting: Type “dog barking” or “singing voice” to extract specific sounds. 文本提示：输入"狗叫声"或"唱歌声"等文字来提取特定的声音。

Visual prompting: Click on the person or object in the video that’s making a sound to isolate their audio. 视觉提示：点击视频中发出声音的人或物体来隔离其音频。

Span prompting: An industry first, this method lets you mark time segments where target audio occurs. 跨度提示：这是行业首创的方法，让你可以标记目标音频出现的时间段。

核心技术架构

🧩 1. Perception Encoder Audiovisual (PE-AV) —— SAM Audio 的“大脑与耳朵”

PE-AV 是 SAM Audio 的核心引擎，基于 Meta 早前开源的 Perception Encoder 模型拓展而来。

✳️ 功能：

同时理解视觉帧与音频信号；

建立“看见的画面”和“听到的声音”之间的时间对应；

让模型在分离声音时知道“谁在发声、从哪里发出”。

🧠 比喻：

PE-AV 就像 “耳朵 + 大脑”：它听见声音，同时看到是谁发出的声音。

🧪 技术细节：

使用多模态对比学习 (Multimodal Contrastive Learning)；

训练数据规模：超过 1 亿条视频；

核心组件：

PyTorchVideo（高效视频处理）

FAISS（语义检索）

Transformer 主干网络

输出：时间对齐的语义特征（time-aligned semantic features），用于多模态分离任务。

🌀 2. 模型架构：基于生成式扩散变换器（Flow-Matching Diffusion Transformer）

SAM Audio 使用一种生成式框架：

将音频混合信号 + 提示信息编码为共享表征；

再通过扩散生成机制输出：

🎯 目标音频轨（目标声源）；

🌀 残余音轨（背景或剩余声音）。

此外，Meta 建立了一个庞大的数据引擎，通过：

自动合成音频混合数据；

自动生成文本与时间提示；

伪标签化（pseudo-labeling）；来训练模型，以确保其在真实世界音频中具备强泛化能力。

应用场景与潜在影响

Meta 强调，SAM Audio 将改变音频与视频编辑的工作流程，适用范围极广：

“以前的音频分离工具往往针对单一场景（如人声消除）， SAM Audio 是第一个像人一样思考声音结构的 AI 模型。”

如何体验与下载

🧪 在线体验：可在 Segment Anything Playground 平台上试用；用户可选择 Meta 提供的音频/视频素材，或上传自己的文件进行测试。

💾 模型开放下载：SAM Audio 模型可供开发者和研究者自由下载使用。

Meta 表示：“SAM Audio 是目前为止我们认为最强的音频分离模型。”

详细介绍：https://ai.meta.com/blog/sam-audio/

来源：Meta 推出「SAM Audio」：让声音也能“像图像一样被分割”的 AI 模型

Opensource on 全球全景日报 | goodinfo.net

SuperCmd：一个开源的 macOS 启动器，想把 Raycast、语音输入、AI 全塞进一个框里

📰 正文

微软 MarkItDown：一行命令把 PDF、Word、PPT、音频、YouTube 全转成干净 Markdown

📰 正文

NVIDIA PersonaPlex：全双工语音对话模型，第一次能自定义声音和角色了

📰 正文

Agent Skills技能包：19 个工程技能让 AI 编程 Agent 按高级工程师标准干活

📰 正文

Obsidian Mind：给 Claude Code 装一个不会失忆的大脑

📰 正文

小米开源多语言 TTS 模型 OmniVoice：0.8B 小模型，600+ 语言零样本语音克隆

📰 正文

OpenAI 发布了一个插件 把 Codex 塞进了 Claude Code：竞争对手的代码审查员，现在随叫随到

📰 正文

Hermes Agent 一个会自我进化的 AI Agent 越用越强

📰 正文

Pretext: 纯 TypeScript 文本测量引擎 解锁 30 年来 Web 做不到的排版问题

📰 正文

Meta 刚发了个能模拟人脑的 AI 模型 能预测你脑子是怎么想的

📰 正文

Lenny Rachitsky 将自己的350 篇顶级产品文章 + 300 集播客全部开源

📰 正文

Qwen3.5 去审查版来了 0拒绝 4090就能本地跑

📰 正文

提前1个月精准预测超级碗冠军 陈天桥旗下 AI 团队发布 MiroThinker-1.7 专注深度研究的 Agent 模型

📰 正文

Qwen3-ASR语音转录模型：52 种语言通吃10 秒处理 5 小时音频 比肩Whisper

📰 正文

Fish Audio 开源 S2：4B 参数的 TTS 模型，100ms 出声，还能让 AI 笑出来

📰 正文

Google 发布 Gemini Embedding 2向量模型 ：升级为多模态 图片、视频、音频都能进行向量搜索

📰 正文

Hume AI 发布 TTS 模型：TADA 零幻觉、速度快，能跑在手机上 支持中文

📰 正文

吴恩达给 AI 编程 Agent 造了一本活字典：Context Hub

📰 正文

Google 发布官方命令行工具 一个 CLI 搞定所有 Google 办公全家桶

📰 正文

WiFi-DensePose ：不用摄像头 通过WiFi 就能看见你的姿势和心跳

📰 正文

阿里巴巴开源个人 AI 助手：CoPaw

📰 正文

Vercel 开源 Chat SDK：让你的聊天机器人同时适配各种即时通信软件

📰 正文

用 Claude Code 总怕额度用超？这个菜单栏小工具帮你实时盯着

📰 正文

PicoClaw：用 Go 语言打造的超高效 AI 助手 把小龙虾装进任何设备中

📰 正文

DeepSeek发布全新文档理解 OCR 模型：DeepSeek-OCR-2 模拟人类阅读文档

📰 正文

Clawdbot：开源的个人AI助手 在聊天软件里指挥AI干活

📰 正文

Agentation ：一个给 AI 编程助手用的“可视化标注工具” 指哪改哪

📰 正文

Qwen3-TTS 正式开源：全能语音生成、克隆与设计系统

📰 正文

在手机上实时监控Claude Code 工作进度并下达指令干活

📰 正文

智谱 AI 发布 GLM-Image 自回归图像生成模型 能精准理解文字语义并生成高保真具知识结构的图像

📰 正文

Black Forest Labs 推出FLUX.2 [klein]模型：亚秒级速度图像生成 实现0.5秒出图改图

📰 正文

Google 开源全新翻译模型：TranslateGemma 覆盖 550 种语言 可在各种设备上运行

📰 正文

Google 发布开源医疗模型 MedGemma 1.5 4B 和医疗语音识别模型 MedASR

📰 正文

Vercel 发布 “Agent Browser”：专为AI 代理开发的浏览器自动化工具

📰 正文

一个能让 Claude 打电话给你的 Claude Code插件

📰 正文

MiroThinker 1.5：全球最强搜索智能体

📰 正文

Spatial Lingo：一款沉浸式语言学习VR+AI应用

📰 正文

开源版Veo 3：LTX-2 宣布开源 支持音视频同步输出

📰 正文

波士顿动力推出新款 Atlas 机器人 能自主执行任务 快速学习新任务 可快速部署到企业生产中

📰 正文

Claude-scientific-skills：一套 Claude 的科学技能库 138个即插即用的科学技能 覆盖20+领域

OpenAI 发布了一个插件把 Codex 塞进了 Claude Code：竞争对手的代码审查员，现在随叫随到

Pretext: 纯 TypeScript 文本测量引擎解锁 30 年来 Web 做不到的排版问题

Meta 刚发了个能模拟人脑的 AI 模型能预测你脑子是怎么想的

提前1个月精准预测超级碗冠军陈天桥旗下 AI 团队发布 MiroThinker-1.7 专注深度研究的 Agent 模型

Qwen3-ASR语音转录模型：52 种语言通吃10 秒处理 5 小时音频比肩Whisper

Google 发布 Gemini Embedding 2向量模型：升级为多模态图片、视频、音频都能进行向量搜索

Hume AI 发布 TTS 模型：TADA 零幻觉、速度快，能跑在手机上支持中文

Google 发布官方命令行工具一个 CLI 搞定所有 Google 办公全家桶

WiFi-DensePose ：不用摄像头通过WiFi 就能看见你的姿势和心跳

PicoClaw：用 Go 语言打造的超高效 AI 助手把小龙虾装进任何设备中

Clawdbot：开源的个人AI助手在聊天软件里指挥AI干活

智谱 AI 发布 GLM-Image 自回归图像生成模型能精准理解文字语义并生成高保真具知识结构的图像

Black Forest Labs 推出FLUX.2 [klein]模型：亚秒级速度图像生成实现0.5秒出图改图

Google 开源全新翻译模型：TranslateGemma 覆盖 550 种语言可在各种设备上运行

开源版Veo 3：LTX-2 宣布开源支持音视频同步输出

波士顿动力推出新款 Atlas 机器人能自主执行任务快速学习新任务可快速部署到企业生产中

Claude-scientific-skills：一套 Claude 的科学技能库 138个即插即用的科学技能覆盖20+领域

智谱AI发布：GLM-4.7 引入三层思考模式编码和前端审美大幅提升性能直逼GPT-5和Claude 4.5

Google 推出 FunctionGemma 模型能理解自然语言并将其转换为操作各种设备的命令