全球全景日报 | goodinfo.net

微软 MarkItDown：一行命令把 PDF、Word、PPT、音频、YouTube 全转成干净 Markdown

微软开源了一个 Python 工具叫 MarkItDown，干一件事：把各种格式的文件转成 LLM 能直接用的 Markdown。 PDF、Word、Excel、PowerPoint、HTML、图片、音频、YouTube 链接、JSON、XML、ZIP 压缩包，基本上你能想到的格式它都支持。

NVIDIA PersonaPlex：全双工语音对话模型，第一次能自定义声音和角色了

NVIDIA PersonaPlex 是 NVIDIA ADLR 团队开源的 7B 全双工语音对话模型，能一边听一边说，同时支持通过文本提示词切换角色、通过语音样本切换声音。之前的全双工模型（比如 Moshi）对话很自然，但声音和角色是训练时写死的，部署后改不了。传统级联方案（ASR→LLM→

Agent Skills技能包：19 个工程技能让 AI 编程 Agent 按高级工程师标准干活

Google Chrome 团队工程负责人 Addy Osmani 开源了一套叫 Agent Skills 的技能包，专门解决 AI 编程 Agent 的一个通病：它们默认走最短路径，跳过规范、跳过测试、跳过安全审查，代码写完就算完事。 Agent Skills 把 Google 内部的工程实践

Obsidian Mind：给 Claude Code 装一个不会失忆的大脑

Obsidian Mind，一个开源的 Obsidian 库模板，给 Claude Code 用户设计的跨会话记忆系统。 Claude Code 有个根本问题：每次关了再开，它什么都不记得。你昨天跟它聊的架构决策、定下的目标、踩过的坑，新会话里全部从零开始。 Claude Code 自带的

小米开源多语言 TTS 模型 OmniVoice：0.8B 小模型，600+ 语言零样本语音克隆

语音克隆领域又冒出一个狠角色。 OmniVoice 是一个开源的零样本多语言 TTS 模型，来自小米 k2-fsa 团队。 - 0.8B 参数的小模型 - 支持 600 多种语言的语音克隆 - 推理速度是实时的 40 倍 - 训练数据和过程全部公开 646 种语言、

OpenAI 发布了一个插件把 Codex 塞进了 Claude Code：竞争对手的代码审查员，现在随叫随到

OpenAI 官方发布了一个 Claude Code 插件 codex-plugin-cc，让你在 Claude Code 里直接调用 Codex 做代码审查、对抗性审查，甚至把整个任务丢给 Codex 接管。这件事有意思的地方不在插件本身，在于谁做的：OpenAI，主动把自己的工具送进了 A

Hermes Agent 一个会自我进化的 AI Agent 越用越强

Nous Research 开源 Hermes Agent 一个会自我进化的 AI Agent，用越久越强，8.7k Stars Nous Research 开源了 Hermes Agent，一个可以部署在你自己服务器上的自主 AI Agent，内置持久记忆、自动生成技能、跨平台消息网关，MIT

Pretext: 纯 TypeScript 文本测量引擎解锁 30 年来 Web 做不到的排版问题

前 React 核心团队成员、ReasonML 作者、现 Midjourney 工程师 Cheng Lou 开源了 Pretext，一个纯 TypeScript 写的文本测量和排版库。它能在完全不碰 DOM 的情况下精确计算文本高度、行数、换行位置，让网页排版绕过浏览器里最贵的操作：布局回流（

Meta 刚发了个能模拟人脑的 AI 模型能预测你脑子是怎么想的

兄弟们，Meta 昨天悄悄扔了个炸弹。不是聊天机器人，也不是图片生成模型，而是一个能模拟人脑的 AI 模型，叫 TRIBE v2（Trimodal Brain Encoder v2）。简单说就是：给你的大脑做一个数字双胞胎，给它看一段视频、听一段播客，它能直接预测你大脑会怎么反应

Lenny Rachitsky 将自己的350 篇顶级产品文章 + 300 集播客全部开源

上一次 Lenny Rachitsky 只是随手把播客转录丢到网上，社区就炸了：有人用它做了一个宝可梦风格的 RPG 游戏，有人搭了一个育儿智慧网站，有人造了 Twitter 机器人，加起来超过 50 个项目。一个设计师用 Claude Code + Cursor 花 8 小时就做出了 LennyR