微软 MarkItDown:一行命令把 PDF、Word、PPT、音频、YouTube 全转成干净 Markdown
微软开源了一个 Python 工具叫 MarkItDown,干一件事:把各种格式的文件转成 LLM 能直接用的 Markdown。 PDF、Word、Excel、PowerPoint、HTML、图片、音频、YouTube 链接、JSON、XML、ZIP 压缩包,基本上你能想到的格式它都支持。
微软开源了一个 Python 工具叫 MarkItDown,干一件事:把各种格式的文件转成 LLM 能直接用的 Markdown。 PDF、Word、Excel、PowerPoint、HTML、图片、音频、YouTube 链接、JSON、XML、ZIP 压缩包,基本上你能想到的格式它都支持。
NVIDIA PersonaPlex 是 NVIDIA ADLR 团队开源的 7B 全双工语音对话模型,能一边听一边说,同时支持通过文本提示词切换角色、通过语音样本切换声音。 之前的全双工模型(比如 Moshi)对话很自然,但声音和角色是训练时写死的,部署后改不了。传统级联方案(ASR→LLM→
Google Chrome 团队工程负责人 Addy Osmani 开源了一套叫 Agent Skills 的技能包,专门解决 AI 编程 Agent 的一个通病:它们默认走最短路径,跳过规范、跳过测试、跳过安全审查,代码写完就算完事。 Agent Skills 把 Google 内部的工程实践
Obsidian Mind,一个开源的 Obsidian 库模板,给 Claude Code 用户设计的跨会话记忆系统。 Claude Code 有个根本问题:每次关了再开,它什么都不记得。你昨天跟它聊的架构决策、定下的目标、踩过的坑,新会话里全部从零开始。 Claude Code 自带的
语音克隆领域又冒出一个狠角色。 OmniVoice 是一个开源的零样本多语言 TTS 模型,来自小米 k2-fsa 团队。 - 0.8B 参数的小模型 - 支持 600 多种语言的语音克隆 - 推理速度是实时的 40 倍 - 训练数据和过程全部公开 646 种语言、
OpenAI 官方发布了一个 Claude Code 插件 codex-plugin-cc,让你在 Claude Code 里直接调用 Codex 做代码审查、对抗性审查,甚至把整个任务丢给 Codex 接管。 这件事有意思的地方不在插件本身,在于谁做的:OpenAI,主动把自己的工具送进了 A
Nous Research 开源 Hermes Agent 一个会自我进化的 AI Agent,用越久越强,8.7k Stars Nous Research 开源了 Hermes Agent,一个可以部署在你自己服务器上的自主 AI Agent,内置持久记忆、自动生成技能、跨平台消息网关,MIT
前 React 核心团队成员、ReasonML 作者、现 Midjourney 工程师 Cheng Lou 开源了 Pretext,一个纯 TypeScript 写的文本测量和排版库。 它能在完全不碰 DOM 的情况下精确计算文本高度、行数、换行位置,让网页排版绕过浏览器里最贵的操作:布局回流(
兄弟们,Meta 昨天悄悄扔了个炸弹。 不是聊天机器人,也不是图片生成模型,而是一个能模拟人脑的 AI 模型,叫 TRIBE v2(Trimodal Brain Encoder v2)。 简单说就是:给你的大脑做一个数字双胞胎,给它看一段视频、听一段播客,它能直接预测你大脑会怎么反应
上一次 Lenny Rachitsky 只是随手把播客转录丢到网上,社区就炸了:有人用它做了一个宝可梦风格的 RPG 游戏,有人搭了一个育儿智慧网站,有人造了 Twitter 机器人,加起来超过 50 个项目。一个设计师用 Claude Code + Cursor 花 8 小时就做出了 LennyR