全球全景日报 | goodinfo.net

Meta AI发布 Omnilingual ASR：一个覆盖超过 1600 种语言的开源语音识别框架

Meta AI（FAIR团队）发布了 Omnilingual ASR（全语种自动语音识别系统）：一个覆盖超过 1600 种语言的开源语音识别框架，其中包括 500 种此前从未被 AI 系统识别过的低资源语言。这项计划的目标十分宏大： > 让任何语言都能被机器理解，让任何人都能用自己的语

一个精选的 Claude Skills 列表，用于扩展 Claude 的功能，使其能执行特定任务并整合进真实工作流。” 精选合集，包含真实世界案例（不只是演示）什么是 Claude Skills？ Claude Skills 是一种「可编排的自定义工作流模块」，让 Clau

传统聊天式AI在教育中主要通过文本交互完成答疑，但这种方式的表现力有限，尤其在 STEM（科学、技术、工程、数学）学科中，缺乏图形演示、公式推导与逻辑操作的支撑。 ChatTutor 的设计初衷正是弥补这一空白： > “为AI教师配备电子白板和交互工具，使其具备‘视觉教学’能力。”

StepFun AI （阶跃科技）发布 Step-Audio-EditX 语音开源模型，这是世界上第一个 LLM 级别的音频编辑模型。它不仅能合成语音，还能编辑声音的情绪、语气、风格，让生成的语音更自然、更有表现力。 - 一个基于大语言模型（LLM）架构的音频模型； - 30亿参

Inworld TTS 是一款面向实时语音交互与数字角色开发的高端语音AI系统，集成： - Text-to-Speech（TTS）语音合成 - Voice Cloning（声音克隆） - 多语言与情感语音控制 - 实时流式生成（Streaming） - 非语言表达（no

notebooklm-skill 是一个为 Claude Code开发的插件（Skill），用于让 Claude Code 能直接与 Google NotebookLM 通信。它让 Claude Code（AI 编程助手）可以直接查你在 Google NotebookLM 上上传的文档，比如

SoulX-Podcast 是由 Soul AI Lab（Soul应用背后的AI实验室）开发的高保真播客生成推理框架，旨在从文本直接生成长篇、多说话人、对话式语音内容。 SoulX-Podcast ： > 实现了高真实度、长时段、多说话人、多语种（中英双语 + 多方言）播客式语音生成，

Smart ComfyUI Gallery 是一款专为 ComfyUI 用户打造的智能文件管理与可视化工具能以优雅、快速、移动友好的方式管理你用 ComfyUI 生成的所有图片和视频，并自动关联每个文件的生成“工作流（workflow）”。 ComfyUI 用户经常遇到以下问题：

AI2（Allen Institute for AI）发布的新一代光学字符识别模型 —— olmOCR 2。它是一个将 PDF 文件、扫描文档和历史资料转换为可编辑文本的 AI 模型，重点是处理传统 OCR 系统难以应对的复杂文档结构和手写体识别问题。 olmOCR 2 在识别文档时，内

美国生命科学公司 Tahoe Bio 发布了一款新的人工智能模型：Tahoe-x1（简称 Tx1）。它是一个拥有 30亿参数（3B）的大型基础模型（foundation model），目标是让 AI 能够理解基因、细胞和药物之间的关系。简单来说，Tahoe-x1 想要让 AI “学