Meta AI发布 Omnilingual ASR:一个覆盖超过 1600 种语言 的开源语音识别框架
Meta AI(FAIR团队)发布了 Omnilingual ASR(全语种自动语音识别系统):一个覆盖超过 1600 种语言 的开源语音识别框架,其中包括 500 种此前从未被 AI 系统识别过的低资源语言。 这项计划的目标十分宏大: > 让任何语言都能被机器理解,让任何人都能用自己的语
Meta AI(FAIR团队)发布了 Omnilingual ASR(全语种自动语音识别系统):一个覆盖超过 1600 种语言 的开源语音识别框架,其中包括 500 种此前从未被 AI 系统识别过的低资源语言。 这项计划的目标十分宏大: > 让任何语言都能被机器理解,让任何人都能用自己的语
一个精选的 Claude Skills 列表,用于扩展 Claude 的功能,使其能执行特定任务并整合进真实工作流。” 精选合集,包含真实世界案例(不只是演示) 什么是 Claude Skills? Claude Skills 是一种「可编排的自定义工作流模块」,让 Clau
传统聊天式AI在教育中主要通过文本交互完成答疑,但这种方式的表现力有限,尤其在 STEM(科学、技术、工程、数学) 学科中,缺乏图形演示、公式推导与逻辑操作的支撑。 ChatTutor 的设计初衷正是弥补这一空白: > “为AI教师配备电子白板和交互工具,使其具备‘视觉教学’能力。”
StepFun AI (阶跃科技)发布 Step-Audio-EditX 语音开源模型,这是世界上第一个 LLM 级别的音频编辑模型。 它不仅能合成语音,还能编辑声音的情绪、语气、风格,让生成的语音更自然、更有表现力。 - 一个 基于大语言模型(LLM)架构 的音频模型; - 30亿参
Inworld TTS 是一款面向实时语音交互与数字角色开发的高端语音AI系统,集成: - Text-to-Speech(TTS)语音合成 - Voice Cloning(声音克隆) - 多语言与情感语音控制 - 实时流式生成(Streaming) - 非语言表达(no
notebooklm-skill 是一个为 Claude Code开发的插件(Skill),用于让 Claude Code 能直接与 Google NotebookLM 通信。 它让 Claude Code(AI 编程助手) 可以直接查你在 Google NotebookLM 上上传的文档,比如
SoulX-Podcast 是由 Soul AI Lab(Soul应用背后的AI实验室) 开发的 高保真播客生成推理框架,旨在从文本直接生成长篇、多说话人、对话式语音内容。 SoulX-Podcast : > 实现了高真实度、长时段、多说话人、多语种(中英双语 + 多方言)播客式语音生成,
Smart ComfyUI Gallery 是一款专为 ComfyUI 用户打造的智能文件管理与可视化工具 能以优雅、快速、移动友好的方式管理你用 ComfyUI 生成的所有图片和视频,并自动关联每个文件的生成“工作流(workflow)”。 ComfyUI 用户经常遇到以下问题:
AI2(Allen Institute for AI) 发布的新一代光学字符识别模型 —— olmOCR 2。 它是一个将 PDF 文件、扫描文档和历史资料 转换为可编辑文本的 AI 模型,重点是处理传统 OCR 系统难以应对的 复杂文档结构和手写体识别问题。 olmOCR 2 在识别文档时,内
美国生命科学公司 Tahoe Bio 发布了一款新的人工智能模型:Tahoe-x1(简称 Tx1)。 它是一个拥有 30亿参数(3B) 的大型基础模型(foundation model), 目标是让 AI 能够理解 基因、细胞和药物之间的关系。 简单来说,Tahoe-x1 想要让 AI “学