苹果发布 FastVLM:能在 iPhone 上直接运行的极速视觉语言模型 首 token 输出快 85 倍

FastVLM(Fast Vision Language Model) 是 苹果公司开发的一种高效视觉语言模型(VLM)编码器系统。 它专注于将高分辨率图像高效转换为 LLM 可处理的视觉 token,从而大幅提升图文理解的速度与效能。 你可以把它理解为: > 📷 FastVLM:先把

2025-05-11 08:00 · opensource · goodinfo.net

字节跳动团队开源了一个深度研究框架 可自动爬取内容生成报告、PPT、创建播客等

字节跳动团队开源了一个深度研究框架,通过多智能体协作和工具集成,融合语言模型、搜索引擎、网页爬虫、代码执行器和多智能体协作机制,致力于将复杂研究流程自动化,并支持播客生成等多形式输出。 - 名称含义:DEER = Deep Exploration and Efficient Research

2025-05-10 08:00 · opensource · goodinfo.net

ACE-Step:音乐界的 Stable Diffusion 在 20 秒内生成 4 分钟完整音乐 支持 19种语言

ACE-Step 是一个面向音乐生成的“基础模型”(foundation model)项目。由 ACE Studio 与 StepFun 联合开发。 它的目标不是简单生成一首歌曲,而是提供一个通用、可扩展、可控的音乐生成系统架构,可广泛应用于创作、编曲、歌词生成、人声模拟、伴奏生成、说唱AI等领域

2025-05-06 08:00 · opensource · goodinfo.net

Frame Pack:仅需 6GB 显存 像图像扩散一样的视频扩散模型 能在本地生成1分钟长视频

随着AIGC技术的发展,越来越多的人开始用AI进行图片、视频的编辑和生成。以扩散模型(如Stable Diffusion)为代表的AI工具,在单张图片编辑方面已经非常成熟,但在处理**多张相关图片(如视频帧、多个视角的照片)**时,往往会出现一个大问题——一致性不足。比如: - 多张照片风格差

2025-04-24 08:00 · opensource · goodinfo.net

Dia:一个由两人小团队开发的完全开源语音模型 能“一步生成”极为逼真的多角色对话语音

Dia 是由 Nari Labs 开发的一个超写实对话级文本转语音(TTS)模型,参数量为 16 亿,能够“一步生成”极为逼真的多角色对话语音。 - 可以生成极度逼真的对话并完全控制脚本和声音 - 由一个无资金的两人小团队开发 - 项目完全开源,采用 Apache 2.0 协议,权

2025-04-23 08:00 · opensource · goodinfo.net

OmniSVG :能把文字或图片转换成高质量 SVG 矢量图的 AI 模型

OmniSVG 是一个用于生成高质量、可扩展矢量图形(SVG)的统一框架,基于预训练的视觉-语言模型(Vision-Language Model, VLM),旨在解决传统 SVG 生成方法在结构复杂性、计算成本和多模态支持上的局限。该项目由复旦大学和 StepFun 团队开发 也就是它是一个能把

2025-04-12 08:00 · opensource · goodinfo.net

BabelDOC : 开源PDF 翻译工具 保留原始排版、双语对照、批量处理、支持各种AI模型

BabelDOC 是一个基于大语言模型(如GPT-4)的开源 PDF 文档翻译工具,它可以: > ✅ 把英文 PDF 翻译成中文, ✅ 翻译结果要像原文一样排版漂亮, ✅ 还能“对照阅读”原文和翻译, ✅ 支持自部署,支持离线使用! 主要特点: - 结构感知翻译(保留原始排版)

2025-04-11 08:00 · opensource · goodinfo.net

Orpheus-TTS:一个开源高质量语音TTS模型 在音调、节奏、情绪等方面超越现有商业模型

Orpheus-TTS 是由 CanopyAI 发布的一个开源高质量语音合成系统,目标是: > 利用大型语言模型(LLM)驱动的语音生成,实现极为自然的人类语音表达,在音调、节奏、情绪等方面超越现有商业模型。 它支持实时流式语音合成、零样本克隆、情感调控,可部署于本地或云端,适用于数字人

2025-04-11 08:00 · opensource · goodinfo.net

MagicColor:通过上传线稿图和多个参考图 一键自动为线稿图像进行上色

MagicColor 是一个基于 扩散模型(Diffusion Model) 的多实例线稿自动上色模型,由香港科技大学(HKUST)团队开发。 支持用户通过上传线稿和多个参考图,就能一键自动生成风格统一、细节准确的彩色图像。 它解决了传统手动上色流程中: - 耗时(逐个手动上色) -

2025-04-06 08:00 · opensource · goodinfo.net

RolmOCR:基于 olmOCR 构建的更快、更轻的开源OCR 模型 开箱即用

Reducto 团队基于 Allen Institute for AI 发布的 olmOCR 模型,构建了一个性能更优、资源占用更低的替代模型:RolmOCR。 它比之前的模型: - 更快 - 占用更少内存 - 识别效果更好 该模型不依赖复杂的文档结构信息,能更灵活处理扫

2025-04-06 08:00 · opensource · goodinfo.net