Moondream:只有2B大小的高性能视觉语言模型 可在边缘设备上运行

Moondream 是一个小型视觉语言模型,旨在高效地在边缘设备上运行,由moondream.ai开发。 Moondream发布了其最新的Moondream 2B模型,专为处理图像与文本相关任务而设计。 它通过整合计算机视觉与自然语言处理技术,能够对图像中的内容进行分析、理解和交互。这个模型

2025-01-12 08:00 · opensource · goodinfo.net

SVFR:视频面部修复工具 可同时完成视频修复、面部修补和面部着色任务

SVFR(稳定视频面部修复)是一种专门用来修复视频中人脸的技术,可以让模糊、损坏或者颜色不对的视频人脸变得清晰、自然。它不仅能修复人脸的细节,还能让整个视频看起来连贯一致,不会有卡顿或奇怪的变化。 SVFR提供了一个统一框架,可以同时完成视频盲修复、面部修补和面部着色任务,无需为每个任务单独训练

2025-01-10 08:00 · opensource · goodinfo.net

TransPixar:生成带 透明背景 的视频 可以和任意背景无缝融合

项目背景 TransPixar 是一个创新的生成视频模型,专注于生成包括透明度通道(alpha 通道)的 RGBA 视频。相比传统的 RGB 视频,RGBA 视频能够实现更丰富的视觉效果(VFX),例如透明的烟雾、反射等,方便这些元素无缝地与场景融合。 该项目由香港科技大学(HKUST)与

2025-01-09 08:00 · opensource · goodinfo.net

Co-STORM:利用AI模拟多个“专家”围绕主题讨论 然后根据讨论生成高质量文章

STORM(Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking)是一个创新的写作系统,由斯坦福大学研究人员开发,旨在利用大语言模型(LLMs)自动化从头开始编写具有维基百科页面般的广度

2025-01-06 08:00 · opensource · goodinfo.net

EchoMimicV2 :可以通过一张图片+音频生成半身动画数字人 视频

支付宝发布 EchoMimicV2 ,从仅支持头部驱动的动画扩展到 半身动画(包括头部、手势和上身动作)。 支持通过音频驱动半身人体动画生成。通过输入一段音频、一张参考图片以及简单的手势序列,它可以生成包含 头部、手势和上半身动作 的动态视频。系统结合音频和动作的特征,生成自然、流畅且高度同步的

2025-01-06 08:00 · opensource · goodinfo.net

Livekit:精准语音轮次检测模型 可让AI精准识别用户是否说完话

目前语音人工智能应用中最难解决的问题之一是回合结束检测。在AI对话景下,轮次检测是确定用户何时说完以及人工智能模型何时可以回应而不无意中打断用户的任务。 如再语音助手、语音客服机器人中,“轮次结束检测”用于判断用户是否完成发言。如果系统误判,就可能导致以下问题: - 过早响应:用户只是停顿

2025-01-06 08:00 · opensource · goodinfo.net

SAMURAI:无需训练 能够在实时动态、复杂的视频场景中跟踪目标的模型

SAMURAI:基于Segment Anything Model 2 (SAM 2) 改进的视觉对象跟踪模型,专为处理动态、复杂场景中的对象跟踪任务设计。设 通过引入“运动感知内存选择机制”,SAMURAI 有效预测目标运动轨迹并优化掩码选择,实现了无需重新训练的高精度跟踪。 普通的 AI

2025-01-06 08:00 · opensource · goodinfo.net

TryOffDiff :“虚拟脱衣” 从照片中“摘取”衣服,把它变成标准化的服装图片

TryOffDiff“虚拟脱衣”,从单张穿衣照片中生成标准化的服装图片。也就是让模型从一张照片中提取服装,生成一张像商品目录那样干净、标准化的衣服图片。 通俗来讲就是用于从照片中“摘取”衣服,把它变成标准化的服装图片(比如电商网站上那种白底展示图)。这和我们常见的虚拟试衣不同,虚拟试衣是把衣服穿

2025-01-06 08:00 · opensource · goodinfo.net

VITA-1.5:多模态中文视觉语音开源模型 能进行图像和视频

中文视觉语音开源模型来了 VITA-1.5 是一个开源的多模态大语言模型,旨在实现 视觉、语音和文本的实时交互能力。 它是 VITA 项目的升级版本,目标是达到接近 GPT-4o 级别的多模态性能,特别适合处理图片、视频和语音数据的任务。 - 支持 多模态融合 和 实时交互,可处理复杂

2025-01-06 08:00 · opensource · goodinfo.net

微软开源了一款金融市场预测工具 MarS 能够实现逼真的市场模拟

MarS(Market Simulation)是微软研究院开发的一款金融市场模拟引擎,基于一种生成式模型——大型市场模型(Large Market Model, LMM)。 它通过基于真实订单级别的历史金融市场数据训练,可以生成逼真、可控且具有交互性的市场订单序列,帮助研究人员和从业者在虚拟环境

2025-01-06 08:00 · opensource · goodinfo.net