Opensource

Co-STORM：利用AI模拟多个“专家”围绕主题讨论然后根据讨论生成高质量文章

STORM（Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking）是一个创新的写作系统，由斯坦福大学研究人员开发，旨在利用大语言模型（LLMs）自动化从头开始编写具有维基百科页面般的广度

EchoMimicV2 ：可以通过一张图片+音频生成半身动画数字人视频

支付宝发布 EchoMimicV2 ，从仅支持头部驱动的动画扩展到半身动画（包括头部、手势和上身动作）。支持通过音频驱动半身人体动画生成。通过输入一段音频、一张参考图片以及简单的手势序列，它可以生成包含头部、手势和上半身动作的动态视频。系统结合音频和动作的特征，生成自然、流畅且高度同步的

Livekit：精准语音轮次检测模型可让AI精准识别用户是否说完话

目前语音人工智能应用中最难解决的问题之一是回合结束检测。在AI对话景下，轮次检测是确定用户何时说完以及人工智能模型何时可以回应而不无意中打断用户的任务。如再语音助手、语音客服机器人中，“轮次结束检测”用于判断用户是否完成发言。如果系统误判，就可能导致以下问题： - 过早响应：用户只是停顿

SAMURAI：无需训练能够在实时动态、复杂的视频场景中跟踪目标的模型

SAMURAI：基于Segment Anything Model 2 (SAM 2) 改进的视觉对象跟踪模型，专为处理动态、复杂场景中的对象跟踪任务设计。设通过引入“运动感知内存选择机制”，SAMURAI 有效预测目标运动轨迹并优化掩码选择，实现了无需重新训练的高精度跟踪。普通的 AI

TryOffDiff ：“虚拟脱衣” 从照片中“摘取”衣服，把它变成标准化的服装图片

TryOffDiff“虚拟脱衣”，从单张穿衣照片中生成标准化的服装图片。也就是让模型从一张照片中提取服装，生成一张像商品目录那样干净、标准化的衣服图片。通俗来讲就是用于从照片中“摘取”衣服，把它变成标准化的服装图片（比如电商网站上那种白底展示图）。这和我们常见的虚拟试衣不同，虚拟试衣是把衣服穿

VITA-1.5：多模态中文视觉语音开源模型能进行图像和视频

中文视觉语音开源模型来了 VITA-1.5 是一个开源的多模态大语言模型，旨在实现视觉、语音和文本的实时交互能力。它是 VITA 项目的升级版本，目标是达到接近 GPT-4o 级别的多模态性能，特别适合处理图片、视频和语音数据的任务。 - 支持多模态融合和实时交互，可处理复杂

微软开源了一款金融市场预测工具 MarS 能够实现逼真的市场模拟

MarS（Market Simulation）是微软研究院开发的一款金融市场模拟引擎，基于一种生成式模型——大型市场模型（Large Market Model, LMM）。它通过基于真实订单级别的历史金融市场数据训练，可以生成逼真、可控且具有交互性的市场订单序列，帮助研究人员和从业者在虚拟环境

LatentSync ：根据音频输入自动调整视频中角色的嘴型实现精准的口型同步

LatentSync 是什么？ LatentSync 是字节跳动开发的一种工具，用来生成嘴巴和声音完美同步的视频。 - 它可以根据音频输入，自动调整视频中角色的嘴型，实现精准的口型同步。 - 直接用声音驱动嘴巴的动作，不需要复杂的中间步骤。 - 提出了一种“时间对齐”的技术，

OOTDiffusion：支持半身、全身的开源的高分辨率虚拟试穿模型

OOTDiffusion 是一个基于扩散模型（Latent Diffusion）的虚拟试穿系统。它使用先进的服饰融合技术，将衣物图像与人物图像无缝结合，为虚拟试穿提供高度可控的解决方案。它可以将一件衣服“穿”到任何人物身上，让你看到穿上去后的样子。比如，想看看某件T恤穿在自己身上的效果，它可以

微软发布 Co-op Translator 可一次性将Markdown文件和图像翻译成多种语言

微软发布Co-op Translator，这是一款开源工具，旨在简化多语言翻译的过程，特别是针对技术文档和嵌入文本的图像。它结合了 Azure OpenAI 和 Azure Computer Vision 服务，能够高效完成 Markdown 文件和图像的翻译工作，帮助开发者突破语言障碍，将项目推广