全球全景日报 | goodinfo.net

Ambient Agents：自动监听用户设定任务的事件自主采取行动帮你完成

当前的大多数 AI 应用都采用传统的聊天（“Chat”）用户界面，这种模式容易实现，但带来了如下问题： 1. 过多的交互步骤，需要频繁与 AI 互动，耗费用户时间和精力，增加了用户的操作负担。 2. 无法同时处理多个任务，一次只能进行一个任务，效率低，限制了人类的扩展能力。 3. 未

SakanaAI 发布一种革命性的AI模型架构：Transformer² 动态激活特定“专家”来针对特定任务

SakanaAI 发布一一种革命性的 AI 架构，允许模型在推理时动态调整权重，打破传统模型静态的局限性。 Transformer² 是什么？ Transformer² 是一种新型的自适应大语言模型（LLM）框架，旨在解决传统微调方法中存在的效率低下和适应性差的问题。其核心创新在于通过只调

面壁智能推出 MiniCPM-o 2.6 匹敌GPT-4o 级别的全能多模态端侧模型

面壁智能推出 MiniCPM-o 2.6，一个 8B 大小、匹敌GPT-4o 级别的全能模型，可在移动设备上运行 - 领先的视觉能力：超越了GPT-4o-202405、Gemini 1.5 Pro和Claude 3.5 Sonnet等 - 支持中英双语实时语音对话，并提供情感/速度/风格控

Moondream：只有2B大小的高性能视觉语言模型可在边缘设备上运行

Moondream 是一个小型视觉语言模型，旨在高效地在边缘设备上运行，由moondream.ai开发。 Moondream发布了其最新的Moondream 2B模型，专为处理图像与文本相关任务而设计。它通过整合计算机视觉与自然语言处理技术，能够对图像中的内容进行分析、理解和交互。这个模型

SVFR：视频面部修复工具可同时完成视频修复、面部修补和面部着色任务

SVFR（稳定视频面部修复）是一种专门用来修复视频中人脸的技术，可以让模糊、损坏或者颜色不对的视频人脸变得清晰、自然。它不仅能修复人脸的细节，还能让整个视频看起来连贯一致，不会有卡顿或奇怪的变化。 SVFR提供了一个统一框架，可以同时完成视频盲修复、面部修补和面部着色任务，无需为每个任务单独训练

TransPixar：生成带透明背景的视频可以和任意背景无缝融合

项目背景 TransPixar 是一个创新的生成视频模型，专注于生成包括透明度通道（alpha 通道）的 RGBA 视频。相比传统的 RGB 视频，RGBA 视频能够实现更丰富的视觉效果（VFX），例如透明的烟雾、反射等，方便这些元素无缝地与场景融合。该项目由香港科技大学（HKUST）与

Co-STORM：利用AI模拟多个“专家”围绕主题讨论然后根据讨论生成高质量文章

STORM（Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking）是一个创新的写作系统，由斯坦福大学研究人员开发，旨在利用大语言模型（LLMs）自动化从头开始编写具有维基百科页面般的广度

EchoMimicV2 ：可以通过一张图片+音频生成半身动画数字人视频

支付宝发布 EchoMimicV2 ，从仅支持头部驱动的动画扩展到半身动画（包括头部、手势和上身动作）。支持通过音频驱动半身人体动画生成。通过输入一段音频、一张参考图片以及简单的手势序列，它可以生成包含头部、手势和上半身动作的动态视频。系统结合音频和动作的特征，生成自然、流畅且高度同步的

Livekit：精准语音轮次检测模型可让AI精准识别用户是否说完话

目前语音人工智能应用中最难解决的问题之一是回合结束检测。在AI对话景下，轮次检测是确定用户何时说完以及人工智能模型何时可以回应而不无意中打断用户的任务。如再语音助手、语音客服机器人中，“轮次结束检测”用于判断用户是否完成发言。如果系统误判，就可能导致以下问题： - 过早响应：用户只是停顿

SAMURAI：无需训练能够在实时动态、复杂的视频场景中跟踪目标的模型

SAMURAI：基于Segment Anything Model 2 (SAM 2) 改进的视觉对象跟踪模型，专为处理动态、复杂场景中的对象跟踪任务设计。设通过引入“运动感知内存选择机制”，SAMURAI 有效预测目标运动轨迹并优化掩码选择，实现了无需重新训练的高精度跟踪。普通的 AI