全球全景日报 | goodinfo.net

R1-Omni：多模态情感识别模型可以精准识别和分析视频中人类情感并能解释其识别推理过程

R1-Omni 是什么？ R1-Omni 是一种全模态（Omni-Multimodal）的大语言模型（LLM），专注于情感识别任务，能够从视频、音频、文本中综合分析人物的情感状态。由阿里巴巴通义实验室开发。这是首个结合视觉（视频）和音频信息，将强化学习（RL）和可验证奖励机制（

LoRA（Low-Rank Adaptation）是一种 AI 微调技术，能够让大模型在低计算成本下快速适配特定任务，比如图片到视频（Image-to-Video, I2V）。 Remade-AI 通过 LoRA 适配，发布了 8 个独特的视频特效，可以让静态图像动起来，并且适用于 AI

AI21 发布了 Jamba 1.6开源模型，特别适用于企业私有部署。Jamba 1.6 在模型质量、长上下文处理能力、部署灵活性等方面超越Mistral Large 2、Llama 3.3 70B、Command R+，同时可支持完全私有部署，确保企业数据安全。优势特点 ✅ Jamba

X 用户@jianxliao 声称他通过简单地请求 Manus AI 提供其位于“/opt/.manus/”的内部文件，AI 直接提供了这些文件，包括其沙箱运行时代码。他随后列出了几个关键发现： - Manus AI 实际上基于 Claude Sonnet（Anthropic 开发的 AI 模

MeshPad 是一款新型的 3D 网格生成和编辑工具，用户可以通过手绘草图（sketch）直接生成和修改 3D 模型。它可以让你像画画一样简单地生成 3D 形状，并且随时修改，不需要专业 3D 建模技能。该方法将 3D 网格编辑拆分为**“添加”（Addition）和“删除”（Dele

Google 发布Google CameraTrapAI 开源项目，利用人工智能（AI）保护和恢复自然环境，应对生物多样性丧失和气候变化的紧迫挑战。 🌱 地球的生物多样性正面临严重威胁 - 自 1970 年以来，全球的哺乳动物、鸟类、鱼类、爬行动物和两栖动物减少了 73%。 - 气候

Spark-TTS：一种基于大语言模型（Qwen2.5）的高效文本转语音（TTS）系统，针对当前 TTS 领域的效率问题，提出了一种新的 BiCodec 语音编码方法，使得语音合成更加自然，可控，并支持零样本语音克隆。 ✅ 采用 BiCodec 编码，简化架构，提升推理效率。 ✅ 支持细粒

NotaGen 是一个高质量古典乐谱（就是那种写在五线谱上的音乐）的符号音乐生成模型，专注于符号音乐（Symbolic Music）创作，特别是古典音乐生成。其核心创新是结合大语言模型（LLMs）训练范式，采用预训练（Pre-training）、微调（Fine-tuning）和强化学习（Rei

DiffRhythm 是全球首个基于扩散模型（Diffusion Model）的端到端 AI 歌曲生成系统，能够在 10 秒内生成一首完整的 4 分 45 秒歌曲，包含人声和伴奏。它的核心创新在于不依赖 MIDI 或传统音乐结构，只需要输入歌词和风格提示，即可生成高质量音乐作品。 📌

💡 背景：随着 OpenAI、Google 等公司发布实时语音 AI 模型（如 ChatGPT 语音、Gemini 语音），以及 Moshi、Qwen2-Audio、Fixie.ai 等开源音频大模型的崛起，开发流式音频 AI 应用变得至关重要。然而，大多数机器学习工程师并不熟悉 WebRTC