Opensource

TEN-Agent：一个开源的实时语音交互 AI 智能体平台可以构建智能音箱、虚拟助手、实时翻译等应用

TEN-Agent 是一个开源的实时语音交互 AI 智能体平台，由 TEN Framework 构建，支持“看、听、说、实时对话”能力。它集成了多个强大组件（如 DeepSeek、OpenAI、Gemini、ESP32、RTC）并支持跨平台部署。该项目致力于构建可以在本地或边缘设备（如 ES

Fin-R1 是由上海财经大学统计与数据科学学院张立文教授团队（SUFE-AIFLM-Lab）联合财跃星辰共同研发并开源发布，专注于金融复杂推理任务。该模型基于 Qwen2.5-7B-Instruct 构建，利用 DeepSeek-R1 框架进行“数据蒸馏”与“双轮质量筛选”，通过高质

SpatialLM 是一个结合了大语言模型 (LLM) 与 3D 点云处理能力的 AI 系统，旨在实现对真实世界三维环境的语义理解与结构重建。它的核心目标是： > 让 AI 像人类一样“看懂”三维空间，并能够“用语言描述”、“结构化表达”，乃至“与人类互动”。 📦 本质上，它是：

StarVector 是一个专为 SVG 向量图形生成设计的基础模型，其目标是： > 用大模型（VLM）从图像或文本中理解语义结构，并自动生成标准可编辑的 SVG代码，适用于图标、技术图、LOGO、表情等。也就是将 SVG 矢量图的生成转化为“代码生成任务”，支持从图像或文本生成高质量

Canopy Labs 发布了 Orpheus Speech，这是一个高质量的 AI 语音合成（TTS）模型，旨在提供接近人类的情感化语音生成。它是首个开源且可生产使用的 TTS 语言模型（Speech-LLM），在情感表达、实时流式生成和零样本语音克隆方面超越现有模型。 Orpheus

NVIDIA推出的Isaac GR00T N1，这是一个开源的通用人形机器人基础模型，旨在加速人形机器人在现实世界中的开发和应用。它结合了预训练模型、合成数据生成蓝图和仿真框架，帮助开发者构建能够适应多种任务和环境的机器人。 GR00T N1 是一个端到端的神经网络，从光子到动作： - 视

Thera 是首个内置物理观察模型（Physical Observation Model）的超分辨率方法，能够在任意缩放倍率下无锯齿（Aliasing-Free）地增强图像质量。它可以把低分辨率的图片放大成高清图片，同时不会产生模糊或锯齿。核心技术是神经热场（Neural Heat

R1-Omni 是什么？ R1-Omni 是一种全模态（Omni-Multimodal）的大语言模型（LLM），专注于情感识别任务，能够从视频、音频、文本中综合分析人物的情感状态。由阿里巴巴通义实验室开发。这是首个结合视觉（视频）和音频信息，将强化学习（RL）和可验证奖励机制（

LoRA（Low-Rank Adaptation）是一种 AI 微调技术，能够让大模型在低计算成本下快速适配特定任务，比如图片到视频（Image-to-Video, I2V）。 Remade-AI 通过 LoRA 适配，发布了 8 个独特的视频特效，可以让静态图像动起来，并且适用于 AI

AI21 发布了 Jamba 1.6开源模型，特别适用于企业私有部署。Jamba 1.6 在模型质量、长上下文处理能力、部署灵活性等方面超越Mistral Large 2、Llama 3.3 70B、Command R+，同时可支持完全私有部署，确保企业数据安全。优势特点 ✅ Jamba