TEN-Agent:一个开源的 实时语音交互 AI 智能体平台 可以构建智能音箱、虚拟助手、实时翻译等应用

TEN-Agent 是一个开源的 实时语音交互 AI 智能体平台,由 TEN Framework 构建,支持“看、听、说、实时对话”能力。它集成了多个强大组件(如 DeepSeek、OpenAI、Gemini、ESP32、RTC)并支持跨平台部署。 该项目致力于构建可以在本地或边缘设备(如 ES

2025-03-22 08:00 · opensource · goodinfo.net

Fin-R1:基于Qwen2.5-7B 并通过强化学习训练金融推理模型 在多项金融基准测试中SOTA 水平

Fin-R1 是由 上海财经大学统计与数据科学学院张立文教授团队(SUFE-AIFLM-Lab) 联合 财跃星辰 共同研发并开源发布,专注于金融复杂推理任务。 该模型基于 Qwen2.5-7B-Instruct 构建,利用 DeepSeek-R1 框架进行“数据蒸馏”与“双轮质量筛选”,通过高质

2025-03-21 08:00 · opensource · goodinfo.net

SpatialLM:让 AI 像人类一样“看懂”三维空间,并能够“用语言描述”、乃至“与人类互动”

SpatialLM 是一个结合了 大语言模型 (LLM) 与 3D 点云处理能力 的 AI 系统,旨在实现对真实世界三维环境的语义理解与结构重建。 它的核心目标是: > 让 AI 像人类一样“看懂”三维空间,并能够“用语言描述”、“结构化表达”,乃至“与人类互动”。 📦 本质上,它是:

2025-03-21 08:00 · opensource · goodinfo.net

StarVector:SVG 向量图形生成模型 可以输入任意图像或者通过描述生成生成高质量 SVG 文件

StarVector 是一个专为 SVG 向量图形生成 设计的基础模型,其目标是: > 用大模型(VLM)从图像或文本中理解语义结构,并自动生成标准可编辑的 SVG代码,适用于图标、技术图、LOGO、表情等。 也就是将 SVG 矢量图的生成转化为“代码生成任务”,支持从图像或文本生成高质量

2025-03-21 08:00 · opensource · goodinfo.net

Orpheus Speech:基于 Llama-3B的开源AI 语音模型 质量超越ElevenLabs、PlayHT

Canopy Labs 发布了 Orpheus Speech,这是一个高质量的 AI 语音合成(TTS)模型,旨在提供接近人类的情感化语音生成。 它是首个开源且可生产使用的 TTS 语言模型(Speech-LLM),在情感表达、实时流式生成和零样本语音克隆方面超越现有模型。 Orpheus

2025-03-20 08:00 · opensource · goodinfo.net

英伟达发布世界首个开源通用人形机器人基础模型:GR00T N1 通过视觉和语言指令解析物理世界

NVIDIA推出的Isaac GR00T N1,这是一个开源的通用人形机器人基础模型,旨在加速人形机器人在现实世界中的开发和应用。它结合了预训练模型、合成数据生成蓝图和仿真框架,帮助开发者构建能够适应多种任务和环境的机器人。 GR00T N1 是一个端到端的神经网络,从光子到动作: - 视

2025-03-19 08:00 · opensource · goodinfo.net

Thera: 是首个内置物理观察模型的超分辨率方法能够在 任意缩放倍率下无锯齿地增强图像质量

Thera 是 首个内置物理观察模型(Physical Observation Model)的超分辨率方法,能够在 任意缩放倍率下无锯齿(Aliasing-Free)地增强图像质量。 它可以把 低分辨率的图片放大成高清图片,同时 不会产生模糊或锯齿。核心技术是 神经热场(Neural Heat

2025-03-18 08:00 · opensource · goodinfo.net

R1-Omni:多模态情感识别模型 可以精准识别和分析视频中人类情感 并能解释其识别推理过程

R1-Omni 是什么? R1-Omni 是一种全模态(Omni-Multimodal)的大语言模型(LLM),专注于情感识别任务,能够从 视频、音频、文本 中综合分析人物的情感状态。 由阿里巴巴通义实验室开发。 这是首个结合视觉(视频)和音频信息,将强化学习(RL)和可验证奖励机制(

2025-03-14 08:00 · opensource · goodinfo.net

适用于 Wan 2.1 的 8 个开源 LoRA 视频特效效果 让静态图像呈现各种特效动态

LoRA(Low-Rank Adaptation)是一种 AI 微调技术,能够让大模型在 低计算成本 下快速适配特定任务,比如 图片到视频(Image-to-Video, I2V)。 Remade-AI 通过 LoRA 适配,发布了 8 个独特的视频特效,可以 让静态图像动起来,并且适用于 AI

2025-03-13 08:00 · opensource · goodinfo.net

AI21 发布 Jamba 1.6 适合私营企业部署的开源模型 高效 RAG能力和超长 256K 上下文

AI21 发布了 Jamba 1.6开源模型,特别适用于企业私有部署。Jamba 1.6 在模型质量、长上下文处理能力、部署灵活性等方面超越Mistral Large 2、Llama 3.3 70B、Command R+,同时可支持完全私有部署,确保企业数据安全。 优势特点 ✅ Jamba

2025-03-10 08:00 · opensource · goodinfo.net