英伟达发布世界首个开源通用人形机器人基础模型:GR00T N1 通过视觉和语言指令解析物理世界

NVIDIA推出的Isaac GR00T N1,这是一个开源的通用人形机器人基础模型,旨在加速人形机器人在现实世界中的开发和应用。它结合了预训练模型、合成数据生成蓝图和仿真框架,帮助开发者构建能够适应多种任务和环境的机器人。 GR00T N1 是一个端到端的神经网络,从光子到动作: - 视

2025-03-19 08:00 · opensource · goodinfo.net

Thera: 是首个内置物理观察模型的超分辨率方法能够在 任意缩放倍率下无锯齿地增强图像质量

Thera 是 首个内置物理观察模型(Physical Observation Model)的超分辨率方法,能够在 任意缩放倍率下无锯齿(Aliasing-Free)地增强图像质量。 它可以把 低分辨率的图片放大成高清图片,同时 不会产生模糊或锯齿。核心技术是 神经热场(Neural Heat

2025-03-18 08:00 · opensource · goodinfo.net

R1-Omni:多模态情感识别模型 可以精准识别和分析视频中人类情感 并能解释其识别推理过程

R1-Omni 是什么? R1-Omni 是一种全模态(Omni-Multimodal)的大语言模型(LLM),专注于情感识别任务,能够从 视频、音频、文本 中综合分析人物的情感状态。 由阿里巴巴通义实验室开发。 这是首个结合视觉(视频)和音频信息,将强化学习(RL)和可验证奖励机制(

2025-03-14 08:00 · opensource · goodinfo.net

适用于 Wan 2.1 的 8 个开源 LoRA 视频特效效果 让静态图像呈现各种特效动态

LoRA(Low-Rank Adaptation)是一种 AI 微调技术,能够让大模型在 低计算成本 下快速适配特定任务,比如 图片到视频(Image-to-Video, I2V)。 Remade-AI 通过 LoRA 适配,发布了 8 个独特的视频特效,可以 让静态图像动起来,并且适用于 AI

2025-03-13 08:00 · opensource · goodinfo.net

AI21 发布 Jamba 1.6 适合私营企业部署的开源模型 高效 RAG能力和超长 256K 上下文

AI21 发布了 Jamba 1.6开源模型,特别适用于企业私有部署。Jamba 1.6 在模型质量、长上下文处理能力、部署灵活性等方面超越Mistral Large 2、Llama 3.3 70B、Command R+,同时可支持完全私有部署,确保企业数据安全。 优势特点 ✅ Jamba

2025-03-10 08:00 · opensource · goodinfo.net

Manus 背后核心技术 Browser Use:使 AI能够让 AI 像人类一样浏览网页并自动执行 Web 任务

X 用户@jianxliao 声称他通过简单地请求 Manus AI 提供其位于“/opt/.manus/”的内部文件,AI 直接提供了这些文件,包括其沙箱运行时代码。他随后列出了几个关键发现: - Manus AI 实际上基于 Claude Sonnet(Anthropic 开发的 AI 模

2025-03-10 08:00 · opensource · goodinfo.net

MeshPad:基于草图的交互式 3D 网格生成与编辑工具 通过简单的 2D 草图直接生成3D 模型

MeshPad 是一款新型的 3D 网格生成和编辑工具,用户可以通过手绘草图(sketch)直接生成和修改 3D 模型。 它可以让你像画画一样简单地生成 3D 形状,并且随时修改,不需要专业 3D 建模技能。 该方法将 3D 网格编辑拆分为**“添加”(Addition)和“删除”(Dele

2025-03-09 08:00 · opensource · goodinfo.net

Google CameraTrapAI :自动识别2000+野生动物 帮助科学家保护环境

Google 发布Google CameraTrapAI 开源项目,利用人工智能(AI)保护和恢复自然环境,应对生物多样性丧失和气候变化的紧迫挑战。 🌱 地球的生物多样性正面临严重威胁 - 自 1970 年以来,全球的哺乳动物、鸟类、鱼类、爬行动物和两栖动物减少了 73%。 - 气候

2025-03-08 08:00 · opensource · goodinfo.net

Spark-TTS:基于Qwen2.5模型的高效文本转语音(TTS)系统 支持细粒度语音控制

Spark-TTS:一种基于大语言模型(Qwen2.5)的高效文本转语音(TTS)系统 ,针对当前 TTS 领域的效率问题,提出了一种新的 BiCodec 语音编码方法,使得语音合成更加自然,可控,并支持零样本语音克隆。 ✅ 采用 BiCodec 编码,简化架构,提升推理效率。 ✅ 支持细粒

2025-03-06 08:00 · opensource · goodinfo.net

NotaGen: 一个高质量古典乐谱音乐生成模型 具备“乐谱级”音乐生成能力

NotaGen 是一个高质量古典乐谱(就是那种写在五线谱上的音乐)的符号音乐生成模型,专注于符号音乐(Symbolic Music)创作,特别是古典音乐生成。 其核心创新是结合大语言模型(LLMs)训练范式,采用 预训练(Pre-training)、微调(Fine-tuning)和强化学习(Rei

2025-03-05 08:00 · opensource · goodinfo.net