三款Gemma 模型变体:能单块 GPU运行的医疗模型MedGemma、手语模型SignGemma 和 海豚语言模型DolphinGemma
Google发布了三款新的 Gemma 系列模型的变体:MedGemma、SignGemma 和 DolphinGemma,分别针对医学 AI、辅助技术以及跨物种通信三大创新领域。 它们体现了语言模型(LLMs)和多模态模型在专业垂直领域的深度应用潜力,也展示了开放、安全和可访问性在未来 AI 发
Google发布了三款新的 Gemma 系列模型的变体:MedGemma、SignGemma 和 DolphinGemma,分别针对医学 AI、辅助技术以及跨物种通信三大创新领域。 它们体现了语言模型(LLMs)和多模态模型在专业垂直领域的深度应用潜力,也展示了开放、安全和可访问性在未来 AI 发
微软近日通过其研究团队正式发布了名为 Aurora 的 AI 基础模型,该模型具备在极短时间内以极低计算成本预测天气、空气质量、海洋波浪、热带气旋等多种环境现象的能力。 Aurora正重新定义我们理解和预测气候、海洋、大气及环境事件的方式。 它不只是一个天气模型,更是一个“地球系统模拟引擎”
Magentic-UI 是 Microsoft 研究团队开发的一个面向人类协作的网页智能代理原型系统。它基于多智能体架构,结合大型语言模型(LLM),可自动执行复杂的网页任务。 它可以: > 🧠 自动浏览网页、📁 读取文件、🧑💻 写代码,还能和你配合完成任务。 但它不是全自动机器人
阿里巴巴通义实验室发布其最新的Wan2.1-VACE 开源 AI 视频模型,该模型专注于视频创作和编辑。 开源版本: - 1.3B(适配消费级显卡,适合开发者试验) - 14B(更高性能,适用于高端任务) 是 Wan2.1 模型系列的一部分,VACE 代表“Visual and
当 AI 第一次给出的回答不够好时,能不能让它自己再看看自己说的,自己改一改? 一个名为 Self-Refine 的提示工程技巧,该方法能让一个大语言模型自我迭代输出内容,进而提高质量。 Self-Refine 的目标是: > 让大语言模型(LLMs)在无需人工标注数据或强化学习的前提
smolvlm-realtime-webcam是一个基于 视觉语言模型(VLM) 的开源演示项目,它让你可以通过电脑摄像头,实时捕捉画面并用小型 AI 模型进行实时图像理解和描述。 项目完全本地运行,不依赖云服务。 - 低资源环境推理:在没有大型GPU或云服务的情况下运行多模态模型 -
HunyuanCustom 是腾讯混元团队开发的多模态定制视频生成系统,可通过文字、图片、音频或视频输入,生成具备特定人物、动作、语境和背景的视频内容。 其突出优势是: - 强身份保持能力:人物在全片中形象不变 - 高度可控性:支持细粒度定制,如谁说话、在什么场景、做什么动作
Seed-Coder 是字节跳动 Seed 团队推出的一系列 8B参数规模的开源代码大语言模型,它展示了LLM可以通过最小的人工努力有效地自主整理代码训练数据,从而大幅提高编码能力。 包含三个变体: - Seed-Coder-8B-Base:基础预训练模型 - Seed-Coder-
FastVLM(Fast Vision Language Model) 是 苹果公司开发的一种高效视觉语言模型(VLM)编码器系统。 它专注于将高分辨率图像高效转换为 LLM 可处理的视觉 token,从而大幅提升图文理解的速度与效能。 你可以把它理解为: > 📷 FastVLM:先把
字节跳动团队开源了一个深度研究框架,通过多智能体协作和工具集成,融合语言模型、搜索引擎、网页爬虫、代码执行器和多智能体协作机制,致力于将复杂研究流程自动化,并支持播客生成等多形式输出。 - 名称含义:DEER = Deep Exploration and Efficient Research