Self-Refine:通过批评与自我批评 自我反思 让AI自我迭代输出内容 提高自己的输出质量
当 AI 第一次给出的回答不够好时,能不能让它自己再看看自己说的,自己改一改? 一个名为 Self-Refine 的提示工程技巧,该方法能让一个大语言模型自我迭代输出内容,进而提高质量。 Self-Refine 的目标是: > 让大语言模型(LLMs)在无需人工标注数据或强化学习的前提
当 AI 第一次给出的回答不够好时,能不能让它自己再看看自己说的,自己改一改? 一个名为 Self-Refine 的提示工程技巧,该方法能让一个大语言模型自我迭代输出内容,进而提高质量。 Self-Refine 的目标是: > 让大语言模型(LLMs)在无需人工标注数据或强化学习的前提
smolvlm-realtime-webcam是一个基于 视觉语言模型(VLM) 的开源演示项目,它让你可以通过电脑摄像头,实时捕捉画面并用小型 AI 模型进行实时图像理解和描述。 项目完全本地运行,不依赖云服务。 - 低资源环境推理:在没有大型GPU或云服务的情况下运行多模态模型 -
HunyuanCustom 是腾讯混元团队开发的多模态定制视频生成系统,可通过文字、图片、音频或视频输入,生成具备特定人物、动作、语境和背景的视频内容。 其突出优势是: - 强身份保持能力:人物在全片中形象不变 - 高度可控性:支持细粒度定制,如谁说话、在什么场景、做什么动作
Seed-Coder 是字节跳动 Seed 团队推出的一系列 8B参数规模的开源代码大语言模型,它展示了LLM可以通过最小的人工努力有效地自主整理代码训练数据,从而大幅提高编码能力。 包含三个变体: - Seed-Coder-8B-Base:基础预训练模型 - Seed-Coder-
FastVLM(Fast Vision Language Model) 是 苹果公司开发的一种高效视觉语言模型(VLM)编码器系统。 它专注于将高分辨率图像高效转换为 LLM 可处理的视觉 token,从而大幅提升图文理解的速度与效能。 你可以把它理解为: > 📷 FastVLM:先把
字节跳动团队开源了一个深度研究框架,通过多智能体协作和工具集成,融合语言模型、搜索引擎、网页爬虫、代码执行器和多智能体协作机制,致力于将复杂研究流程自动化,并支持播客生成等多形式输出。 - 名称含义:DEER = Deep Exploration and Efficient Research
ACE-Step 是一个面向音乐生成的“基础模型”(foundation model)项目。由 ACE Studio 与 StepFun 联合开发。 它的目标不是简单生成一首歌曲,而是提供一个通用、可扩展、可控的音乐生成系统架构,可广泛应用于创作、编曲、歌词生成、人声模拟、伴奏生成、说唱AI等领域
随着AIGC技术的发展,越来越多的人开始用AI进行图片、视频的编辑和生成。以扩散模型(如Stable Diffusion)为代表的AI工具,在单张图片编辑方面已经非常成熟,但在处理**多张相关图片(如视频帧、多个视角的照片)**时,往往会出现一个大问题——一致性不足。比如: - 多张照片风格差
Dia 是由 Nari Labs 开发的一个超写实对话级文本转语音(TTS)模型,参数量为 16 亿,能够“一步生成”极为逼真的多角色对话语音。 - 可以生成极度逼真的对话并完全控制脚本和声音 - 由一个无资金的两人小团队开发 - 项目完全开源,采用 Apache 2.0 协议,权
OmniSVG 是一个用于生成高质量、可扩展矢量图形(SVG)的统一框架,基于预训练的视觉-语言模型(Vision-Language Model, VLM),旨在解决传统 SVG 生成方法在结构复杂性、计算成本和多模态支持上的局限。该项目由复旦大学和 StepFun 团队开发 也就是它是一个能把