Manus 背后核心技术 Browser Use:使 AI能够让 AI 像人类一样浏览网页并自动执行 Web 任务
X 用户@jianxliao 声称他通过简单地请求 Manus AI 提供其位于“/opt/.manus/”的内部文件,AI 直接提供了这些文件,包括其沙箱运行时代码。他随后列出了几个关键发现: - Manus AI 实际上基于 Claude Sonnet(Anthropic 开发的 AI 模
X 用户@jianxliao 声称他通过简单地请求 Manus AI 提供其位于“/opt/.manus/”的内部文件,AI 直接提供了这些文件,包括其沙箱运行时代码。他随后列出了几个关键发现: - Manus AI 实际上基于 Claude Sonnet(Anthropic 开发的 AI 模
MeshPad 是一款新型的 3D 网格生成和编辑工具,用户可以通过手绘草图(sketch)直接生成和修改 3D 模型。 它可以让你像画画一样简单地生成 3D 形状,并且随时修改,不需要专业 3D 建模技能。 该方法将 3D 网格编辑拆分为**“添加”(Addition)和“删除”(Dele
Google 发布Google CameraTrapAI 开源项目,利用人工智能(AI)保护和恢复自然环境,应对生物多样性丧失和气候变化的紧迫挑战。 🌱 地球的生物多样性正面临严重威胁 - 自 1970 年以来,全球的哺乳动物、鸟类、鱼类、爬行动物和两栖动物减少了 73%。 - 气候
Spark-TTS:一种基于大语言模型(Qwen2.5)的高效文本转语音(TTS)系统 ,针对当前 TTS 领域的效率问题,提出了一种新的 BiCodec 语音编码方法,使得语音合成更加自然,可控,并支持零样本语音克隆。 ✅ 采用 BiCodec 编码,简化架构,提升推理效率。 ✅ 支持细粒
NotaGen 是一个高质量古典乐谱(就是那种写在五线谱上的音乐)的符号音乐生成模型,专注于符号音乐(Symbolic Music)创作,特别是古典音乐生成。 其核心创新是结合大语言模型(LLMs)训练范式,采用 预训练(Pre-training)、微调(Fine-tuning)和强化学习(Rei
DiffRhythm 是 全球首个基于扩散模型(Diffusion Model)的端到端 AI 歌曲生成系统,能够在 10 秒内 生成一首完整的 4 分 45 秒歌曲,包含人声和伴奏。 它的核心创新在于 不依赖 MIDI 或传统音乐结构,只需要输入歌词和风格提示,即可生成高质量音乐作品。 📌
💡 背景:随着 OpenAI、Google 等公司发布 实时语音 AI 模型(如 ChatGPT 语音、Gemini 语音),以及 Moshi、Qwen2-Audio、Fixie.ai 等开源音频大模型的崛起,开发 流式音频 AI 应用 变得至关重要。然而,大多数机器学习工程师并不熟悉 WebRTC
PhotoDoodle 是 新加坡国立大学 Show Lab 与 Tiamat AI 合作开发的 AI 图像编辑工具,旨在通过 少样本数据(Few-Shot Learning)学习 进行艺术风格迁和图像编辑。 它可以通过 训练 AI,让 AI 学会某种艺术风格,并将其应用到新的图像上。 相比
olmOCR 是由 Allen Institute for AI (AI2) 开发的一款 开源 OCR(光学字符识别)工具,专门用于 高精度从 PDF 文本提取,能保持文本的 阅读顺序,并支持 表格、数学公式、手写内容 的解析。 主要优势包括: - 高性能:在 25 万页 多样化 PDF
FoleyCrafter 是一个能够为无声视频生成同步且逼真的声音效果的开源系统。用于自动生成与视频同步的高质量音效,从而实现身临其境的视听体验。它可以根据视频内容生成相关的声音,比如在视频里看到狗,FoleyCrafter 就会生成狗叫的声音。 它利用了一个预训练的文本到音频模型,并通过两个关