Manus 背后核心技术 Browser Use:使 AI能够让 AI 像人类一样浏览网页并自动执行 Web 任务

X 用户@jianxliao 声称他通过简单地请求 Manus AI 提供其位于“/opt/.manus/”的内部文件,AI 直接提供了这些文件,包括其沙箱运行时代码。他随后列出了几个关键发现: - Manus AI 实际上基于 Claude Sonnet(Anthropic 开发的 AI 模

2025-03-10 08:00 · opensource · goodinfo.net

MeshPad:基于草图的交互式 3D 网格生成与编辑工具 通过简单的 2D 草图直接生成3D 模型

MeshPad 是一款新型的 3D 网格生成和编辑工具,用户可以通过手绘草图(sketch)直接生成和修改 3D 模型。 它可以让你像画画一样简单地生成 3D 形状,并且随时修改,不需要专业 3D 建模技能。 该方法将 3D 网格编辑拆分为**“添加”(Addition)和“删除”(Dele

2025-03-09 08:00 · opensource · goodinfo.net

Google CameraTrapAI :自动识别2000+野生动物 帮助科学家保护环境

Google 发布Google CameraTrapAI 开源项目,利用人工智能(AI)保护和恢复自然环境,应对生物多样性丧失和气候变化的紧迫挑战。 🌱 地球的生物多样性正面临严重威胁 - 自 1970 年以来,全球的哺乳动物、鸟类、鱼类、爬行动物和两栖动物减少了 73%。 - 气候

2025-03-08 08:00 · opensource · goodinfo.net

Spark-TTS:基于Qwen2.5模型的高效文本转语音(TTS)系统 支持细粒度语音控制

Spark-TTS:一种基于大语言模型(Qwen2.5)的高效文本转语音(TTS)系统 ,针对当前 TTS 领域的效率问题,提出了一种新的 BiCodec 语音编码方法,使得语音合成更加自然,可控,并支持零样本语音克隆。 ✅ 采用 BiCodec 编码,简化架构,提升推理效率。 ✅ 支持细粒

2025-03-06 08:00 · opensource · goodinfo.net

NotaGen: 一个高质量古典乐谱音乐生成模型 具备“乐谱级”音乐生成能力

NotaGen 是一个高质量古典乐谱(就是那种写在五线谱上的音乐)的符号音乐生成模型,专注于符号音乐(Symbolic Music)创作,特别是古典音乐生成。 其核心创新是结合大语言模型(LLMs)训练范式,采用 预训练(Pre-training)、微调(Fine-tuning)和强化学习(Rei

2025-03-05 08:00 · opensource · goodinfo.net

DiffRhythm:全球首个基于扩散模型的端到端音乐模型 能够在 10 秒内生成一首完整包含人声和伴奏的歌曲

DiffRhythm 是 全球首个基于扩散模型(Diffusion Model)的端到端 AI 歌曲生成系统,能够在 10 秒内 生成一首完整的 4 分 45 秒歌曲,包含人声和伴奏。 它的核心创新在于 不依赖 MIDI 或传统音乐结构,只需要输入歌词和风格提示,即可生成高质量音乐作品。 📌

2025-03-04 08:00 · opensource · goodinfo.net

FastRTC:无需掌握复杂的 WebRTC、WebSockets 技术 一分钟创建 AI 语音助手

💡 背景:随着 OpenAI、Google 等公司发布 实时语音 AI 模型(如 ChatGPT 语音、Gemini 语音),以及 Moshi、Qwen2-Audio、Fixie.ai 等开源音频大模型的崛起,开发 流式音频 AI 应用 变得至关重要。然而,大多数机器学习工程师并不熟悉 WebRTC

2025-03-04 08:00 · opensource · goodinfo.net

PhotoDoodle :基于少样本学习的 AI 图像编辑工具 仅 30-50 张示例图片可让AI学会任何艺术风格并进行图像编辑

PhotoDoodle 是 新加坡国立大学 Show Lab 与 Tiamat AI 合作开发的 AI 图像编辑工具,旨在通过 少样本数据(Few-Shot Learning)学习 进行艺术风格迁和图像编辑。 它可以通过 训练 AI,让 AI 学会某种艺术风格,并将其应用到新的图像上。 相比

2025-03-03 08:00 · opensource · goodinfo.net

olmOCR:开源OCR工具 可以将 PDF 和其他文档高质量转换为纯文本 同时保留自然的阅读顺序

olmOCR 是由 Allen Institute for AI (AI2) 开发的一款 开源 OCR(光学字符识别)工具,专门用于 高精度从 PDF 文本提取,能保持文本的 阅读顺序,并支持 表格、数学公式、手写内容 的解析。 主要优势包括: - 高性能:在 25 万页 多样化 PDF

2025-03-01 08:00 · opensource · goodinfo.net

FoleyCrafter:精准的为无声视频自动配音 自动生成同步且逼真的声音

FoleyCrafter 是一个能够为无声视频生成同步且逼真的声音效果的开源系统。用于自动生成与视频同步的高质量音效,从而实现身临其境的视听体验。它可以根据视频内容生成相关的声音,比如在视频里看到狗,FoleyCrafter 就会生成狗叫的声音。 它利用了一个预训练的文本到音频模型,并通过两个关

2025-02-23 08:00 · opensource · goodinfo.net