Hibiki :一个实时语音翻译系统 无需等到你说完整句话 边说话的同时边翻译 还能保留原说话人的音色
Hibiki 是一个实时语音翻译系统,可以在你说话的同时,立刻把语音翻译成另一种语言,并用自然的语音播放出来,不需要等到你说完整句话。 与传统的离线翻译不同,Hibiki 可以实时逐步生成目标语言的语音,而无需等待源语言句子完全结束,支持**语音传输(voice transfer)**及文本翻译
Hibiki 是一个实时语音翻译系统,可以在你说话的同时,立刻把语音翻译成另一种语言,并用自然的语音播放出来,不需要等到你说完整句话。 与传统的离线翻译不同,Hibiki 可以实时逐步生成目标语言的语音,而无需等待源语言句子完全结束,支持**语音传输(voice transfer)**及文本翻译
ASAP(Aligning Simulation and Real-World Physics)是由NVIDIA 和卡内基梅隆大学推出的一个专为人形机器人设计的框架,旨在解决仿真和真实物理之间的动态不匹配问题。 该框架通过一个两阶段的过程,使得机器人可以在仿真环境中预先训练,之后将这些训练过的策
Llasa TTS:是由香港科技大学开发的一个文本到语音(TTS)系统,基于 LLaMA 语言模型( 1B、3B 和 8B 参数规模),通过整合 XCodec2 的语音 token 提供语音生成功能。 模型训练使用了 250,000 小时的中英双语语音数据,可实现以下两种语音生成模式: 1.
TokenVerse 是一种创新的文本到图像生成框架,旨在实现多概念个性化生成。它可以从图像中提取复杂的视觉概念(如对象、姿势、光照、材质等),并将这些概念灵活组合到新的图像中,生成具有特定语义特征的内容。 也就是它可以把图像中的内容(比如某个物品、姿势、光线效果等)分离出来,然后再重新自由组合
当前的大多数 AI 应用都采用传统的聊天(“Chat”)用户界面,这种模式容易实现,但带来了如下问题: 1. 过多的交互步骤,需要频繁与 AI 互动,耗费用户时间和精力,增加了用户的操作负担。 2. 无法同时处理多个任务,一次只能进行一个任务,效率低,限制了人类的扩展能力。 3. 未
SakanaAI 发布一一种革命性的 AI 架构,允许模型在推理时动态调整权重,打破传统模型静态的局限性。 Transformer² 是什么? Transformer² 是一种新型的自适应大语言模型(LLM)框架,旨在解决传统微调方法中存在的效率低下和适应性差的问题。其核心创新在于通过只调
面壁智能推出 MiniCPM-o 2.6,一个 8B 大小、匹敌GPT-4o 级别的全能模型,可在移动设备上运行 - 领先的视觉能力:超越了GPT-4o-202405、Gemini 1.5 Pro和Claude 3.5 Sonnet等 - 支持中英双语实时语音对话,并提供情感/速度/风格控
Moondream 是一个小型视觉语言模型,旨在高效地在边缘设备上运行,由moondream.ai开发。 Moondream发布了其最新的Moondream 2B模型,专为处理图像与文本相关任务而设计。 它通过整合计算机视觉与自然语言处理技术,能够对图像中的内容进行分析、理解和交互。这个模型
SVFR(稳定视频面部修复)是一种专门用来修复视频中人脸的技术,可以让模糊、损坏或者颜色不对的视频人脸变得清晰、自然。它不仅能修复人脸的细节,还能让整个视频看起来连贯一致,不会有卡顿或奇怪的变化。 SVFR提供了一个统一框架,可以同时完成视频盲修复、面部修补和面部着色任务,无需为每个任务单独训练
项目背景 TransPixar 是一个创新的生成视频模型,专注于生成包括透明度通道(alpha 通道)的 RGBA 视频。相比传统的 RGB 视频,RGBA 视频能够实现更丰富的视觉效果(VFX),例如透明的烟雾、反射等,方便这些元素无缝地与场景融合。 该项目由香港科技大学(HKUST)与