📰 正文
随着在线视频平台(如YouTube)的普及,上传视频的时长逐年增加。
根据研究,截至2020年,25%的视频超过15分钟,5%的视频甚至超过3小时。
长视频(如新闻、体育、教育、Vlog等)通常包含多个主题,内容跨度大,用户难以快速定位感兴趣的部分。
用户查找特定内容变得困难,视频内容导航与索引需求显著上升。
当前研究大多集中在短视频分析(几秒到几分钟),对**长视频章节划分(video chaptering)**关注不足。
手动标注章节耗时费力,自动化的需求日益凸显。
因此,自动视频章节划分(即将长视频分割成语义单元并生成章节标题)成为一个亟待解决的问题,它能提升内容导航和检索效率。
Chapter-Llama 是一个由大语言模型(LLM)驱动的视频自动分章节系统。它解决了长视频内容难以导航和查找的问题
它能够将小时级别的长视频自动划分为语义清晰的章节,并为每个章节生成简洁准确的标题。
基于大模型( LLaMA 3.1)处理文本输入,包括:
视频的语音转录(ASR)
视频关键帧的图像字幕(Caption)
🛠️ Chapter-Llama的作用:
自动将长视频划分为多个语义清晰的部分(比如每个讲解段落、每个话题转换)。
自动生成每个章节的标题。
无需依赖完整的视频图像内容,只需文本就能完成任务,效率极高。
Chapter-Llama 的主要功能
技术方法
它先把视频的说话内容转成文字(ASR语音识别),然后从视频中挑一些关键画面,再用图像描述模型“讲”出这些画面里发生了什么。
把这些信息全都转换成文字,加上时间点,输入给一个经过训练的大语言模型(LLM),让它自己输出“00:01:12 房间介绍”这样的章节标题。
为了应对很长的视频,它把视频切块分段预测,结果再拼接起来。
1️⃣ 多模态转文本输入
2️⃣ 语音驱动帧选择(Speech-guided Frame Selection)
利用一个仅基于语音的 LLM 版本预估章节边界,推断哪些时间点可能是章节起始。
在这些时间点抽取图像帧并生成描述,节省大量视觉计算资源。
比传统方法(等距抽帧、镜头检测)更精准、成本更低。
3️⃣ 大语言模型(LLM)处理
使用 Llama 3.1 8B-Instruct 模型作为主力架构。
输入:由 ASR 和图像描述文本串联而成的多模态时间线。
输出:一串章节定义,包括起始时间+标题。
微调技术:使用 LoRA(Low-Rank Adaptation)进行高效微调,适应特定任务,内存开销小(参数仅13MB)。
4️⃣ 迭代预测机制(Iterative Chunking)
为解决 LLM 上下文窗口限制(训练约15K token,推理约25K token),采用迭代式处理:
将长视频按时间块分段处理。
每段预测完成后拼接所有章节输出,确保处理任意时长视频。
实验结果
Chapter-Llama 与目前最强的基线方法 Vid2Seq(2023) 进行比较,实验结果如下(在完整测试集上):
📈 提升说明:
F1 提升 +18.6
tIoU 提升 +13.2
CIDEr 几乎提升一倍
此外,Chapter-Llama 还在 未微调(zero-shot) 情况下超过 Vid2Seq 的训练版(F1:29.5 vs 26.7),展现出更强的鲁棒性和泛化能力。
✅ 优势分析:
章节划分更精准,边界时间误差小
标题更具语义性与多样性
尤其在 中长视频(15~60分钟)段落划分上提升更显著
帧采样策略
语音驱动帧采样性能最好(仅用约10帧即可超越100帧的Vid2Seq)。
比“每10秒采样”或“shot boundary”更高效、效果更好。
微调数据量
🚀 零样本(Zero-shot)设置也表现优异:
无需微调,仅利用提示+语音+图像字幕输入,F1也能达到 29.5
对比同类模型如 GPT-4o、Gemini 等,Chapter-Llama 微调后表现更强
✅ 结论:
Chapter-Llama 在准确性、效率和可扩展性方面全面超越现有方法:
在所有主流指标上显著领先;
用极少训练数据获得高性能;
在多模态理解与高效处理方面有良好平衡;
即使在零样本设置下也具有出色的泛化能力。
Chapter-Llama 在所有关键评估指标上 显著优于现有最佳方法,特别适用于长视频。
其语音驱动采样策略和大语言模型微调方法是性能提升的关键。
使用少量数据和低资源成本就能获得高性能,具备极高的实用性和可落地性。
项目地址:https://imagine.enpc.fr/~lucas.ventura/chapter-llama/
论文:https://arxiv.org/pdf/2504.00072
GitHub: