📰 正文

随着在线视频平台(如YouTube)的普及,上传视频的时长逐年增加。

根据研究,截至2020年,25%的视频超过15分钟,5%的视频甚至超过3小时。

长视频(如新闻、体育、教育、Vlog等)通常包含多个主题,内容跨度大,用户难以快速定位感兴趣的部分。

用户查找特定内容变得困难,视频内容导航与索引需求显著上升。

当前研究大多集中在短视频分析(几秒到几分钟),对**长视频章节划分(video chaptering)**关注不足。

手动标注章节耗时费力,自动化的需求日益凸显。

因此,自动视频章节划分(即将长视频分割成语义单元并生成章节标题)成为一个亟待解决的问题,它能提升内容导航和检索效率。

Chapter-Llama 是一个由大语言模型(LLM)驱动的视频自动分章节系统。它解决了长视频内容难以导航和查找的问题

它能够将小时级别的长视频自动划分为语义清晰的章节,并为每个章节生成简洁准确的标题。

基于大模型( LLaMA 3.1)处理文本输入,包括:

视频的语音转录(ASR)

视频关键帧的图像字幕(Caption)

🛠️ Chapter-Llama的作用:

自动将长视频划分为多个语义清晰的部分(比如每个讲解段落、每个话题转换)。

自动生成每个章节的标题。

无需依赖完整的视频图像内容,只需文本就能完成任务,效率极高。


Chapter-Llama 的主要功能

image

技术方法

它先把视频的说话内容转成文字(ASR语音识别),然后从视频中挑一些关键画面,再用图像描述模型“讲”出这些画面里发生了什么。

把这些信息全都转换成文字,加上时间点,输入给一个经过训练的大语言模型(LLM),让它自己输出“00:01:12 房间介绍”这样的章节标题。

为了应对很长的视频,它把视频切块分段预测,结果再拼接起来。

image

image

1️⃣ 多模态转文本输入

image

2️⃣ 语音驱动帧选择(Speech-guided Frame Selection)

利用一个仅基于语音的 LLM 版本预估章节边界,推断哪些时间点可能是章节起始。

在这些时间点抽取图像帧并生成描述,节省大量视觉计算资源。

比传统方法(等距抽帧、镜头检测)更精准、成本更低。

3️⃣ 大语言模型(LLM)处理

使用 Llama 3.1 8B-Instruct 模型作为主力架构。

输入:由 ASR 和图像描述文本串联而成的多模态时间线。

输出:一串章节定义,包括起始时间+标题。

微调技术:使用 LoRA(Low-Rank Adaptation)进行高效微调,适应特定任务,内存开销小(参数仅13MB)。

4️⃣ 迭代预测机制(Iterative Chunking)

为解决 LLM 上下文窗口限制(训练约15K token,推理约25K token),采用迭代式处理:

将长视频按时间块分段处理。

每段预测完成后拼接所有章节输出,确保处理任意时长视频。


实验结果

Chapter-Llama 与目前最强的基线方法 Vid2Seq(2023) 进行比较,实验结果如下(在完整测试集上):

image

📈 提升说明:

F1 提升 +18.6

tIoU 提升 +13.2

CIDEr 几乎提升一倍

此外,Chapter-Llama 还在 未微调(zero-shot) 情况下超过 Vid2Seq 的训练版(F1:29.5 vs 26.7),展现出更强的鲁棒性和泛化能力。

✅ 优势分析:

章节划分更精准,边界时间误差小

标题更具语义性与多样性

尤其在 中长视频(15~60分钟)段落划分上提升更显著

image

帧采样策略

语音驱动帧采样性能最好(仅用约10帧即可超越100帧的Vid2Seq)。

比“每10秒采样”或“shot boundary”更高效、效果更好。

微调数据量

🚀 零样本(Zero-shot)设置也表现优异:

无需微调,仅利用提示+语音+图像字幕输入,F1也能达到 29.5

对比同类模型如 GPT-4o、Gemini 等,Chapter-Llama 微调后表现更强

image


✅ 结论:

Chapter-Llama 在准确性、效率和可扩展性方面全面超越现有方法:

在所有主流指标上显著领先;

用极少训练数据获得高性能;

在多模态理解与高效处理方面有良好平衡;

即使在零样本设置下也具有出色的泛化能力。

Chapter-Llama 在所有关键评估指标上 显著优于现有最佳方法,特别适用于长视频。

其语音驱动采样策略和大语言模型微调方法是性能提升的关键。

使用少量数据和低资源成本就能获得高性能,具备极高的实用性和可落地性。


项目地址:https://imagine.enpc.fr/~lucas.ventura/chapter-llama/

论文:https://arxiv.org/pdf/2504.00072

GitHub:


来源:Chapter-Llama:将小时级别的长视频自动划分为语义清晰的章节 并生成简洁准确的标题