葡萄京娱乐场游戏大厅 葡萄京娱乐场app下载

葡萄京娱乐场游戏大厅 葡萄京娱乐场app下载

葡萄京娱乐网站app娱乐 VTG)上仍面对挑战-葡萄京娱乐场游戏大厅 葡萄京娱乐场app下载

发布日期:2024-12-03 07:51    点击次数:53

用看漫画的形势,大幅提高视频大模子时序定位才调!

法子名为NumPro,无需历练,通过数字视觉教唆就能增强。

就像漫画顶用编号的画格领导读者按划定理会故事,将视觉内容与明晰的时刻线干系起来同样。

NumPro 通过在视频帧上添加特有的数字象征符,将视频时序定位变嫌为直不雅的"翻阅漫画"式历程,使 Vid-LLMs 省略松驰"读取"事件时刻线,准确关联视觉内容与相应的时序信息。

执行中,NumPro 显赫提高了视频时序定位才调,在多个基准上高出此前 SOTA,况兼还能保捏对模子通用视频理会才调影响较小。

这项职责由来自东南大学、马克斯 · 普朗克信息学斟酌所、腾讯微信团队、加州大学伯克利分校的斟酌东说念主员共同完成。

NumPro 法子中枢变嫌

视频大说话模子(Vid-LLMs)在视频内容理会问答对话方面已获取显赫进展,但在精确的时序定位任务(Video Temporal Grounding, VTG)上仍面对挑战。

举例,在本色把握中,识别视频中事件的发生时刻,如定位厨师添加调料的精确时刻,关于现存模子来说颇具难度,这一挑战攻击了视频理会时间在繁密规模的深刻把握。

传统法子在增强模子的 VTG 才调时,不绝需要大都的重新历练或复杂的模子适配,活泼性和可迁徙性受限。

NumPro 是怎样达成的呢?

无需历练建立(Training-Free):

在无历练建立下,NumPro 平直为每个视频帧记号对应的帧号。

借助 Vid-LLMs 内置的光学字符识别(OCR)才调,模子省略通过与视觉内容有关联的帧号"读取"时刻线。

为明确添加数字的见识,在每个事件查询前添加简便指示,奉告模子帧号的含义。如斯,Vid-LLMs 可平直将帧号与说话查询集会,准确识别帧级领域。

微调优化建立(Fine-tuning Setting):

为进一步提高性能,NumPro-FT 在经过了 NumPro 增强数据集上对 Vid-LLMs 进行微调。

此历程将帧号与历练数据中的时刻跨度对王人,将时序定位才调镶嵌模子的学习示意中。

微调时,冻结视觉编码器,仅对视觉投影仪和大说话模子(LLM)组件进行优化,并摄取低秩允洽(LoRA)时间颐养 LLM,灵验减少参数数目和历练支拨。

为确保 NumPro 的灵验性,斟酌团队从字体大小、心境和位置三个要津要素对其进行全心想象优化。

通过基于 CLIP 的执行,使用 Number Accuracy 和 Caption Accuracy 两个筹谋均衡数字的可识别性和对视觉内容的干涉。

最终细则了字体大小为 40、心境为红色、位置在右下角的最优想象,该想象能最猛进程证据 Vid-LLMs 的 OCR 和视觉说话对王人才调,达成精确的视频时序定位。

执行效用显赫

在尺度 VTG 基准测试中,NumPro 证据超卓。

在 Moment Retrieval 任务中,无需历练的 NumPro 使 Vid-LLMs 性能接近或高出以往最优水平。

而经过 NumPro-FT 微调后,LongVA-7B-DPO 在 Charades-STA 和 ActivityNet 数据集上的多个筹谋上均大幅高出现存 SOTA,展现出 NumPro 在提高模子时序定位才调方面的强大后劲。

NumPro 不仅在跨越模子上效果显赫,对多种 Vid-LLMs 也具有凡俗的适用性。

把握于不同模子如 LLaVA-Video-7B、LLaVA-OneVision-7B 和 Qwen2-VL-72B 等,均带来了显赫的性能提高。此外,在与微调结合时,NumPro-FT 长久优于传统微调法子,尤其在较长视频数据集上证据出色。

将 NumPro 集成到通用视频问答任务(如 VideoInstruct 基准测试)中,发现其对一般理会筹谋影响极小,在保捏坚毅通用视频理会才调的同期,显赫提高了视频时序定位才调。

论文勾通:https://arxiv.org/pdf/2411.10332

代码仓库:https://github.com/yongliang-wu/NumPro葡萄京娱乐网站app娱乐