近来,智源智源研究院联合上海交通大学等组织正式发布了一款新一代超长视频了解模型——Video-XL-2。研究院开源轻这一模型的量级推出标志着长视频了解技能在开源范畴取得了重大突破 ,为多模态大模型在长视频内容了解方面的超长开展注入了新的生机。
在技能架构方面 ,视频Video-XL-2首要由视觉编码器、解模动态Token组成模块(DTS)以及大言语模型(LLM)三个中心组件构成。智源该模型选用SigLIP-SO400M作为视觉编码器 ,研究院开源轻对输入视频进行逐帧处理 ,量级将每一帧编码为高维视觉特征。超长随后 ,视频DTS模块对这些视觉特征进行交融紧缩 ,解模并建模其时序联系,智源以提取更具语义的研究院开源轻动态信息 。处理后的量级视觉表征经过均匀池化与多层感知机(MLP)进一步映射到文本嵌入空间,完结模态对齐。终究 ,对齐后的视觉信息输入至Qwen2.5-Instruct ,以完结对视觉内容的了解与推理,并完结相应的下流使命