字节跳动近期发布了一款轻量级多模态推理模型——Seed1.5-VL,该模型在60个主流基准测试中取得了38项第一的优异成绩。这款模型仅使用532M视觉编码器和200亿活跃参数,却能与更大规模的顶尖模型相媲美,尤其在复杂谜题推理、OCR(光学字符识别)、图表理解及3D空间理解等方面表现出色。
Seed1.5-VL支持多种分辨率的图像输入,并通过原生分辨率变换技术确保图像细节的最大化保留。在视频处理方面,团队提出了一种动态帧分辨率采样策略,能够根据需求动态调整帧率和分辨率。此外,模型还引入了时间戳标记来增强对时间信息的感知能力。
Seed1.5-VL的核心组件包括SeedViT(用于图像和视频编码)、MLP适配器(将视觉特征转化为多模态token)以及大语言模型(用于处理多模态输入并执行推理)。其训练过程分为三个阶段:阶段0专注于训练MLP适配器以对齐视觉编码器和语言模型;阶段1重点掌握视觉定位和OCR能力;阶段2则增加数据多样性以适应视频理解和复杂推理任务。
后训练阶段采用了监督微调和强化学习等技术。通过高质量指令数据进行微调,并结合人类反馈和可验证奖励信号,利用PPO算法进一步提升模型的对齐能力和推理能力。团队还开发了一系列优化技术,如混合并行化、工作负载平衡、并行感知数据加载和容错机制,这些技术显著提高了训练效率并降低了硬件成本。
实验结果显示,Seed1.5-VL在60项公开基准测试中取得了38项SOTA(State-of-the-Art),尤其是在多模态智能体任务上表现突出,优于OpenAI的CUA和Claude 3.7等现有模型。在内部测试中,新模型在视觉推理、文档理解和3D空间理解等方面也表现出色。
尽管如此,团队指出该模型仍存在一些局限性,特别是在细粒度视觉感知、三维空间推理及复杂组合搜索任务方面。目前,用户可以在Hugging Face平台上在线体验Seed1.5-VL。
本文来源: