标签:Seed1.5-VL

N字节发布Seed1.5-VL多模态推理模型,OCR识别与视觉编码器结合强化学习,在38项评测中夺得第一

字节跳动近期发布了一款轻量级多模态推理模型——Seed1.5-VL,该模型在60个主流基准测试中取得了38项第一的优异成绩。这款模型仅使用532M视觉编码器和200亿活跃参数,却能与更大规模的顶尖模型相媲美,尤其在复杂谜题推理、OCR(光学字符识别)、图表理解及3D空间理解等方面表现出色。 Seed1.5-VL支持多种分辨率的图像输入,并通过原生分辨率变换技术确保图像细节的最大化保留。在视频处理方面,团队提出了一种动态帧分辨率采样策略,能够根据需求动态调整帧率和分辨率。此外,模型还引入了时间戳标记来增强对时间信息的感知...