标签：Seed1.5-VL

字节发布Seed1.5-VL多模态推理模型，OCR识别与视觉编码器结合强化学习，在38项评测中夺得第一

字节跳动近期发布了一款轻量级多模态推理模型——Seed1.5-VL，该模型在60个主流基准测试中取得了38项第一的优异成绩。这款模型仅使用532M视觉编码器和200亿活跃参数，却能与更大规模的顶尖模型相媲美，尤其在复杂谜题推理、OCR（光学字符识别）、图表理解及3D空间理解等方面表现出色。 Seed1.5-VL支持多种分辨率的图像输入，并通过原生分辨率变换技术确保图像细节的最大化保留。在视频处理方面，团队提出了一种动态帧分辨率采样策略，能够根据需求动态调整帧率和分辨率。此外，模型还引入了时间戳标记来增强对时间信息的感知...

来源：

量子位【阅读原文】
Tags：OCR识别 Seed1.5-VL 多模态推理模型强化学习视觉编码器

1年前 (2025)