标签:多模态推理模型
字节发布Seed1.5-VL多模态推理模型,OCR识别与视觉编码器结合强化学习,在38项评测中夺得第一
字节跳动近期发布了一款轻量级多模态推理模型——Seed1.5-VL,该模型在60个主流基准测试中取得了38项第一的优异成绩。这款模型仅使用532M视觉编码器和200亿活跃参数,却能与更大规模的顶尖模型相媲美,尤其在复杂谜题推理、OCR(光学字符识别)、图表理解及3D空间理解等方面表现出色。 Seed1.5-VL支持多种分辨率的图像输入,并通过原生分辨率变换技术确保图像细节的最大化保留。在视频处理方面,团队提出了一种动态帧分辨率采样策略,能够根据需求动态调整帧率和分辨率。此外,模型还引入了时间戳标记来增强对时间信息的感知...
李飞飞与中美AI模型性能差距近乎持平,英伟达收购Lepton AI加速多模态推理模型及生成式人工智能发展
第一段 李飞飞团队最新发布的AI报告揭示中美AI模型性能差距几乎持平。4月8日,由李飞飞主导的斯坦福大学以人为本人工智能研究所(Stanford HAI)公布了《2025年人工智能指数报告》。这份长达456页的报告详细分析了2024年全球人工智能行业的发展趋势,并总结出12大关键方向。 在最新的报告中,涵盖了AI基准测试成绩的变化、AI应用加速与投资增长、中美AI模型性能对比、公众对AI的态度转变以及AI硬件发展状况等。特别是在中美AI模型发展的对比方面,尽管美国在AI模型数量上仍然占据优势,2024年开发了40个值得关注的模型,而...