标签:多模态推理模型

阶跃Step 3推理模型全面解析:开源大模型+多模态推理+国产芯片适配,打造低成本高效AI商业化路径

推理模型如何才算真正“好用”? 在2025年世界人工智能大会(WAIC)上,推理模型和具身智能成为最引人注目的技术焦点。尤其是在推理模型领域,各大厂商纷纷展示自家最新成果,性能参数令人眼花缭乱。但真正“好用”的推理模型,到底应该具备哪些特质?是功能强大?还是成本可控?亦或是部署便捷? 在众多模型中,阶跃星辰推出的Step 3脱颖而出。它不仅具备强大的多模态推理能力,还在开源、效率、国产芯片适配等方面展现出显著优势。 Step 3:新一代多模态推理模型的“四字诀” Step 3是由阶跃星辰研发的开源多模态大模型,总参...

在人工智能技术持续演进的背景下,大模型的商业化落地成为行业关注的焦点。

2024年7月24日,阶跃星辰在世界人工智能大会前夕,举办了一场备受瞩目的发布会,推出了新一代多模态推理大模型Step 3,并宣布将面向全球开源。此举不仅展现了其在大模型领域的技术实力,也为行业提供了更高效、更灵活的AI应用解决方案。 Step 3是阶跃星辰推出的最新一代主力基座模型,具备强大的多模态处理能力,能够同时处理文本、图像、音频、视频等多种数据类型,实现跨模态理解与推理。该模型采用MoE架构,总参数量高达321B,激活参数量为38B,兼顾性能与效率。在国产芯片上的推理效率最高可达DeepSeek-R1的300%,同时...

字节发布Seed1.5-VL多模态推理模型,OCR识别与视觉编码器结合强化学习,在38项评测中夺得第一

字节跳动近期发布了一款轻量级多模态推理模型——Seed1.5-VL,该模型在60个主流基准测试中取得了38项第一的优异成绩。这款模型仅使用532M视觉编码器和200亿活跃参数,却能与更大规模的顶尖模型相媲美,尤其在复杂谜题推理、OCR(光学字符识别)、图表理解及3D空间理解等方面表现出色。 Seed1.5-VL支持多种分辨率的图像输入,并通过原生分辨率变换技术确保图像细节的最大化保留。在视频处理方面,团队提出了一种动态帧分辨率采样策略,能够根据需求动态调整帧率和分辨率。此外,模型还引入了时间戳标记来增强对时间信息的感知...

李飞飞与中美AI模型性能差距近乎持平,英伟达收购Lepton AI加速多模态推理模型及生成式人工智能发展

第一段 李飞飞团队最新发布的AI报告揭示中美AI模型性能差距几乎持平。4月8日,由李飞飞主导的斯坦福大学以人为本人工智能研究所(Stanford HAI)公布了《2025年人工智能指数报告》。这份长达456页的报告详细分析了2024年全球人工智能行业的发展趋势,并总结出12大关键方向。 在最新的报告中,涵盖了AI基准测试成绩的变化、AI应用加速与投资增长、中美AI模型性能对比、公众对AI的态度转变以及AI硬件发展状况等。特别是在中美AI模型发展的对比方面,尽管美国在AI模型数量上仍然占据优势,2024年开发了40个值得关注的模型,而...