标签:大模型
大模型参数效率提升秘籍:稀疏激活与Transformer架构助力超长文本推理,手机也能实现GPT级智能效果不减省内存比MoE更极致
在当今大模型竞争的时代,算力与效率的平衡成为关键。端侧部署一直是大模型落地的难点,主要受限于算力瓶颈。面壁智能和清华大学提出了一种不同于MoE的技术路径——神经元级稀疏激活,使得模型在保持性能的同时显著减少资源消耗。 这项技术背后融合了脑科学灵感与工程创新。《Configurable Foundation Models: Building LLMs from a Modular Perspective》论文详细描述了这一探索。量子位邀请到面壁智能与清华CFM论文作者肖朝军,深入探讨了算力与效率之间的博弈以及大模型架构创新的未来。 探索原生稀疏 CFM(Configurabl...
快手AI:商业化引擎助力AIGC与大模型发展,打造高效数字员工解决方案
在过去三年中,中国科技公司如快手,通过持续的AI研发和应用创新,注入了新的增长动力,并逐步提升了行业的天花板。自2023年全面启动AI战略以来,AI技术已渗透到快手的各项业务环节,并开始显现实际成果。磁力引擎正朝着“下一代AI智能商业引擎”的方向发展,推出了包括磁力开创、女娲数字人、数字员工T、UAX全自动投放等在内的多种AI工具,助力商家提升运营效率。 随着大模型能力在具体场景中的不断融合,快手AI的能力提升已经开始影响业务数据的变化。最新的财报显示,可灵AI累计营收超过1亿元人民币;2024年第四季度,快手...
大模型游戏评测:17款大模型与八款棋牌游戏对决,o3-mini凭借出色推理能力胜出,DeepSeek R1因中间步骤失误落败,GameBoT见证谁是真正的棋艺王者?
第一段 在AI社区中,大模型玩棋牌游戏的风潮愈演愈烈。例如,国外知名博主让DeepSeek和ChatGPT下国际象棋的视频在YouTube上获得了百万播放量。此外,ARC Prize组织最近发布了一个贪吃蛇LLM评测基准SnakeBench。针对这一场景,来自香港大学、剑桥大学和北京大学的研究人员推出了一种更全面、客观可信的LLM评测基准:GameBoT。通过让大模型在8个游戏中相互竞争,GameBoT能够评估各主流大模型的推理能力。 第二段 传统的LLM基准测试面临两个主要挑战:性能饱和与数据污染。性能饱和指的是榜单分数已经被刷得很高,几乎没有进...
探索3D世界的革命性突破:Uni-3DAR自回归模型助力AI for Science,统一微观与宏观的3D结构,性能超越扩散模型256%,推理速度提升21.8倍,大模型时代的新里程碑
从微观分子与材料结构到宏观几何与空间智能,构建和解析 3D 结构是推动科学研究的重要基础。3D 结构不仅蕴含丰富的物理和化学信息,还为科学家提供了拆解复杂系统、进行模拟预测以及跨学科创新的关键工具。如何高效且精准地生成和理解 3D 模型正成为 AGI、AI for Science 和具身智能三大热门领域共同关注的焦点。随着 AI 技术的发展,大型语言模型(LLM)和多模态模型(LMM)的自回归 token 预测能力也开始被应用于创建和解析 3D 结构,这为 AI for Science 带来了新的可能性。 近日,一款开创性的大模型诞生了!它名为 Uni...
周鸿祎谈AI技术:用三个月时间深耕大模型,技术进步让快科技成为可能,值得深入研究学习
随着科技的快速发展,AI技术已经成为当今社会的重要趋势。近日,360创始人周鸿祎在快科技平台上发布了一段视频,分享了他对AI技术的独特见解。他表示,只要强迫自己连续使用AI技术三个月,就能迅速成为该领域的专家。 周鸿祎指出,尽管AI技术发展迅猛,但许多人由于时间有限、缺乏动力或对技术理解不足而选择观望。他鼓励大家克服这些心理障碍,积极接触和学习AI技术。通过不断的实践和应用,不仅可以积累丰富的经验和知识,还能有效推动个人技术水平的提升。 此外,周鸿祎还强调了时间投入和坚持的重要性。他认为,技术的...
零一万物携手DeepSeek推出万智企业大模型平台支持私有化部署
(由多段落组成) 智东西(公众号:zhidxcom) 作者 | 程茜 编辑 | 心缘 智东西3月17日报道,零一万物今日正式推出面向企业的“万智企业大模型一站式平台”。这一平台专为满足企业级需求而设计,提供DeepSeek模型的部署、应用实践及模型微调工具等全面解决方案。同时,该平台还兼容阿里巴巴通义千问(Qwen)、零一万物Yi等国产主流大模型。 零一万物创始人兼CEO李开复透露,公司2024年第一季度To B业务收入已接近去年全年水平。此前在接受《智能涌现》采访时,他提到2024年零一万物确认收入超亿元,其中七成来自B端客...
DeepSeek与Amazon Bedrock助力AI模型落地,大模型时代SageMaker引领应用潮流
2025年初,DeepSeek 以低于行业标准的550万美元训练成本和卓越的性能表现,掀起了AI大模型领域的波澜。紧随其后,Claude3.7Sonnet 在2月以数千万美元的投入和创新的扩展思考模式刷新了SOTA记录,再次提升了大模型的能力边界。随着一轮又一轮的更新与发布,AI大模型的性能不断被推向新的高度。然而,相较于两年前ChatGPT问世时的轰动,如今的新模型似乎少了些“惊艳”感。这或许是因为,在过去的两年中,我们见证了太多号称“最强大”的模型发布,从参数比拼到上下文能力,再到多模态处理和成本控制,整个行业仿佛陷入了一个无限...
深度学习驱动的AI翻译大模型:子曰翻译2.0,英文文献翻译质量媲美人工,仅用2天精心挑选,为你呈现最强大的翻译工具。
做AI自媒体的从业者,阅读前沿学术论文并不断学习以完善自己的知识体系是不可或缺的一部分。为了跟上时代的发展步伐,我们往往需要全力以赴才能不被淘汰。然而,不得不承认的是,我的英语水平实在有限,最熟悉的英语表达可能就是那句“I'm fine, thank you. And you?”了。 在研究各类文献的过程中,尽管有大模型辅助翻译,但依然面临诸多挑战。例如,昨天豆包分享了一篇关于AI图像处理的论文。我尝试回顾他们之前发布的SeedEdit论文进行对比学习时发现,这类论文通常逻辑紧密且包含大量高度专业化的术语和学术用语,如“Out-o...
科大讯飞与索辰科技签署战略合作协议,加码物理AI和数字孪生在工业制造中的深度融合,推动大模型及具身智能应用
索辰科技与科大讯飞签署战略合作协议,推动物理AI应用平台发布 3月6日,索辰科技(股票代码:688507)在上海举办了“天工·开物”物理AI应用开发平台的发布会。与此同时,索辰科技与科大讯飞正式签署了战略合作框架协议,双方将在智能化领域展开全方位合作。通过各自在大模型和物理计算等领域的技术优势,共同提升企业数智化创新服务能力,并加速AI技术在垂直行业的赋能。 根据合作协议,索辰科技与科大讯飞将聚焦高端制造场景,特别是在数字孪生与AI技术的深度融合方面进行合作。双方尤其关注具身智能领域,致力于提升人形机...
7B级形式化验证小模型全面开源,媲美满血版DeepSeek-R1,推动大模型与AI4Math在自然语言处理和深度学习领域的创新与发展
研究团队介绍 香港科技大学、中国科学院软件研究所、西安电子科技大学和重庆大学共同组成了一个跨学科的研究团队。该团队的核心成员包括香港科技大学的研究助理教授曹嘉伦,主要研究领域涵盖AI与软件工程(AI&SE)、人工智能测试及形式化验证等;以及中国科学院软件研究所的副研究员陆垚杰,专注于大语言模型及其应用。 形式化推理与验证的需求增长 随着DeepSeek-R1的流行和AI4Math研究的深入,大模型在辅助形式化证明写作方面的需求日益增长。作为数学推理最直接的应用场景,形式化推理与验证(formal reasoning and v...