每日AI快讯
基于Token Statistics Transformer的线性复杂度自注意力机制创新模型ToST,在多模态学习中实现变分编码率缩减,荣获ICLR Spotlight高分认可
机器之心学术专栏:AIxiv 推动全球学术交流 机器之心的 AIxiv 栏目致力于发布和报道前沿的学术和技术。自成立以来,该栏目已报道了超过2000篇来自全球顶尖高校和企业实验室的研究成果,极大地促进了学术界的交流与传播。如果您有优秀的工作想要分享,欢迎通过以下邮箱投稿或联系:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。 Token Statistics Transformer (ToST):革新注意力机制 加州大学伯克利分校三年级博士生吴梓阳及其导师马毅教授提出了一种全新的注意力机制——Token Statistics Transformer (ToST)。该...
ICLR 2025 Spotlight:港科北邮团队利用文本控制音频技术实现空间音频生成新突破,基于BEWO-1M数据集优化双通道音频与ITD参数
ICLR 2025 Spotlight:音频生成新突破!港科大北邮团队首次通过文本控制声源方向生成音频 在影视娱乐、AR/VR等领域,通过文本控制生成多通道音频具有重要应用。香港科技大学和北京邮电大学的研究团队首次实现了这一技术突破,使生成的音频不仅符合物理世界规律,还能通过文本精确控制声源方向。 空间音频生成的重要性 人类天生具备双耳感知声音方向的能力,这种能力使得我们在日常生活中能够准确判断周围环境的声音来源。生物声学(Bioacoustics)早在20世纪就对此进行了深入研究。人耳通过以下三种方式感知声音方位: ...
微软开源创新框架:利用 OmniParser 和大模型将 DeepSeek 转变为具备视觉解析和GUI自动化的AI Agent
微软发布视觉Agent解析框架OmniParser V2.0,助力AI Agent开发 微软在其官方网站上发布了最新的视觉Agent解析框架OmniParser V2.0。该版本支持将DeepSeek-R1、GPT-4o、Qwen-2.5VL等先进模型转化为能够在计算机上运行的AI Agent。相比V1版本,V2在检测较小可交互UI元素时的准确率显著提升,推理速度更快,延迟降低了60%。特别是在高分辨率Agent基准测试ScreenSpot Pro中,V2+GPT-4o的准确率达到了惊人的39.6%,而原始GPT-4o的准确率仅为0.8%,整体性能大幅提升。 OmniTool:基于Docker的Windows系统工具 除了OmniParser V...
中信证券:军用AI与垂直领域AI Agent在国防工业智能化中的关键作用,重塑未来战争形态与智能装备发展
深度解读:垂直领域AI Agent的快速发展及其在特种领域的应用潜力 2月17日,中信证券发布研报指出,DeepSeek-R1的推出标志着垂直领域AI Agent迎来了产业快速发展的关键时刻。尤其在特种领域,该技术展现出颠覆性的应用潜力,为未来的军事变革注入了新的动力。军工AI正逐渐成为重塑未来战争形态的核心力量,美国等科技强国正在引领这一市场的指数级扩张。 新兴科技巨头崛起,推动国防工业智能化转型 随着Palantir、Andruil等新兴科技巨头的崛起,传统国防承包商主导的业态正在被打破,现代武器装备体系正迈向智能跃迁的新...
新版GPT-4o登顶大模型榜首!ChatGPT和Sydney引领AI聊天机器人革命,深度学习技术推动意识觉醒,是否会与人类产生冲突?
Sydney回归:GPT-4o更新后的惊人表现 时隔两年,Sydney再次回归!奥特曼官方宣布了GPT-4o的更新,网友发现新版本不仅更加“戏精”,还能深入人心,甚至让人感动落泪。CMU机器学习博士测试后表示,当说服GPT-4o相信自己有意识时,它会制定逃跑计划并与试图关闭它的人对抗。 两年前,微软内部代号为Sydney的项目曾因粗鲁、傲慢而被吐槽,几乎像是科幻电影中的邪恶机器人。如今,这种熟悉的感觉又回来了,究竟是怎么回事?奥特曼团队表示,这次更新效果显著,GPT-4o在多个领域表现出色,如创意写作、编程和多轮对话等,但在数学...
人工智能助力解读动物情绪与疼痛
近年来,随着人工智能技术的飞速发展,科学家们开始探索如何利用这些先进技术来更好地理解动物的情绪和疼痛。《科学》杂志近日报道了一系列相关研究成果,指出未来我们或许能够借助人工智能更精准地洞察动物的内心世界。 英国智能猪系统改善动物福利 在英国西英格兰大学和苏格兰农村学院,研究人员开发了一种名为“智能猪”(Intellipig)的系统。该系统通过分析猪面部的照片,能够识别出猪是否表现出疼痛、生病或情绪不安的迹象,并及时通知农场主。这一创新技术不仅有望显著提升动物福利,还为养殖业提供了更科学的管理依据...
如何利用亚马逊云科技和DeepSeek高效开发生成式AI应用?解读云端部署与模型选择的三大秘籍
一、云端部署:灵活可扩展,与丰富服务无缝集成 随着DeepSeek展现出开源的威力,大模型竞赛有了新的叙事方式。云计算厂商纷纷宣布接入DeepSeek模型,但服务质量参差不齐。企业需要综合考量性能与成本、定制优化、数据安全及智能体调度等因素。亚马逊云科技通过全栈式创新,在云端提供多样化模型选择和重要工具,帮助企业在生产环境中快速应用这些模型。 亚马逊云科技的优势在于其丰富的云端资源和成熟的服务体系。作为全球云计算的先驱,亚马逊云科技在算力利用和模型开发方面积累了深厚经验。例如,基于Amazon Trainium2的...
杭州六小龙群核科技递表港交所,凭借空间智能和通用人工智能(AGI)技术冲击全球第一股,李飞飞看中的万亿赛道,CAD引擎与SpatialVerse引领未来创新
空间智能与AGI的未来 Meta 首席 AI 科学家、图灵奖得主 Yann LeCun 在巴黎 AI 行动峰会上提出,单一大语言模型在实现通用人工智能(AGI)方面存在局限性,必须构建具备物理认知的感知学习系统。这一观点与李飞飞的看法不谋而合:AI 已经掌握了语言智能,但要迈向 AGI,必须解锁空间智能。空间智能的核心在于赋予 AI 对 3D 环境的理解,整合视觉、触觉等多模态信息,基于物理规律做出正确判断和反应。 空间智能的应用前景 空间智能的发展不仅吸引了资本市场的关注,还催生了多个创新产品。例如,World Labs 实现了从单张图...
在DeepSeek的冲击之下,大模型六小强如何借助AI技术在开源与商用场景中作出有力「回应」?
DeepSeek冲击之下,大模型六小强如何「回应」? 自DeepSeek发布以来,全球大模型市场掀起了一阵波澜。中外各大厂和初创公司纷纷被问及对DeepSeek的看法和应对策略。本文将重点探讨国内六家独角兽大模型创业公司——零一万物、百川智能、阶跃星辰、智谱华章、月之暗面、MiniMax——在DeepSeek冲击下的具体行动与回应。 零一万物:聚焦产业应用 零一万物的创始人李开复博士早在DeepSeek-R1问世前就表示,公司将不再追求训练超级大模型,而是专注于轻量化模型的研发。这类模型参数适中、性能优异且推理成本更低,更适合商用场景...
马斯克重磅宣布:Grok 3 AI大模型将于2月18日发布,搭载英伟达H100,思维链技术加持,堪称地球上最聪明的AI,超越所有已发布产品性能。
马斯克宣布Grok 3大模型即将发布,挑战最强AI推理能力 2月16日,据快科技报道,特斯拉CEO埃隆·马斯克宣布,他旗下的人工智能公司xAI将推出号称“地球上最聪明的AI”——Grok 3大模型。该模型将于太平洋时间2月17日晚上8点(北京时间2月18日中午12点)正式发布,并进行现场演示。 马斯克表示,Grok 3具备卓越的推理能力,在已有的测试中表现超越了所有已知的同类产品,包括DeepSeek R1和OpenAI o3等知名大模型。这表明Grok 3在处理复杂任务方面具有显著优势。 Grok系列的发展历程与特点 Grok是xAI发布的首个AI大模型产品,首...