每日AI快讯

Transformer注意力机制新发现:从work-depth模型角度看并行计算与深度复杂度优化

整理后文章: 重新审视注意力机制:对数级别的复杂度? 近年来,注意力机制在人工智能领域大放异彩,尤其是在 Transformer 模型中。然而,一篇最新的博客引发了 AI 社区的热烈讨论,提出了一个全新的视角:Transformers 中实现的注意力机制,在计算复杂度上应该被视为对数级别(logarithmic)。这篇博客不仅得到了 Karpathy 的高度评价,还为理解注意力机制提供了一个全新的框架。 Karpathy 曾经这样描述神经网络的计算图:“广度是免费的,深度是昂贵的”。这一观点正是 Transformer 的核心灵感来源。作者提到,早在 Neura...

多模态LLM对齐算法全面解析:幻觉减少、安全性提升与推理能力增强的院士领衔万字长文总结

随着多模态大语言模型(MLLMs)的迅速发展,对齐算法的研究变得尤为重要。本文通过万字长文系统性回顾了多模态LLM中的对齐算法,从应用场景、数据集构建、评估方法到未来发展方向进行了全面梳理。 应用场景与代表性方法 文章介绍了多模态大语言模型的应用场景,分为三大层次:通用图像理解、多图像、视频和音频处理以及扩展应用。在通用图像理解方面,主要集中在减少幻觉并提升对话和推理能力;多图像和视频任务则通过不同的架构和训练方法来处理复杂数据,减少幻觉并提高模型能力;扩展应用包括医学、数学推理和安全系统...

雅虎携手吉姆·兰佐内布局人工智能,Artifact与ChatGPT助力全新发展

整理后的 #(由多段落组成) 2021年9月,吉姆·兰佐内接手了一家曾经象征互联网进取精神的公司——雅虎。然而,多年来,这家公司逐渐沦为业界的笑柄。许多人认为兰佐内接任雅虎CEO一职的成功几率几乎为零。福布斯撰稿人乔治·布拉特甚至直言:“很难想象还有谁会愿意接手这个职位。”然而,兰佐内却看到了不同的前景。在他眼中,雅虎是一颗被低估的宝石。 兰佐内指出,如果忽略“雅虎”这个名字,仅看其2021年的业务状况,就会发现这是一家拥有数十亿美元收入的企业。他并没有沉溺于过去搜索领域的辉煌,而是专注于改进现有的业务...

强化学习与视觉语言模型结合:西北大学推出三维布局空间推理框架MetaSpatial,解锁50条数据驱动的空间智能新纪元

(由多段落组成) 在三维空间理解任务中,让视觉语言模型生成合理且符合物理规则的场景布局仍是一项挑战。例如,“请将这些家具合理摆放在房间中”,尽管现有模型可以识别图像中的物体并给出语义连贯的描述,但通常缺乏对三维空间结构的真实建模,难以满足基本的物理约束与功能合理性。 为解决这一问题,研究者尝试采用多智能体交互方法优化布局结果。然而,这类方法不仅计算成本高,而且容易陷入死锁。另一类方法通过构建大规模真实房间布局的描述语料,结合监督微调(Supervised Fine-Tuning, SFT)训练模型。虽然这种方式...

ChatGPT与情绪健康:OpenAI发布首份AI交互对人类情绪影响的研究报告,探索用户体验及语音模式的深层联系

随着人工智能技术的飞速发展,AI在人类生活中的应用日益广泛。近日,OpenAI联合MIT Media Lab发布了一篇研究博文,深入探讨了ChatGPT对用户情绪健康的影响。这项研究通过大规模数据分析和随机对照试验,揭示了用户与AI互动过程中的一些关键因素,为未来的AI开发提供了重要参考。 研究背景与方法 为了更全面地了解ChatGPT的使用情况及其对用户心理状态的影响,OpenAI团队分析了近4000万次ChatGPT互动数据,并结合用户调查结果进行综合评估。此外,MIT Media Lab的研究团队还招募了近千名参与者,进行了为期四周的实验,进...

华为发布人工智能创新解决方案,加速行业智能化与数字化转型进程

华为中国合作伙伴大会2025于3月21日在深圳继续举行。在大会上,华为不仅系统阐述了战略、体系升级和政策变化,还进一步明确了以“伙伴 + 华为”为核心的合作伙伴体系,旨在与伙伴共同打造坚实的算力底座,全面加速行业智能化进程,共筑解决方案竞争力,把握时代新机遇。 随着人工智能技术的迅猛发展与广泛应用,企业利用AI创造价值、推进行业智能化的步伐显著加快。根据Gartner的预测,到2027年,中国80%的企业将使用多模型生成式人工智能,满足本地部署需求。华为公司董事、ICT BG CEO杨超斌在主题演讲中指出,当前是抓住AI...

亚马逊云AWS开源Multi-Agent Orchestrator项目:支持Python与TypeScript,实现5级通用AI Agent功能如自动查询航班、天气等,广受关注已超4000颗星

全球领先的云计算服务提供商亚马逊云(AWS)近期开源了一款名为Multi-Agent Orchestrator的5级通用AI框架。这款框架通过多层次的AI代理(Agent)来解决复杂的任务处理需求,能够智能匹配用户请求与最合适的Agent,并确保整个交互过程中的上下文一致性与连贯性。其一大显著优势是对Python和TypeScript两种编程语言的支持,这不仅提升了Agent的部署灵活性,还满足了不同开发者的多样化需求。开源地址为:[https://github.com/awslabs/multi-agent-orchestrator](https://github.com/awslabs/multi-agent-orchestrator)。 Mu...

Roblox利用AI技术发布3D智能基础模型Cube,实现形状token化生成游戏资产

Roblox,这个备受青少年喜爱的在线游戏平台,正在通过引入AI技术进一步革新游戏创作体验。作为曾获选「儿童票选奖最受欢迎游戏」的平台,Roblox允许用户设计自己的游戏、物品及服装,并可以游玩自己和其他开发者创建的各种类型的游戏。现在,用户可以通过AI来辅助完成这些创作。 最近,Roblox发布了一个名为Cude的3D智能基础模型。该模型的目标是生成整个Roblox游戏的各个方面体验,从生成3D物体和场景到人物角色,再到描述事物行为的编程脚本。Roblox创始人兼CEO David Baszucki也在推特上分享了这一消息。 此外,Roblox...

智能体摩尔定律:AI能力每7个月翻倍,任务完成时间跨度显著缩短,METR指标下的Agent发展新纪元

(由多段落组成) 近年来,AI技术的飞速发展引发了广泛关注。近期,Nature发表了一篇关于“智能体摩尔定律”的文章,揭示了AI在完成长期任务方面的惊人进步速度。根据非营利研究机构METR的研究发现,AI的能力大约每七个月翻一番。这意味着,在未来五年内,AI有望自动完成许多目前需要人类一个月才能完成的任务。 为了更好地衡量AI完成任务的能力变化,研究人员提出了“50%-任务完成时间跨度”这一指标。该指标以50%任务成功率为基准,用于评估AI模型在不同时间段内的表现。例如,假设2019年AI完成某项任务所需的时间相当于人类...

人工智能发展需谨慎:尤瓦尔·赫拉利在信息网络与媒体环境中探讨信任悖论的深远影响

随着科技的迅猛发展,人工智能(AI)逐渐成为全球热议的话题。近日,世界知名畅销书作家、以色列历史学家尤瓦尔·赫拉利在其新书《智人之上:从石器时代到AI时代的信息网络简史》发布会上,深入探讨了人工智能对人类未来的深远影响。 赫拉利指出,与以往的科技革命不同,人工智能不再仅仅是工具,而可能具备自主决策的能力。他警告称:“从石器时代的石斧到现代的原子弹,过去的科技革命始终是我们手中的工具。然而,AI却能够自行决定行动方向,甚至可能创造出我们无法预知的武器。”这种特性使得AI革命可能成为一种前所未有的...
16869707172343