每日AI快讯
谷歌Gemini实时人工智能视频功能结合Project Astra与多模态AI技术,提升智能手机摄像头的拍摄体验
随着科技的快速发展,人工智能技术正在不断革新我们的日常生活。近日,谷歌公司宣布了一项全新的功能升级,引发了广泛关注。根据IT之家3月24日的报道,谷歌发言人亚历克斯・约瑟夫在一封发给The Verge的邮件中确认,谷歌已经开始为Gemini Live引入新一代的人工智能技术。这项技术的核心亮点在于,它能够通过用户的智能手机摄像头实时捕捉屏幕,并提供与画面相关的即时解答。 这一新功能的推出距离谷歌首次展示“阿斯特拉项目”(Project Astra)已经接近一年。回顾去年5月举行的2024年I/O开发者大会,谷歌展示了基于Gemini模...
苹果AI视觉革新:Apple Watch搭载2nm芯片与卫星短信功能,引领未来科技潮流
(由多段落组成): 苹果再次成为科技圈的焦点!据智东西3月24日消息,继上周五苹果AI团队高层换岗后,彭博社再次爆料称,苹果正计划推出搭载摄像头和视觉智能功能的智能手表。这一消息引发了广泛关注。 根据爆料,苹果将在Apple Watch上引入摄像头技术,具体有两种方案:一种是将摄像头直接嵌入Ultra版手表侧面,位于表冠与按钮之间;另一种则是为标准版手表设计“打孔屏”,将摄像头置于屏幕中。虽然这些产品目前仍处于规划阶段,但彭博社预计,搭载摄像头的Apple Watch可能会在2027年前后面世。 苹果所提到的“视觉智能”...
Transformer注意力机制新发现:从work-depth模型角度看并行计算与深度复杂度优化
整理后文章: 重新审视注意力机制:对数级别的复杂度? 近年来,注意力机制在人工智能领域大放异彩,尤其是在 Transformer 模型中。然而,一篇最新的博客引发了 AI 社区的热烈讨论,提出了一个全新的视角:Transformers 中实现的注意力机制,在计算复杂度上应该被视为对数级别(logarithmic)。这篇博客不仅得到了 Karpathy 的高度评价,还为理解注意力机制提供了一个全新的框架。 Karpathy 曾经这样描述神经网络的计算图:“广度是免费的,深度是昂贵的”。这一观点正是 Transformer 的核心灵感来源。作者提到,早在 Neura...
多模态LLM对齐算法全面解析:幻觉减少、安全性提升与推理能力增强的院士领衔万字长文总结
随着多模态大语言模型(MLLMs)的迅速发展,对齐算法的研究变得尤为重要。本文通过万字长文系统性回顾了多模态LLM中的对齐算法,从应用场景、数据集构建、评估方法到未来发展方向进行了全面梳理。 应用场景与代表性方法 文章介绍了多模态大语言模型的应用场景,分为三大层次:通用图像理解、多图像、视频和音频处理以及扩展应用。在通用图像理解方面,主要集中在减少幻觉并提升对话和推理能力;多图像和视频任务则通过不同的架构和训练方法来处理复杂数据,减少幻觉并提高模型能力;扩展应用包括医学、数学推理和安全系统...
雅虎携手吉姆·兰佐内布局人工智能,Artifact与ChatGPT助力全新发展
整理后的 #(由多段落组成) 2021年9月,吉姆·兰佐内接手了一家曾经象征互联网进取精神的公司——雅虎。然而,多年来,这家公司逐渐沦为业界的笑柄。许多人认为兰佐内接任雅虎CEO一职的成功几率几乎为零。福布斯撰稿人乔治·布拉特甚至直言:“很难想象还有谁会愿意接手这个职位。”然而,兰佐内却看到了不同的前景。在他眼中,雅虎是一颗被低估的宝石。 兰佐内指出,如果忽略“雅虎”这个名字,仅看其2021年的业务状况,就会发现这是一家拥有数十亿美元收入的企业。他并没有沉溺于过去搜索领域的辉煌,而是专注于改进现有的业务...
强化学习与视觉语言模型结合:西北大学推出三维布局空间推理框架MetaSpatial,解锁50条数据驱动的空间智能新纪元
(由多段落组成) 在三维空间理解任务中,让视觉语言模型生成合理且符合物理规则的场景布局仍是一项挑战。例如,“请将这些家具合理摆放在房间中”,尽管现有模型可以识别图像中的物体并给出语义连贯的描述,但通常缺乏对三维空间结构的真实建模,难以满足基本的物理约束与功能合理性。 为解决这一问题,研究者尝试采用多智能体交互方法优化布局结果。然而,这类方法不仅计算成本高,而且容易陷入死锁。另一类方法通过构建大规模真实房间布局的描述语料,结合监督微调(Supervised Fine-Tuning, SFT)训练模型。虽然这种方式...
ChatGPT与情绪健康:OpenAI发布首份AI交互对人类情绪影响的研究报告,探索用户体验及语音模式的深层联系
随着人工智能技术的飞速发展,AI在人类生活中的应用日益广泛。近日,OpenAI联合MIT Media Lab发布了一篇研究博文,深入探讨了ChatGPT对用户情绪健康的影响。这项研究通过大规模数据分析和随机对照试验,揭示了用户与AI互动过程中的一些关键因素,为未来的AI开发提供了重要参考。 研究背景与方法 为了更全面地了解ChatGPT的使用情况及其对用户心理状态的影响,OpenAI团队分析了近4000万次ChatGPT互动数据,并结合用户调查结果进行综合评估。此外,MIT Media Lab的研究团队还招募了近千名参与者,进行了为期四周的实验,进...
华为发布人工智能创新解决方案,加速行业智能化与数字化转型进程
华为中国合作伙伴大会2025于3月21日在深圳继续举行。在大会上,华为不仅系统阐述了战略、体系升级和政策变化,还进一步明确了以“伙伴 + 华为”为核心的合作伙伴体系,旨在与伙伴共同打造坚实的算力底座,全面加速行业智能化进程,共筑解决方案竞争力,把握时代新机遇。 随着人工智能技术的迅猛发展与广泛应用,企业利用AI创造价值、推进行业智能化的步伐显著加快。根据Gartner的预测,到2027年,中国80%的企业将使用多模型生成式人工智能,满足本地部署需求。华为公司董事、ICT BG CEO杨超斌在主题演讲中指出,当前是抓住AI...
亚马逊云AWS开源Multi-Agent Orchestrator项目:支持Python与TypeScript,实现5级通用AI Agent功能如自动查询航班、天气等,广受关注已超4000颗星
全球领先的云计算服务提供商亚马逊云(AWS)近期开源了一款名为Multi-Agent Orchestrator的5级通用AI框架。这款框架通过多层次的AI代理(Agent)来解决复杂的任务处理需求,能够智能匹配用户请求与最合适的Agent,并确保整个交互过程中的上下文一致性与连贯性。其一大显著优势是对Python和TypeScript两种编程语言的支持,这不仅提升了Agent的部署灵活性,还满足了不同开发者的多样化需求。开源地址为:[https://github.com/awslabs/multi-agent-orchestrator](https://github.com/awslabs/multi-agent-orchestrator)。 Mu...
Roblox利用AI技术发布3D智能基础模型Cube,实现形状token化生成游戏资产
Roblox,这个备受青少年喜爱的在线游戏平台,正在通过引入AI技术进一步革新游戏创作体验。作为曾获选「儿童票选奖最受欢迎游戏」的平台,Roblox允许用户设计自己的游戏、物品及服装,并可以游玩自己和其他开发者创建的各种类型的游戏。现在,用户可以通过AI来辅助完成这些创作。 最近,Roblox发布了一个名为Cude的3D智能基础模型。该模型的目标是生成整个Roblox游戏的各个方面体验,从生成3D物体和场景到人物角色,再到描述事物行为的编程脚本。Roblox创始人兼CEO David Baszucki也在推特上分享了这一消息。 此外,Roblox...