标签:多模态模型

Meta AI发布开源人工智能Llama 4:首次引入混合专家架构,推动多模态模型发展

当地时间上周六(4月5日),美国科技巨头Meta正式推出了其迄今为止最先进的开源人工智能模型——Llama 4。该系列模型包括两个版本,分别命名为Scout和Maverick。据Meta介绍,Llama 4是一款多模态大模型,能够高效处理并整合多种类型的数据,如文本、视频、图像和音频,并支持在不同格式间进行转换。 值得一提的是,Llama 4首次采用了混合专家(MoE)架构,这种创新设计显著提升了模型在训练和响应用户查询时的效率。通过将模型划分为多个专注于特定任务的“专家”子模型,Llama 4能够更精准地完成复杂任务。根据官方数据,Scout...

Llama 4重磅发布:首次引入混合专家架构,千万token上下文能力,开源AI领域新突破——多模态模型与强化学习助力超越DeepSeek

万万没想到,Meta 选择在周末发布了全新的 AI 模型系列——Llama 4。作为 Llama 家族的最新成员,该系列包括 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。这些模型通过大量未标注的文本、图像和视频数据进行训练,具备广泛的视觉理解能力。 Meta GenAI 负责人 Ahmad Al-Dahle 表示,Llama 4 展现了 Meta 对开源 AI 的长期承诺以及开放系统将带来最佳小型、中型和前沿大模型的坚定信念。谷歌 CEO 劈查伊也对 Llama 4 团队表示祝贺,并称赞人工智能世界永远不会无聊。 在大模型竞技场(Arena)中,Llama 4 Maverick...

GPT-4o原生图像生成功能上线,OpenAI多模态模型引领AI技术革新,轻松实现P图与生图新体验

(由多段落组成) 在 DeepSeek V3 进行“小版本更新”后,阿里通义千问团队也开源了新模型。与此同时,OpenAI 在深夜悄然发布了 GPT-4o 原生图像生成功能,这一消息让全球技术爱好者惊叹不已。更令人惊喜的是,即使是免费用户也能体验到这一强大功能。 GPT-4o 的核心优势在于其能够精准呈现文字,并严格遵循用户的指令要求。通过调用内置知识库和对话上下文,它不仅能够处理上传的图像,还能将其作为视觉灵感来源。这种特性让用户可以轻松创造出与构想完全一致的图像,从而实现更高效的视觉表达。 2024 年 5 月,OpenAI 推...

GPT-4o图像生成免费发布,奥特曼坐镇多模态模型,OpenAI指令遵循与文本控制表现惊艳

GPT-4o图像生成能力现已全面开放,免费用户也可第一时间体验!从即日起,这项功能将在ChatGPT和Sora中向所有Plus、Pro、Team以及免费用户推出。这一消息迅速引发了广泛关注,各种实测结果层出不穷。 文本处理能力惊艳 最令人惊艳的是GPT-4o对文本的处理能力。例如,它可以100%还原文字,并且能够指定文字的摆放位置。通过对比两张图片可以发现,第一张图中的男人倒影与第二张图完全对应,展现了其强大的细节把控能力。此外,它还能像连续剧一样,在准确生成文字的同时变换人物动作。 奥特曼坐镇直播发布 昨晚,OpenAI紧...

OpenAI推出GPT-4o:超强人工智能生成图像,多模态模型引领图像生成新时代,与谷歌同场竞技,奥尔特曼AGI梗图现场直出引发关注

感谢IT之家网友华南吴彦祖和软媒用户1392612提供的线索!最近,OpenAI在深夜直播中发布了GPT-4o的原生图像生成技术的重大升级。奥尔特曼亲自上阵,展示了自拍变梗图、相对论漫画等功能。然而,与谷歌刚刚发布的Gemini 2.5 Pro相比,OpenAI的动作显得有些不足。 奥尔特曼带领团队展示了GPT-4o图像生成技术的各种大升级,包括制作梗图、文本渲染、多轮交互生成和指令遵循等。其中最亮眼的演示是一张官方玩梗的表情包。这项功能已经在ChatGPT和Sora中向所有用户提供。 新版Sora生成图像的时间比以往更长,但OpenAI认为生图的...

「DeepSeek-R1接棒OpenAI,基于强化学习的多模态模型开源,引发AI圈性能对比热潮」

国内创业公司实现 OpenAI 愿景,多模态模型 K1.5 和 DeepSeek-R1 引领 AI 领域 最近,大模型领域再次掀起热潮。国内创业公司月之暗面发布了数学、代码和多模态推理能力全面对标 OpenAI 的满血版 o1 的多模态思考模型 K1.5。与此同时,备受瞩目的 DeepSeek 也正式推出了其新版本 DeepSeek-R1,在数学、代码和自然语言推理等任务上与 OpenAI 的 o1 正式版不相上下。 去年 12 月开源的 DeepSeek-V3 刚刚引发了一阵热潮,实现了诸多不可能的任务。此次发布的 R1 大模型更是让众多 AI 研究者感到震惊。AutoAWQ 作者 Casper Hans...

AI生物学家:当「基础模型」与「生物学混沌」相遇,多模态模型和自然语言处理能否成为解谜的关键?

在当今的AI for Biology领域,基础模型成为了热门话题。研究人员希望将更多数据输入更大的模型中进行计算测试,以预测细胞状态如何响应化学扰动的变化,识别更好的酶来降解塑料或开发具有类似药物特性的蛋白质结合剂。这些研究建立在越来越容易获得的基因组数据之上,预示着一个光明的未来。 然而,FutureHouse的联合创始人兼首席执行官Sam Rodriques认为,真正的生物学研究与当前的基础模型存在差距。他指出,在NeurlPs等AI生物学会议上,真正从事生物学研究的专业人士并不多。例如,《Nature》和《Science》期刊上的最新...

智源社区2025 AI十大趋势发布会:聚焦人工智能、多模态模型、AI4S、AGI与AI安全的未来发展动态

2024年AI发展的回顾与展望 随着年终岁尾的到来,我们迎来了新的希望和挑战。2024年,人工智能(AI)的发展已经超越了形式主义的束缚,逐步展现出其真正的潜力。这一年,AI领域经历了深刻的变化,许多复杂的概念逐渐被简化为最有价值的核心命题。 过去的一年中,AI技术在非线性的蓬勃发展中逐渐趋近某种圆融的终局。4o、Gemini2、Emu3等多模态模型的性能得到了广泛验证,标志着这一领域的成熟。与此同时,各类具身企业层出不穷,带来了空间智能和世界模型等新技术的浪潮。AI4S(AI for Science)也焕发出新的生机,科学家们...

Mistral AI强势出击,全面升级le Chat,推出Pixtral Large超大杯多模态模型图像生成新体验

一觉醒来,Mistral AI 再次带来了惊喜。今天,Mistral AI 宣布推出其多模态家族的第二位成员——Pixtral Large。这款模型基于 Mistral Large 2 构建,拥有 1240 亿参数,不仅具备强大的图像理解能力,还能处理文档、图表和自然图像,同时保持了 Mistral Large 2 在纯文本理解方面的优势。 除了发布新模型,Mistral AI 还对其免费聊天机器人 le Chat 进行了重大升级,新增了图像生成、网络搜索和交互式画布功能,全面对标 ChatGPT。所有这些功能都以免费测试版的形式开放,引起了 AI 社区的广泛关注。有人感慨道:“六个月前,...

智谱AI推出自主人工智能AutoGLM,谷歌和微软纷纷入局多模态模型与行为数据强化学习领域

昨天,微软突然发布了一款新的模型,该模型可用于网页自动化操作。微软此举也正式加入了与智谱AutoGLM类似的自主人工智能竞争。而在前天,《The Information》网站上报道了一则消息,标题为“Google Preps AI That Takes Over Computers”,意即谷歌正在准备推出接管计算机的人工智能。上周三,Claude发布;上周五,智谱AI发布;周末,谷歌传出消息;接着是微软。短短一周内,已有四家公司宣布将推出类似产品,其中三家已悄然发布:Anthropic的Claude、智谱的AutoGLM和微软的OmniParser。这些产品的表现令人瞩目。尽管谷歌的消...
12