标签:开源模型

OpenAI发布2款开源模型:gpt-oss系列 能力接近o3和o4-mini

近日,全球人工智能技术迎来新的里程碑。OpenAI正式推出了全新的开源模型系列——GPT-OSS,并同步上线了两款针对不同应用场景优化的AI模型:GPT-OSS-120B和GPT-OSS-20B。这一举措不仅为开发者提供了接近GPT-4和GPT-4o mini性能的开源替代方案,更通过开放全链路推理能力与灵活定制机制,重新定义了AI模型在实际应用中的边界。 GPT-OSS系列模型的发布,标志着开源大模型在功能性和实用性上的进一步突破。据官方技术文档显示,旗舰级模型GPT-OSS-120B拥有高达1170亿参数(其中活跃参数约为5.1亿),专为处理大规模高性能计算任...

OpenAI正式开源了全新的gpt-oss系列模型,其中包括两款面向不同应用场景的AI模型:gpt-oss-120b和gpt-oss-20b。

该系列模型不仅具备强大的推理能力,还针对不同硬件环境进行了优化,进一步提升了模型的实用性与可部署性。 gpt-oss系列模型特性解析 gpt-oss-120b是一款面向高性能计算场景的AI模型,拥有高达1170亿参数,其中5.1亿为活跃参数。该模型专为单个H100 GPU进行了优化,适用于需要大规模推理能力的复杂任务,如大型语言理解、代码生成和多步骤逻辑推理。 而gpt-oss-20b则更侧重于低延迟和本地化部署需求,参数总量为210亿,活跃参数约为3.6亿。它适合在资源受限的设备上运行,例如边缘计算设备或轻量级服务器,为开发者提供高...

中国AI开源模型强势崛起,多款大模型登顶Chatbot Arena榜单

近日,全球知名AI模型评测平台Chatbot Arena发布了最新一期大模型排行榜,中国AI开源模型表现亮眼,多款国产大模型在榜单中占据前列,甚至在部分领域超越了GPT-4.1、Claude 4等国际顶尖闭源模型。 阿里Qwen3、月之暗面Kimi、深度求索DeepSeek强势上榜 在大语言模型总榜中,阿里推出的Qwen3-235B-A22B-Instruct-2507位列第三,显示出其在语言理解和生成能力上的强大实力。月之暗面的Kimi-K2-0711-preview与深度求索的DeepSeek-R1-0528并列第五,凭借开源优势赢得了广泛关注。 值得一提的是,这些模型均在7月刚刚发布,体现...

通义Qwen3轻量化编程模型开源,主打Agent智能与百万级长上下文

阿里巴巴通义千问团队于8月1日正式发布了其Qwen3-Coder系列的最新轻量化编程模型——Qwen3-Coder-Flash。这款模型专为开发者社区打造,致力于在性能与运行效率之间实现更优的平衡,提供高效、智能的AI编程辅助解决方案。 Qwen3-Coder-Flash的完整名称为“Qwen3-Coder-30B-A3B-Instruct”,其一大核心优势在于出色的Agent智能能力。根据官方介绍,该模型在执行代理式编程(Agentic Coding)、自动化浏览器操作以及多工具调用等复杂任务时,展现出卓越的表现,性能水平已接近部分顶尖的闭源大模型,在开源编程模型中具有明显竞争...

字节Seed开源代码模型助力AI普惠,小模型管理数据范式引领原始性创新突破

字节跳动旗下的Seed项目近期首次开源了其代码模型——Seed-Coder,这款8B参数规模的模型在多个基准测试中取得了SOTA(State of the Art)的表现。Seed-Coder不仅超越了Qwen3等现有模型,还提出了一种创新的数据管理范式,即通过小模型自主生成和筛选高质量训练数据,从而大幅提升代码生成能力。 模型版本与特性 Seed-Coder提供了三个主要版本:Base、Instruct和Reasoning。其中,Instruct版本在编程任务上表现出色,拿下了两个测试基准的SOTA;而推理版本则在IOI 2024比赛中超越了QwQ-32B和DeepSeek-R1。该模型拥有32K上下文...

Llama 4开源模型在Chatbot Arena中的表现引发DeepSeek关注——Meta遭遇惊魂72小时背后的故事

开源大模型 Llama 4 的发布引发了广泛讨论和争议。自4月5日Meta正式推出Llama 4以来,这款新模型迅速登上Chatbot Arena排行榜第二位,仅次于Google的Gemini 2.5 Pro。然而,这一排名很快引起了社区的质疑,因为被测试的版本并非Meta官方开源的正式版,而是一个未公开、定制化调优的实验模型。对此,Chatbot Arena官方发布声明,表示将公开2000多场真人对比测试的完整数据,并点名Meta,强调其应明确说明该模型为优化人类偏好的定制化版本。 Chatbot Arena由加州大学伯克利分校发起,是当前最具行业影响力的大模型评测平台之...

Llama 4发布:探索多模态AI与混合专家架构的开源模型教师指导新纪元

整理后的 (由多段落组成): 近日,Meta公司正式对外发布了其大型语言模型Llama系列的最新升级版本——Llama 4 Scout与Llama 4 Maverick。此次更新标志着Llama系列在多模态处理能力上的进一步突破。根据官方声明,Llama 4不仅能够高效处理文本数据,还支持对视频、图像、音频等多种类型的数据进行整合与分析,同时具备跨格式转换的能力。 值得注意的是,Scout和Maverick两款模型采用了先进的混合专家架构(MoE),这一技术的应用显著提升了模型的性能与效率。作为开源项目的一部分,这两款模型已面向全球开发者开放,为更多...

DeepSeek与中国AI:开源模型助力突破芯片限制,重塑AI硬件发展格局

(由多段落组成): '不可能的已经实现,不可思议的正在发生。' 当一家名不见经传的中国初创公司让美国科技股蒸发万亿美元时,全球AI格局被彻底颠覆。随着DeepSeek等中国AI企业的崛起,科技世界的重心正向东转移。近日,蚂蚁集团宣布使用国产芯片(包括阿里巴巴和华为的芯片)训练AI模型的成本降低了20%,性能却与英伟达H800相当。与此同时,DeepSeek发布了V3-0324更新版本,超越了Gemini 2.0 Pro和Claude 3.7 Sonnet,成为首个在非推理模型类别中领先的开源模型。谷歌紧急推出Gemini 2.5系列,声称在数学和代码基准测试中击...

警惕仿冒DeepSeek网站超两千个,六成IP源自美国,防范钓鱼欺诈风险,保护您的数据安全——开源模型与AI初创公司共同应对挑战

国产AI公司DeepSeek爆红引发仿冒网站泛滥,带来安全隐患 随着国产AI公司深度求索(DeepSeek)的大模型DeepSeek-R1的推出,该公司的热度迅速攀升,但也随之带来了大量的仿冒网站和钓鱼网站。根据澎湃新闻记者的报道,截至2月6日,已有超过2000个仿冒DeepSeek的网站出现,并且这一数字仍在快速增加。 仿冒域名的全球化分布 通过分析这些仿冒DeepSeek的域名注册时间及解析IP地址,发现有60%的仿冒域名解析IP位于美国,其余则主要分布在新加坡、德国、立陶宛、俄罗斯和中国等地。这表明仿冒域名的注册活动具有明显的全球化特...

华为云携手硅基流动推出基于昇腾云服务的DeepSeek-R1&V3 AI推理服务,赋能开源模型应用创新

华为云DeepSeek-R1开源引发全球关注,昇腾云服务助力推理服务上线 据财联社2月1日报道,华为云官方公众号宣布,自DeepSeek-R1开源以来,迅速吸引了全球用户和开发者的广泛关注。为了满足市场需求,硅基流动与华为云团队经过多日的紧密合作,终于联合发布了基于华为云昇腾云服务的DeepSeekR1/V3推理服务。这一新服务的推出,不仅展示了华为云在人工智能领域的技术实力,也进一步推动了AI技术的普及和发展。 值得注意的是,DeepSeekR1是一款高性能的开源模型,适用于多种应用场景,包括自然语言处理、图像识别等。此次发布的...
123