标签：开源模型

微软首款专为电脑操作设计的开源智能体小模型 Fara-7B 发布：支持 Win11 端侧运行，性能达同级最强

（由多段落组成）：近日，微软在人工智能领域再出重磅动作——正式发布其首款专为计算机操作设计的小型开源语言模型 Fara-7B。这一消息由IT之家热心网友补药吖与西窗旧事提供线索，引发科技圈广泛关注。该模型于当地时间11月24日亮相，定位为“Agentic”智能体，能够通过模拟鼠标点击、键盘输入等操作，自主完成网页任务，标志着AI从“对话助手”向“操作执行者”的关键演进。 Fara-7B 拥有70亿参数规模，属于小型语言模型（SLM），却在同类模型中展现出领先性能。不同于传统依赖文本交互的聊天式AI，Fara-7B 的核心能力在于视觉...

来源：

IT之家【阅读原文】 Tags：Fara 7B 开源模型微软

8个月前

OpenAI发布2款开源模型：gpt-oss系列能力接近o3和o4-mini

近日，全球人工智能技术迎来新的里程碑。OpenAI正式推出了全新的开源模型系列——GPT-OSS，并同步上线了两款针对不同应用场景优化的AI模型：GPT-OSS-120B和GPT-OSS-20B。这一举措不仅为开发者提供了接近GPT-4和GPT-4o mini性能的开源替代方案，更通过开放全链路推理能力与灵活定制机制，重新定义了AI模型在实际应用中的边界。 GPT-OSS系列模型的发布，标志着开源大模型在功能性和实用性上的进一步突破。据官方技术文档显示，旗舰级模型GPT-OSS-120B拥有高达1170亿参数（其中活跃参数约为5.1亿），专为处理大规模高性能计算任...

来源：

站长之家【阅读原文】
Tags：GPT-OSS模型发布 OpenAI 人工智能开源模型高性能推理高效AI模型应用

12个月前

OpenAI正式开源了全新的gpt-oss系列模型，其中包括两款面向不同应用场景的AI模型：gpt-oss-120b和gpt-oss-20b。

该系列模型不仅具备强大的推理能力，还针对不同硬件环境进行了优化，进一步提升了模型的实用性与可部署性。 gpt-oss系列模型特性解析 gpt-oss-120b是一款面向高性能计算场景的AI模型，拥有高达1170亿参数，其中5.1亿为活跃参数。该模型专为单个H100 GPU进行了优化，适用于需要大规模推理能力的复杂任务，如大型语言理解、代码生成和多步骤逻辑推理。而gpt-oss-20b则更侧重于低延迟和本地化部署需求，参数总量为210亿，活跃参数约为3.6亿。它适合在资源受限的设备上运行，例如边缘计算设备或轻量级服务器，为开发者提供高...

来源：

快科技【阅读原文】
Tags：gpt-oss OpenAI 公众号开源模型推理能力模型优化

12个月前

中国AI开源模型强势崛起，多款大模型登顶Chatbot Arena榜单

近日，全球知名AI模型评测平台Chatbot Arena发布了最新一期大模型排行榜，中国AI开源模型表现亮眼，多款国产大模型在榜单中占据前列，甚至在部分领域超越了GPT-4.1、Claude 4等国际顶尖闭源模型。阿里Qwen3、月之暗面Kimi、深度求索DeepSeek强势上榜在大语言模型总榜中，阿里推出的Qwen3-235B-A22B-Instruct-2507位列第三，显示出其在语言理解和生成能力上的强大实力。月之暗面的Kimi-K2-0711-preview与深度求索的DeepSeek-R1-0528并列第五，凭借开源优势赢得了广泛关注。值得一提的是，这些模型均在7月刚刚发布，体现...

来源：

智东西【阅读原文】
Tags：AI大模型 Chatbot Arena Hugging Face 开源模型阿里Qwen3

1年前 (2025)

通义Qwen3轻量化编程模型开源，主打Agent智能与百万级长上下文

阿里巴巴通义千问团队于8月1日正式发布了其Qwen3-Coder系列的最新轻量化编程模型——Qwen3-Coder-Flash。这款模型专为开发者社区打造，致力于在性能与运行效率之间实现更优的平衡，提供高效、智能的AI编程辅助解决方案。 Qwen3-Coder-Flash的完整名称为“Qwen3-Coder-30B-A3B-Instruct”，其一大核心优势在于出色的Agent智能能力。根据官方介绍，该模型在执行代理式编程（Agentic Coding）、自动化浏览器操作以及多工具调用等复杂任务时，展现出卓越的表现，性能水平已接近部分顶尖的闭源大模型，在开源编程模型中具有明显竞争...

来源：

iFeng科技【阅读原文】
Tags：AI编程模型 Qwen3-Coder-Flash 上下文理解开源模型通义千问

1年前 (2025)

字节Seed开源代码模型助力AI普惠，小模型管理数据范式引领原始性创新突破

字节跳动旗下的Seed项目近期首次开源了其代码模型——Seed-Coder，这款8B参数规模的模型在多个基准测试中取得了SOTA（State of the Art）的表现。Seed-Coder不仅超越了Qwen3等现有模型，还提出了一种创新的数据管理范式，即通过小模型自主生成和筛选高质量训练数据，从而大幅提升代码生成能力。模型版本与特性 Seed-Coder提供了三个主要版本：Base、Instruct和Reasoning。其中，Instruct版本在编程任务上表现出色，拿下了两个测试基准的SOTA；而推理版本则在IOI 2024比赛中超越了QwQ-32B和DeepSeek-R1。该模型拥有32K上下文...

来源：

量子位【阅读原文】
Tags：AI普惠 Seed-Coder 原始性创新字节Seed 开源模型

1年前 (2025)

Llama 4开源模型在Chatbot Arena中的表现引发DeepSeek关注——Meta遭遇惊魂72小时背后的故事

开源大模型 Llama 4 的发布引发了广泛讨论和争议。自4月5日Meta正式推出Llama 4以来，这款新模型迅速登上Chatbot Arena排行榜第二位，仅次于Google的Gemini 2.5 Pro。然而，这一排名很快引起了社区的质疑，因为被测试的版本并非Meta官方开源的正式版，而是一个未公开、定制化调优的实验模型。对此，Chatbot Arena官方发布声明，表示将公开2000多场真人对比测试的完整数据，并点名Meta，强调其应明确说明该模型为优化人类偏好的定制化版本。 Chatbot Arena由加州大学伯克利分校发起，是当前最具行业影响力的大模型评测平台之...

来源：

iFeng科技【阅读原文】
Tags：Chatbot Arena DeepSeek Llama 4 Meta 开源模型

1年前 (2025)

Llama 4发布：探索多模态AI与混合专家架构的开源模型教师指导新纪元

整理后的 (由多段落组成)：近日，Meta公司正式对外发布了其大型语言模型Llama系列的最新升级版本——Llama 4 Scout与Llama 4 Maverick。此次更新标志着Llama系列在多模态处理能力上的进一步突破。根据官方声明，Llama 4不仅能够高效处理文本数据，还支持对视频、图像、音频等多种类型的数据进行整合与分析，同时具备跨格式转换的能力。值得注意的是，Scout和Maverick两款模型采用了先进的混合专家架构（MoE），这一技术的应用显著提升了模型的性能与效率。作为开源项目的一部分，这两款模型已面向全球开发者开放，为更多...

来源：

界面新闻【阅读原文】
Tags：Llama 4 多模态AI 开源模型教师模型混合专家架构

1年前 (2025)

DeepSeek与中国AI：开源模型助力突破芯片限制，重塑AI硬件发展格局

(由多段落组成)： '不可能的已经实现，不可思议的正在发生。' 当一家名不见经传的中国初创公司让美国科技股蒸发万亿美元时，全球AI格局被彻底颠覆。随着DeepSeek等中国AI企业的崛起，科技世界的重心正向东转移。近日，蚂蚁集团宣布使用国产芯片（包括阿里巴巴和华为的芯片）训练AI模型的成本降低了20%，性能却与英伟达H800相当。与此同时，DeepSeek发布了V3-0324更新版本，超越了Gemini 2.0 Pro和Claude 3.7 Sonnet，成为首个在非推理模型类别中领先的开源模型。谷歌紧急推出Gemini 2.5系列，声称在数学和代码基准测试中击...

来源：

iFeng科技【阅读原文】
Tags：AI硬件 DeepSeek 中国AI 开源模型芯片限制

1年前 (2025)

警惕仿冒DeepSeek网站超两千个，六成IP源自美国，防范钓鱼欺诈风险，保护您的数据安全——开源模型与AI初创公司共同应对挑战

国产AI公司DeepSeek爆红引发仿冒网站泛滥，带来安全隐患随着国产AI公司深度求索（DeepSeek）的大模型DeepSeek-R1的推出，该公司的热度迅速攀升，但也随之带来了大量的仿冒网站和钓鱼网站。根据澎湃新闻记者的报道，截至2月6日，已有超过2000个仿冒DeepSeek的网站出现，并且这一数字仍在快速增加。仿冒域名的全球化分布通过分析这些仿冒DeepSeek的域名注册时间及解析IP地址，发现有60%的仿冒域名解析IP位于美国，其余则主要分布在新加坡、德国、立陶宛、俄罗斯和中国等地。这表明仿冒域名的注册活动具有明显的全球化特...

来源：

iFeng科技【阅读原文】
Tags：AI初创公司 DeepSeek 仿冒网站开源模型钓鱼欺诈

1年前 (2025)

12 3