标签：开源模型

华为云携手硅基流动推出基于昇腾云服务的DeepSeek-R1&V3 AI推理服务，赋能开源模型应用创新

华为云DeepSeek-R1开源引发全球关注，昇腾云服务助力推理服务上线据财联社2月1日报道，华为云官方公众号宣布，自DeepSeek-R1开源以来，迅速吸引了全球用户和开发者的广泛关注。为了满足市场需求，硅基流动与华为云团队经过多日的紧密合作，终于联合发布了基于华为云昇腾云服务的DeepSeekR1/V3推理服务。这一新服务的推出，不仅展示了华为云在人工智能领域的技术实力，也进一步推动了AI技术的普及和发展。值得注意的是，DeepSeekR1是一款高性能的开源模型，适用于多种应用场景，包括自然语言处理、图像识别等。此次发布的...

来源：

iFeng科技【阅读原文】
Tags：AI推理服务 DeepSeek-R1 华为云开源模型昇腾云服务

2年前 (2025)

历史首次！DeepSeek凭借深度求索和强化学习技术同时登顶中美两区苹果App免费榜：开源模型引领AI竞争，下载量爆增

深度求索（DeepSeek）引领中美AI竞争新潮流近日，快科技报道指出，随着深度求索（DeepSeek）的出现，中美在人工智能（AI）领域的竞争格局发生了显著变化。根据苹果App Store中国区免费榜数据显示，过去一周内，全球瞩目的DeepSeek一举登顶榜首。同时，在美国区苹果App Store免费榜上，DeepSeek也从昨日的第六位迅速攀升至首位，超越了包括ChatGPT、Meta旗下的Threads、Google Gemini和Microsoft Copilot等在内的多个知名生成式AI产品。这是首次有中国应用在中国和美区苹果App Store同时占据首位，其火爆程度可见一斑。1...

来源：

快科技【阅读原文】
Tags：AI竞争 DeepSeek 开源模型强化学习深度求索

2年前 (2025)

「DeepSeek-R1接棒OpenAI，基于强化学习的多模态模型开源，引发AI圈性能对比热潮」

国内创业公司实现 OpenAI 愿景，多模态模型 K1.5 和 DeepSeek-R1 引领 AI 领域最近，大模型领域再次掀起热潮。国内创业公司月之暗面发布了数学、代码和多模态推理能力全面对标 OpenAI 的满血版 o1 的多模态思考模型 K1.5。与此同时，备受瞩目的 DeepSeek 也正式推出了其新版本 DeepSeek-R1，在数学、代码和自然语言推理等任务上与 OpenAI 的 o1 正式版不相上下。去年 12 月开源的 DeepSeek-V3 刚刚引发了一阵热潮，实现了诸多不可能的任务。此次发布的 R1 大模型更是让众多 AI 研究者感到震惊。AutoAWQ 作者 Casper Hans...

来源：

机器之心【阅读原文】
Tags：DeepSeek-R1 多模态模型开源模型强化学习性能对比

2年前 (2025)

DeepSeek新模型代码能力媲美OpenAI，开源模型引发热议，LiveCodeBench实测表现卓越，网友戏称今年编程只需Tab键

DeepSeek新模型表现优异，开源引发热议近日，DeepSeek发布了其最新的大模型DeepSeek-R1-Preview，该模型在代码基准测试LiveCodeBench中表现出色，与OpenAI的o1中档推理设置相当。这一消息引起了广泛的关注和讨论。值得注意的是，这并不是之前已发布的轻量预览版DeepSeek-R1-Lite-Preview，而是使用了更大规模的基础模型，性能更加强劲。 DeepSeek团队不仅在评估过程中帮助LiveCodeBench团队解决了评分系统的一些bug，还展示了DeepSeek-R1-Preview的思考过程。此前，DeepSeek已经宣布R1模型将开源，这意味着一个与OpenAI o...

来源：

量子位【阅读原文】
Tags：DeepSeek LiveCodeBench OpenAI 代码能力开源模型

2年前 (2025)

低成本推理模型的突破：Sky-T1-32B-Preview

450 美元的价格乍一听不算便宜，但如果这是训练一个拥有 32B 参数的推理模型的成本呢？加州大学伯克利分校的天空计算实验室（NovaSky）最近发布了 Sky-T1-32B-Preview 模型，其训练成本仅为 450 美元。这一成果表明，高级推理能力的开发正变得越来越经济和高效。开源贡献与技术细节 Sky-T1-32B-Preview 不仅在多个关键基准测试中表现出色，还成为第一个真正开源的推理模型。团队发布了训练数据集、代码和模型权重，任何人都可以轻松复制并改进该模型。这为学术界和开源社区提供了宝贵资源。成本降低的背后不久前，训...

来源：

机器之心【阅读原文】
Tags：合成数据大模型技术开源模型推理模型推理能力

2年前 (2025)

最强开源模型Qwen2.5-Coder深夜发布！320亿参数，代码生成与修复能力超越GPT-4，成为编程助手的不二选择

一夜之间，AI编程模型的开源领域迎来了一位新的霸主！Qwen2.5-Coder-32B正式发布，不仅在多个主流基准测试中取得最佳成绩，更是彻底打破了闭源模型的垄断地位。这款强大的模型拥有320亿参数，凭借其卓越的代码生成、修复和推理能力，成功超越了GPT-4o等知名闭源模型。强大的代码生成能力 Qwen2.5-Coder-32B在代码生成方面表现出色，能够在多个流行的基准测试中取得开源领域的最佳成绩。无论是简单的计算器还是复杂的音乐播放器，只需输入自然语言指令，Qwen2.5-Coder-32B就能迅速生成完整的代码。这对于编程新手来说，无...

来源：

量子位【阅读原文】
Tags：Qwen2.5-Coder 代码修复代码生成开源模型编程助手

2年前 (2024)

创造历史：阿里通义开源模型Qwen2.5在Chatbot Arena上超越Llama，引领大语言模型潮流

近日，基准测试平台Chatbot Arena公布了最新的大模型盲测排行榜，阿里巴巴的通义千问开源模型Qwen2.5再次成功跻身全球前十。具体而言，Qwen2.5-72B-Instruct在大语言模型（LLM）榜单中排名第10，成为唯一进入前十名的中国大模型。此外，Qwen系列中的视觉语言模型Qwen2-VL-72B-Instruct也在Vision榜单中排名第九，是当前得分最高的开源大模型。与此同时，Qwen系列在全球开源社区中的影响力显著提升，基于Qwen系列的衍生模型数量已突破7.43万个，超过了Llama系列的7.28万个。这标志着通义千问Qwen已经成为世界上最大的生成式...

来源：

量子位【阅读原文】
Tags：Chatbot Arena Qwen2.5 大语言模型开源模型通义千问

2年前 (2024)

对话阿里云CTO周靖人：AI算力时代，通义千问引领大模型降价风潮，探索开源模型新未来

一、技术优化助力全线降价，企业级用户与开发者共享红利在2024云栖大会的主论坛上，阿里云智能集团CTO周靖人宣布了通义大模型的一系列重大更新。其中，通义千问的三款主力模型再次大幅降价，最高降幅达到了85%，百万tokens的价格低至0.3元。周靖人表示，这次降价主要得益于规模效应和技术优化，使得模型推理成本显著降低。阿里云希望通过这种方式将技术红利带给企业级用户和开发者，推动整个产业的发展。周靖人还提到，目前模型的应用仍处于早期阶段，很多新的模型迭代和Agent的使用都需要大量的并发调用。如果模型推理...

来源：

智东西【阅读原文】
Tags：AI算力大模型开源模型通义千问阿里云

2年前 (2024)

探索OLMoE：首个100%开源的混合专家模型，拥有7B参数与1B稀疏激活的高效推理成本

训练代码、中间checkpoint、训练日志和训练数据都已经开源。尽管大语言模型（LM）在各类任务中取得了显著进展，但在训练和推理方面，性能与成本之间的权衡仍然是一个问题。对于很多学者和开发者而言，高性能的语言模型由于高昂的成本而难以触及。一种改善成本-性能的方法是采用稀疏激活混合专家（MoE）。MoE在每一层都有多个专家，每次只激活其中的一部分，从而使得MoE模型比密集模型更高效。因此，许多前沿模型如Gemini-1.5和GPT-4等都采用了MoE。然而，大多数MoE模型都是闭源的，即便有些模型公开了权重，但对于训练数据...

来源：

机器之心【阅读原文】
Tags：OLMoE 大语言模型开源模型混合专家模型稀疏激活

2年前 (2024)

中国在生成式AI领域领跑：开源模型、论文及专利数量超越美国之人工智能竞争 —— ITIF研究报告

8月26日，美国著名的非营利科技智库ITIF在其官网上发布了一份题为《中国在AI领域的创新程度如何？》的深度调查报告。该报告旨在评估中国在人工智能（AI）领域的发展状况，特别是大模型和生成式AI方面的进展，并将其与美国进行比较。报告指出，中国已经成为全球AI研究出版物的领头羊，在生成式AI领域与美国不相上下。北京的清华大学被赞誉为中国AI初创企业的摇篮，孕育出了一批引领生成式AI领域的佼佼者，如智谱AI、百川AI、月之暗面以及MiniMax。中国的大型模型正在迅速缩小与美国之间的性能差距；在中英文双语基准测试中...

来源：

AIGC开放社区公众号【阅读原文】
Tags：ITIF 中国人工智能开源模型生成式AI

2年前 (2024)

123