标签:开源模型

历史首次!DeepSeek凭借深度求索和强化学习技术同时登顶中美两区苹果App免费榜:开源模型引领AI竞争,下载量爆增

深度求索(DeepSeek)引领中美AI竞争新潮流 近日,快科技报道指出,随着深度求索(DeepSeek)的出现,中美在人工智能(AI)领域的竞争格局发生了显著变化。根据苹果App Store中国区免费榜数据显示,过去一周内,全球瞩目的DeepSeek一举登顶榜首。同时,在美国区苹果App Store免费榜上,DeepSeek也从昨日的第六位迅速攀升至首位,超越了包括ChatGPT、Meta旗下的Threads、Google Gemini和Microsoft Copilot等在内的多个知名生成式AI产品。 这是首次有中国应用在中国和美区苹果App Store同时占据首位,其火爆程度可见一斑。1...

「DeepSeek-R1接棒OpenAI,基于强化学习的多模态模型开源,引发AI圈性能对比热潮」

国内创业公司实现 OpenAI 愿景,多模态模型 K1.5 和 DeepSeek-R1 引领 AI 领域 最近,大模型领域再次掀起热潮。国内创业公司月之暗面发布了数学、代码和多模态推理能力全面对标 OpenAI 的满血版 o1 的多模态思考模型 K1.5。与此同时,备受瞩目的 DeepSeek 也正式推出了其新版本 DeepSeek-R1,在数学、代码和自然语言推理等任务上与 OpenAI 的 o1 正式版不相上下。 去年 12 月开源的 DeepSeek-V3 刚刚引发了一阵热潮,实现了诸多不可能的任务。此次发布的 R1 大模型更是让众多 AI 研究者感到震惊。AutoAWQ 作者 Casper Hans...

DeepSeek新模型代码能力媲美OpenAI,开源模型引发热议,LiveCodeBench实测表现卓越,网友戏称今年编程只需Tab键

DeepSeek新模型表现优异,开源引发热议 近日,DeepSeek发布了其最新的大模型DeepSeek-R1-Preview,该模型在代码基准测试LiveCodeBench中表现出色,与OpenAI的o1中档推理设置相当。这一消息引起了广泛的关注和讨论。值得注意的是,这并不是之前已发布的轻量预览版DeepSeek-R1-Lite-Preview,而是使用了更大规模的基础模型,性能更加强劲。 DeepSeek团队不仅在评估过程中帮助LiveCodeBench团队解决了评分系统的一些bug,还展示了DeepSeek-R1-Preview的思考过程。此前,DeepSeek已经宣布R1模型将开源,这意味着一个与OpenAI o...

低成本推理模型的突破:Sky-T1-32B-Preview

450 美元的价格乍一听不算便宜,但如果这是训练一个拥有 32B 参数的推理模型的成本呢?加州大学伯克利分校的天空计算实验室(NovaSky)最近发布了 Sky-T1-32B-Preview 模型,其训练成本仅为 450 美元。这一成果表明,高级推理能力的开发正变得越来越经济和高效。 开源贡献与技术细节 Sky-T1-32B-Preview 不仅在多个关键基准测试中表现出色,还成为第一个真正开源的推理模型。团队发布了训练数据集、代码和模型权重,任何人都可以轻松复制并改进该模型。这为学术界和开源社区提供了宝贵资源。 成本降低的背后 不久前,训...

最强开源模型Qwen2.5-Coder深夜发布!320亿参数,代码生成与修复能力超越GPT-4,成为编程助手的不二选择

一夜之间,AI编程模型的开源领域迎来了一位新的霸主!Qwen2.5-Coder-32B正式发布,不仅在多个主流基准测试中取得最佳成绩,更是彻底打破了闭源模型的垄断地位。这款强大的模型拥有320亿参数,凭借其卓越的代码生成、修复和推理能力,成功超越了GPT-4o等知名闭源模型。 强大的代码生成能力 Qwen2.5-Coder-32B在代码生成方面表现出色,能够在多个流行的基准测试中取得开源领域的最佳成绩。无论是简单的计算器还是复杂的音乐播放器,只需输入自然语言指令,Qwen2.5-Coder-32B就能迅速生成完整的代码。这对于编程新手来说,无...

创造历史:阿里通义开源模型Qwen2.5在Chatbot Arena上超越Llama,引领大语言模型潮流

近日,基准测试平台Chatbot Arena公布了最新的大模型盲测排行榜,阿里巴巴的通义千问开源模型Qwen2.5再次成功跻身全球前十。具体而言,Qwen2.5-72B-Instruct在大语言模型(LLM)榜单中排名第10,成为唯一进入前十名的中国大模型。此外,Qwen系列中的视觉语言模型Qwen2-VL-72B-Instruct也在Vision榜单中排名第九,是当前得分最高的开源大模型。 与此同时,Qwen系列在全球开源社区中的影响力显著提升,基于Qwen系列的衍生模型数量已突破7.43万个,超过了Llama系列的7.28万个。这标志着通义千问Qwen已经成为世界上最大的生成式...

对话阿里云CTO周靖人:AI算力时代,通义千问引领大模型降价风潮,探索开源模型新未来

一、技术优化助力全线降价,企业级用户与开发者共享红利 在2024云栖大会的主论坛上,阿里云智能集团CTO周靖人宣布了通义大模型的一系列重大更新。其中,通义千问的三款主力模型再次大幅降价,最高降幅达到了85%,百万tokens的价格低至0.3元。周靖人表示,这次降价主要得益于规模效应和技术优化,使得模型推理成本显著降低。阿里云希望通过这种方式将技术红利带给企业级用户和开发者,推动整个产业的发展。 周靖人还提到,目前模型的应用仍处于早期阶段,很多新的模型迭代和Agent的使用都需要大量的并发调用。如果模型推理...

探索OLMoE:首个100%开源的混合专家模型,拥有7B参数与1B稀疏激活的高效推理成本

训练代码、中间checkpoint、训练日志和训练数据都已经开源。尽管大语言模型(LM)在各类任务中取得了显著进展,但在训练和推理方面,性能与成本之间的权衡仍然是一个问题。对于很多学者和开发者而言,高性能的语言模型由于高昂的成本而难以触及。一种改善成本-性能的方法是采用稀疏激活混合专家(MoE)。MoE在每一层都有多个专家,每次只激活其中的一部分,从而使得MoE模型比密集模型更高效。因此,许多前沿模型如Gemini-1.5和GPT-4等都采用了MoE。 然而,大多数MoE模型都是闭源的,即便有些模型公开了权重,但对于训练数据...

中国在生成式AI领域领跑:开源模型、论文及专利数量超越美国之人工智能竞争 —— ITIF研究报告

8月26日,美国著名的非营利科技智库ITIF在其官网上发布了一份题为《中国在AI领域的创新程度如何?》的深度调查报告。该报告旨在评估中国在人工智能(AI)领域的发展状况,特别是大模型和生成式AI方面的进展,并将其与美国进行比较。 报告指出,中国已经成为全球AI研究出版物的领头羊,在生成式AI领域与美国不相上下。北京的清华大学被赞誉为中国AI初创企业的摇篮,孕育出了一批引领生成式AI领域的佼佼者,如智谱AI、百川AI、月之暗面以及MiniMax。中国的大型模型正在迅速缩小与美国之间的性能差距;在中英文双语基准测试中...

OpenAI 对抗美国 SB1047 法案:保护开源人工智能大模型免受监管政策威胁

近期,OpenAI致函美国加州参议员Scott Wiener,表达了对SB1047法案的反对立场。这项于今年2月7日提出的法案旨在加强对开源大型模型的监管,却因其一系列不合理的规定而引发争议。例如,法案规定若第三方调整如Meta最新发布的Llama-3.1模型用于非法目的,Meta将面临严惩,并需定期上报用户信息。此举无疑加大了科技巨头们的负担,可能导致大型模型开源活动锐减,进而抑制人工智能领域的创新活力。 OpenAI认为,尽管适度监管对于保障用户安全至关重要,但SB1047法案采取的“一刀切”方式过于激进,容易引起业界恐慌。此外,美国...
123