标签:开源

首个OpenAI免费推理模型o3-mini震撼发布!DeepSeek引领AI模型开源新潮流,奥特曼也来反思:不开源我们错了

OpenAI发布首个免费推理模型o3-mini,DeepSeek引发行业反思 近日,OpenAI深夜紧急发布了最新的推理模型系列——o3-mini,其中包括low、medium和high三个版本。这一举措不仅标志着OpenAI首次向用户免费推出推理模型,也引发了业内对开源AI模型的广泛讨论。 一、o3-mini系列的亮点 o3-mini系列旨在推动低成本推理的边界,特别针对STEM(科学、技术、工程、数学)领域进行了优化。从正式版发布来看,它在多个方面表现出色: - 性能提升:相比前一代o1-mini,o3-mini在数学编码上的表现更为出色,响应速度更快,平均响应时间缩...

DeepSeek-R1:中国AI大模型低成本高效训练,开源技术创新引领未来

来自中国的AI大模型DeepSeek-R1震撼全球,成本仅为国外竞品的三十分之一 近日,中国的一家AI创业公司DeepSeek(深度求索)正式发布了其最新的大模型DeepSeek-R1。这款模型在数学、代码和自然语言推理等任务上的表现与OpenAI的o1版本相当,甚至在某些基准测试中略胜一筹。DeepSeek-R1的发布在全球AI圈引起了巨大反响。 在AIME 2024数学基准测试中,DeepSeek-R1取得了79.8%的得分率,而OpenAI-o1为79.2%。在MATH-500基准测试中,DeepSeek-R1的得分率为97.3%,OpenAI-o1为96.4%。在编码任务中,DeepSeek-R1超越了96.3%的人类...

【MiniMax 01首次开源:线性注意力机制助力大模型突破Transformer架构,中国AI Agent震惊海外开发者】

2025年MiniMax再推两大模型,性能与开源引关注 2025年初,中国AI公司MiniMax再次引发行业热议。继2024年公布全模态模型家族后,时隔五个月,MiniMax推出了两款全新的大模型,并且完全开源了模型权重。这两款新模型在性能上与GPT-4o和Claude-3.5-Sonnet相当,尤其在上下文窗口处理能力方面表现出色,处理速度是其他顶尖模型的20至32倍。 更重要的是,MiniMax首次大规模实现了线性注意力机制(Linear Attention),这一机制将传统注意力机制的二次计算复杂度转变为线性复杂度,显著降低了计算复杂度并提升了训练速度。早在20...

AMD发布AMD-135M:开源小型语言模型通过推测解码实现性能提升3.88倍

AMD发布首款小型语言模型AMD-135M 10月1日,快科技报道,AMD正式发布了其首款小型语言模型(SLM),命名为“AMD-135M”。相较于当前日益庞大的大型语言模型(LLM),这款小型语言模型体积更小、灵活性更高,并且具有更强的专业性和隐私保护能力,非常适合企业内部部署。 AMD-135M的两个版本 AMD-135M属于Llama系列模型,共有两个版本:基础型“AMD-Llama-135M”和扩展型“AMD-Llama-135M-code”。基础型“AMD-Llama-135M”拥有6700亿个token,在八块Instinct MIM250 64GB加速器上进行了为期六天的训练。而扩展型“AMD-Llama-135M-c...

寒武纪开源Torch-MLU:实现原生PyTorch支持与大模型一键迁移,助力AI生态发展

今日,寒武纪正式开源了PyTorch设备后端扩展插件Torch-MLU,并实现了对其硬件的原生支持,极大地提升了开发者的使用体验和集成效率。 早在2018年,寒武纪便开始了与PyTorch框架的集成适配工作。从PyTorch 1.3版本开始,寒武纪MLU系列智能加速卡就被纳入PyTorch的加速后端,使得开发者能够高效地将原本基于GPU的深度学习网络迁移到寒武纪MLU平台。 随着PyTorch 2.4版本的发布,结合新版本(≥ V1.22)的Torch-MLU插件,寒武纪硬件实现了对PyTorch的原生支持。现在,开发者不再需要安装定制版的Cambricon PyTorch,只需基于官...

面壁智能推出开源MiniCPM3-4B AI模型:端侧ChatGPT时代正式到来

近日,面壁智能在其官方公众号上宣布推出了全新的开源 MiniCPM3-4B AI 模型,并称这一模型标志着“端侧 ChatGPT 时代”的到来。这款新模型在性能方面超越了 Phi-3.5-mini-Instruct 和 GPT-3.5-Turbo-0125,甚至可以与拥有 70 亿至 90 亿参数的其他 AI 模型相媲美。 相比于前两代产品 MiniCPM1.0 和 MiniCPM2.0,MiniCPM3-4B 在功能和应用范围上有了显著提升。它不仅支持函数调用和代码解释器,还具备更大的词汇量和更长的最大处理长度。以下是三个版本的主要区别: - 词汇量:123K → 73K → 73K - 模型层数:40 → 52 → 62 - ...

李彦宏:无论是否专攻AI领域,所有行业均可融合人工智能 — 百度的开源与闭源AI策略

在第28届百度hackathon黑客马拉松活动中,百度的创始人李彦宏接受了媒体采访,并针对AI时代下的专业选择问题分享了自己的见解。他表示,在当前的AI浪潮下,年轻人不一定非要选择AI作为专业。 李彦宏指出:“实际上,许多专业都与AI有所关联。AI之所以具有巨大的潜力,是因为它几乎可以对所有行业产生深远的影响。”尽管如此,他还是建议学生们应该学习一些AI的基础知识,尤其是与AI相关的新兴思维方式,比如如何运用大模型进行提示词工程等。 值得注意的是,李彦宏一直支持AI大模型的闭源策略,并曾在多个场合发表过相关看法...

阿里开源Qwen2-Audio:全新大模型在语音识别与音频分析超越OpenAI的Whisper!

阿里巴巴推出全新语音模型 Qwen2-Audio:功能与技术解析 近期,阿里巴巴在原有Qwen-Audio基础上,发布了全新升级版语音模型——Qwen2-Audio。这款模型不仅在技术架构上进行了革新,还在功能上实现了突破性的进展,为语音识别和音频分析领域带来了新的可能性。 技术升级与功能拓展 Qwen2-Audio分为基础版和指令微调版,支持多语言和方言识别,包括中文、粤语、法语、英语、日语等,极大地方便了开发者进行翻译和情感分析等工作。该模型采用了自然语言提示的方法,取代了前一代复杂的分层标签系统,简化了训练流程,增强了模...

阿里巴巴开源新模型Qwen2-Math:人工智能领域的数学推理专家,超越GPT-4o,数学能力全球领先!

阿里巴巴发布Qwen2-Math:数学推理领域的全新突破 近期,阿里巴巴宣布开源了一款名为Qwen2-Math的强大数学模型,此模型旨在为数学推理领域带来革命性的进展。Qwen2-Math提供基础和指令微调两个版本,并包含了1.5B、7B和72B三种不同规模的参数配置。经过主流数学基准测试验证,Qwen2-Math-72B指令微调版展现出了超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro等知名闭源模型的卓越性能,甚至在与Meta的Llama-3.1-405B模型的竞争中也占据优势。这一成就确立了Qwen2-Math-72B在全球数学推理领域的领先地位。 基础模型的深度...

智谱AI的国产Sora视频生成模型开源发布!CogVideoX-2B优化至18G,单张4090显卡即可运行

智东西8月6日报道,智谱AI发布了其视频生成模型CogVideoX-2B的开源版本,这一消息无疑为业界带来了振奋。该模型已在GitHub和Hugging Face平台上线,支持FP16精度下的高效运行,显著降低了硬件门槛——仅需配备18GB显存即可进行推理,而微调所需显存也不过40GB,这意味着单张4090或A6000显卡就能胜任相应任务。 核心特点 - 提示词限制:CogVideoX-2B支持最多226个token的提示词; - 输出规格:生成视频长度为6秒,帧率为8帧/秒,分辨率为720 * 480; - 未来规划:计划发布性能更优、参数量更大的版本。 性能表现 根据相关论...
1234