标签：性能提升

斯坦福大学AI优化研究突破：深度学习助力生成超强CUDA内核，性能提升显著，华人主创团队成果惊人

斯坦福大学的一项新研究揭示了AI生成的内核在性能上超越了人类专家优化的结果。这些由AI优化的内核在常见的深度学习操作中表现卓越，最高提升了近400%的性能。具体来说，在NVIDIA L40S GPU上的基准测试显示： - 矩阵乘法（Matmul，FP32）：性能达到PyTorch torch.matmul的101.3%。 - 二维卷积（Conv2D）：性能达到torch.nn.Conv2D的179.9%。 - Softmax：性能达到torch.softmax的111.8%。 - 层归一化（LayerNorm）：性能达到torch.nn.LayerNorm的484.4%。 - Conv2D+ReLU+Maxpool组合操作：性能达到PyTorch参考实现的290.1%...

来源：

快科技【阅读原文】
Tags：AI优化 CUDA内核性能提升斯坦福大学深度学习

7个月前

推理模型发展趋缓：强化学习与OpenAI推动性能提升，计算资源成关键因素——Epoch AI预言年内放缓

近年来，AI技术的快速发展引发了全球范围内的关注。非营利性AI研究机构Epoch AI在最近的一份报告中指出，AI企业可能难以通过推理模型持续获得显著的性能提升。据预测，最快在未来一年内，推理模型的进步速度将明显放缓。这份报告基于公开数据和假设分析得出结论，强调了计算资源限制以及研究成本上升对AI行业发展的潜在影响。推理模型作为AI领域的核心技术之一，其兴起主要得益于在特定任务上的卓越表现。例如，OpenAI旗下的o3模型近期在数学和编程能力方面取得了显著进步。这些模型通常通过增加计算资源来解决复杂问题，...

来源：

IT之家【阅读原文】
Tags：OpenAI 强化学习性能提升推理模型计算资源

7个月前

酷睿Ultra 200HX游戏本发布：能效优化飙升40％，AI能力与性能提升全新体验

Intel在3月29日于北京正式推出了基于酷睿Ultra 200HX系列处理器（代号Arrow Lake-HX）以及RTX 50系列显卡的新一代游戏笔记本。这次发布会汇集了来自10家OEM厂商的20款产品，不仅为游戏玩家带来了全新的体验，也为专业创作者提供了更强大的工具。酷睿Ultra 200HX作为Intel重返顶级游戏本市场的关键产品，其性能、能效和扩展性均实现了显著提升，成为游戏本的主流选择。此外，这是首次将完整的AI能力引入到游戏本中，为移动游戏提供独特的AI支持。尽管酷睿Ultra 200HX系列早在CES 2025期间已经发布，但本次发布会的重点在...

来源：

快科技【阅读原文】
Tags：AI能力性能提升游戏本能效优化酷睿Ultra 200HX

9个月前

阿里半夜开源全新推理模型QwQ-32B，基于强化学习与大规模预训练实现性能显著提升，挑战DeepSeek-R1满血版，迈向AGI新征程

阿里发布QwQ-32B：强化学习助力大模型性能突破今天凌晨3点，阿里开源发布了全新推理模型QwQ-32B，该模型参数量为320亿，但其性能足以媲美6710亿参数的DeepSeek-R1满血版。千问团队在推文中表示：“这次，我们研究了扩展强化学习（RL）的方法，并基于我们的Qwen2.5-32B取得了一些令人印象深刻的成果。我们发现，通过持续的RL训练可以显著提高模型性能，尤其是在数学和编码任务上，并且中型模型也能实现与巨型MoE模型相媲美的效果。” QwQ-32B已正式在Hugging Face和ModelScope平台开源，采用Apache 2.0开源协议。用户可以通...

来源：

机器之心【阅读原文】
Tags：AGI QwQ-32B 大规模预训练强化学习性能提升

9个月前

OpenAI重磅发布o3模型，北大校友参与研发，再度突破AI技术与机器学习性能提升极限

OpenAI 发布 o3 系列模型：AI 领域的新里程碑就在刚刚，OpenAI 在年底的 AI 春晚上发布了其最新的 o3 系列模型。作为 o1 的迭代版本，o3 跳过了可能与英国电信运营商 O2 产生版权或商标冲突的「o2」命名，直接采用了「o3」。OpenAI CEO Sam Altman 自嘲公司在模型命名方面的混乱，但这次发布无疑展示了 OpenAI 的技术实力和创新精神。发布会由 Sam Altman、研究高级副总裁 Mark Chen 和研究科学家任泓宇主持。任泓宇本科毕业于北京大学，并在苹果、微软和英伟达有过丰富的研究实习经历，是 GPT-4o 和 o1 的核心开发者之一...

来源：

iFeng科技【阅读原文】
Tags：AI 技术 o3 模型 OpenAI 性能提升机器学习

1年前 (2024)

AMD发布AMD-135M：开源小型语言模型通过推测解码实现性能提升3.88倍

AMD发布首款小型语言模型AMD-135M 10月1日，快科技报道，AMD正式发布了其首款小型语言模型（SLM），命名为“AMD-135M”。相较于当前日益庞大的大型语言模型（LLM），这款小型语言模型体积更小、灵活性更高，并且具有更强的专业性和隐私保护能力，非常适合企业内部部署。 AMD-135M的两个版本 AMD-135M属于Llama系列模型，共有两个版本：基础型“AMD-Llama-135M”和扩展型“AMD-Llama-135M-code”。基础型“AMD-Llama-135M”拥有6700亿个token，在八块Instinct MIM250 64GB加速器上进行了为期六天的训练。而扩展型“AMD-Llama-135M-c...

来源：

iFeng科技【阅读原文】
Tags：AMD-135M 小型语言模型开源性能提升推测解码

1年前 (2024)