国产AI新突破:GLM-Image基于华为Ascend芯片实现多模态生成与中文图像生成新高度

(由多段落组成):

近日,中国AI领域迎来重磅突破——智谱与华为强强联手,正式发布新一代开源图像生成模型 GLM-Image,这是国内首个完全在国产芯片上训练完成的SOTA级多模态大模型。该模型不仅实现了从底层算力到上层架构的全面自主可控,更在文字渲染、复杂构图和高分辨率输出等关键能力上达到国际领先水平,标志着国产AI生图技术迈入新纪元。

GLM-Image的最大亮点之一在于其卓越的中文文本生成能力,彻底解决了长期以来AI绘图“画得出图、写不对字”的痛点。无论是小红书风格的封面设计、长篇手抄报排版,还是包含大量汉字的海报文案,它都能精准还原字体结构与语义表达。在权威评测集CVTG-2K和LongText-Bench中,GLM-Image以0.9116的文字准确率和接近满分的归一化编辑距离(NED),稳居开源模型榜首,尤其在中英文混合排版任务中表现尤为突出。

除了强大的语言理解力,GLM-Image还具备出色的视觉创作能力。用户只需输入一段详细的Prompt,即可生成极具艺术感的商业广告、社交媒体封面或电影质感的人物写真。例如,在生成带有东方禅意的摄影大片时,模型能准确捕捉“浓雾弥漫”“负空间留白”“黄昏都市光轨”等抽象描述,并将标语“流光过隙,我自静观”自然融入画面,实现图文高度融合。而在白酒品牌宣传场景中,也能将“松酒”二字优雅嵌入瓶身,展现深厚的国风美学功底。

技术层面,GLM-Image采用创新的“自回归+扩散解码器”混合架构。其中,一个90亿参数的自回归模型作为“大脑”,负责解析复杂指令并规划整体布局;而70亿参数的DiT扩散解码器则充当“画笔”,精细绘制纹理、光影与细节。这种分工协作机制,既保证了对Prompt的高度理解,又兼顾了图像质量与生成效率,是其能在多项基准测试中登顶的关键所在。

尤为值得关注的是,整个训练过程全程运行于华为Ascend A2芯片之上,依托昇思MindSpore框架与深度优化的Mindspeed-LLM系统,实现了从数据预处理、大规模预训练到强化学习微调(RLHF)的全链路国产化。团队针对国产芯片特性进行了算子级重构,提升了通信带宽利用率与集群稳定性,成功克服了传统国产硬件在训练超大模型时易出现梯度不稳定、推理延迟高等问题,验证了国产算力支撑前沿AI研发的可行性。

此外,GLM-Image原生支持从1024×1024到2048×2048任意比例输出,无需裁剪或重绘即可生成横幅、竖屏、超长图等多种格式,极大提升了实用性。更重要的是,其API调用成本低至每张图仅需0.1元,性价比远超同类国际产品,为中小企业、自媒体创作者及开发者提供了低成本接入高质量AI图像生成能力的新选择。

此次GLM-Image的开源发布,不仅是技术上的重大突破,更是国产AI生态自信的体现。它打破了国外在高端AI模型与算力垄断的局面,通过开放模型权重、训练架构与部署方案,推动国内多模态生成技术的普惠化发展。无论你是想打造个性化社交,还是构建自动化营销工具,GLM-Image都已成为值得信赖的“国产之光”。即刻体验请访问官方平台:[BigModel](https://docs.bigmodel.cn)、[GitHub](https://github.com/zai-org/GLM-Image)、[Hugging Face](https://huggingface.co/zai-org/GLM-Image) 或 [魔搭社区](https://modelscope.cn/models/ZhipuAI/GLM-Image)。

本文来源: 量子位【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...