标签:多模态生成

国产AI新突破:GLM-Image基于华为Ascend芯片实现多模态生成与中文图像生成新高度

(由多段落组成): 近日,中国AI领域迎来重磅突破——智谱与华为强强联手,正式发布新一代开源图像生成模型 GLM-Image,这是国内首个完全在国产芯片上训练完成的SOTA级多模态大模型。该模型不仅实现了从底层算力到上层架构的全面自主可控,更在文字渲染、复杂构图和高分辨率输出等关键能力上达到国际领先水平,标志着国产AI生图技术迈入新纪元。 GLM-Image的最大亮点之一在于其卓越的中文文本生成能力,彻底解决了长期以来AI绘图“画得出图、写不对字”的痛点。无论是小红书风格的封面设计、长篇手抄报排版,还是包含大量汉字...

多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」

在多模态生成领域,纯解码器模型通过预测下一个 token 来生成各种模态的新序列,如音频、图像或状态-动作序列。这些模型通常通过词汇扩展技术将多模态表征转化为离散 token,然后在预训练或微调阶段进行跨模态对齐。然而,这种方法存在局限性,如无法处理新模态的添加,且缺乏灵活性,因为添加新模态需要重新训练整个模型。为了解决这些问题,Google DeepMind 提出了一种名为“Zipper”的新型多塔解码器架构。Zipper 由多个独立预训练的单模态解码器组成,能在单一模态中预训练,然后通过交叉注意力机制将这些解码器“压缩”在一...