标签:Transformer

原作者带队,LSTM卷土重来之Vision-LSTM出世

在人工智能领域,一种名为Vision-LSTM (ViL) 的新型模型正在挑战现有的Vision Transformer (ViT) 和 Vision-Mamba (Vim) 方法。ViL由ViT的原始创造者Sepp Hochreiter领导的团队开发,它采用扩展长短期记忆(xLSTM)架构,克服了LSTM的传统限制,同时保持了线性复杂性,适用于高分辨率图像任务。与ViT不同,ViL使用交替的mLSTM块处理图像补丁序列,奇数块从上到下,偶数块从下到上,避免了Transformer的二次计算复杂性。 ViL在ImageNet-1K分类任务上的表现优于优化过的ViT模型,尤其是在公平的比较条件下。此外,ViL在语义分割...

效率2倍于Transformer!彩云科技推出全新模型架构,高分登机器学习顶会ICML

彩云科技近期发布了一项创新的AI通用模型结构——DCFormer,它通过改进注意力矩阵,使得在相同的训练数据和算力下,计算效率可提高至Transformer的两倍。DCFormer改变了Transformer中的向量矩阵推理路径,允许任意线性组合,提供了更多的组合可能性。据实验,一个69亿参数的DCFormer模型在某些情况下超越了120亿参数的模型。该模型的论文已在arXiv上发布,并将在ICML 2024大会上正式发表,其源代码、权重和训练数据集也已开源。 DCFormer与现有模型如Mamba、RetNet等不同,它可以叠加在Transformer基础上进行改进,无需从头训...

CVPR‘24:与任务无关的多模态数据也能提升Transformer性能|港中文&腾讯

港中文大学的MMLab与腾讯AI Lab合作的研究揭示了一个令人惊讶的发现,即使用与任务无关的多模态数据可以提升Transformer模型的性能。这种跨模态增益现象表明,即使在训练图像分类模型时,加入视频、音频、点云等非直接相关的数据也能显著提高模型在图像识别上的表现。研究团队提出了一种名为多模态通路(Multimodal Pathway)的框架,利用跨模态重参数化技术,让Transformer在处理特定模态数据时能利用其他模态的无关数据进行训练,且不增加推理成本。实验结果显示,这种方法在图像识别、点云处理、视频理解和音频分析等多个...

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

谷歌近期推出了一项创新技术,名为Infini-attention,极大地扩展了Transformer模型处理长上下文的能力。通过引入压缩记忆,该机制使得1B规模的模型能够处理相当于10部小说的100万token,同时在Passkey检索任务中表现出色。8B模型在500K长度的书籍摘要任务中刷新了最新最优结果。Infini-attention实现了114倍的信息压缩比,允许模型在有限的计算资源下处理无限长度的输入。这种新机制通过固定参数量的压缩记忆来存储和重用上下文信息,降低了内存占用和计算成本。与Transformer-XL相比,Infini-attention能保存更长的上下文,...

国内公司有望做出Sora吗?这支清华系大模型团队给出了希望

国内公司在视频生成领域已有深厚的技术积累,尤其在2023年底,预测视频生成将迎来爆发。然而,OpenAI在春节期间推出了Sora,能生成长达1分钟的流畅视频,引发业界对国内外AI技术差距的担忧。Sora的核心技术是将视觉数据转化为统一的patch表示,结合Transformer和扩散模型,展现出强大的扩展性。清华团队在2022年9月提出的U-ViT与此相似,采用Transformer架构,提高了训练效率,并在多个数据集上进行了实验。 生数科技作为国内领先团队,基于U-ViT架构,开发了多模态模型UniDiffuser,展示出在视觉任务上的优秀性能。尽管Sor...

8/8/6/3的Mamba论文,最终还是被ICLR 2024拒了,网友:悬着的心终于死了

ICLR 2024 拒绝了备受关注的 Mamba 论文,尽管它曾被誉为 Transformer 的强有力挑战者。Mamba,一种选择性状态空间模型,因其在语言建模上的卓越表现和线性扩展能力而受到热议。然而,审稿人指出论文在评估方法上存在问题。主要问题包括缺乏长序列建模基准 LRA 的结果和对困惑度作为主要评估指标的质疑。尽管两位审稿人给予正面评价,但一位资深专家提出,低困惑度不一定代表实际NLP应用的改进。论文在反驳阶段未能充分解决这些问题,导致被拒。这一事件让人联想到十年前 Word2vec 的首次投稿被 ICLR 拒绝,但后来在 NeurIPS...
123