标签:Transformer

小米语音首席科学家Daniel Povey深度解析:语音识别领域卷完后,Transformer与TTS(文字转语音)技术引领的AI创新及多模态融合将带来哪些新机遇?| 智者访谈

深入探讨AI的未来与多模态融合 近年来,AI技术的快速发展正在改变各行各业。语音、视觉和自然语言处理等多模态能力的融合,正逐步模糊各领域的边界。以Transformer为代表的通用解决方案,正在重塑传统技术领域。在这一变革的关键时期,深耕细分领域的研究者们如何看待这种趋势?本期《智者访谈》邀请了著名开源语音识别项目Kaldi的创始人、小米集团语音首席科学家Daniel Povey博士,分享他对AI领域的深刻见解。 Kaldi之后的新探索 Povey博士指出,语音技术虽然取得了显著进展,但已进入一个相对低谷期。他目前更关注文字转...

庆祝ChatGPT发布2周年,深入解析OpenAI的GPT-1到Transformer技术演进及GPU的应用影响

导语 尽管ChatGPT在全球范围内掀起了AI革命,但很少有人了解其背后的诞生故事。近日,湛庐文化推出了一本关于“ChatGPT之父”山姆·奥尔特曼的新传记《奥尔特曼传》。本书作者周恒星基于与奥尔特曼长达十年的交流,首次全面、近距离地揭秘了这位科技巨头的AI帝国、权力之路和未来蓝图。在ChatGPT发布两周年之际,让我们一起走进书中的世界,跟随奥尔特曼的脚步,探寻GPT模型“从零到一”的诞生历程,致敬那些在创新道路上勇往直前的探索者们! 01 西部世界 2016年初的硅谷,空气中弥漫着焦虑的气息。科技公司IPO比例跌至过去七...

全球首款AI游戏Oasis问世,每帧均由Transformer实时生成,Etched技术打造极致体验!

欢迎来到 Transformer 的世界。两个月前,谷歌的 GameNGen 彻底颠覆了我们对 AI 游戏的认知。这项历史性的突破意味着,未来的游戏将不再依赖于传统的游戏引擎,而是基于扩散模型,实时生成可玩的游戏。GameNGen 的问世,使得开发者无需手动编程,全球价值 2000 亿美元的游戏产业将迎来重大变革。无论是何种类型的游戏,都能根据玩家的想法和需求,创造出独一无二的游戏世界。这一消息迅速在 AI 圈内引起轰动。当时,游戏界最热门的话题除了《黑神话:悟空》,就是米哈游创始人蔡浩宇的犀利观点:「AI 将颠覆游戏开发,建议大...

国防科大提出灵巧手抓取策略迁移新方案:智能图形学与Transformer助力泛化能力提升

本文介绍的是国防科技大学智能图形计算团队在智能图形学、具身智能、机器学习及三维视觉等方面的研究成果。该团队拥有众多国家级人才,长期致力于数据驱动三维感知、建模与交互的研究,并在国际上发表了大量高质量论文,荣获多个奖项。 在机器人操作领域,抓取任务一直是核心难题之一。该任务的目标是使机械手准确地移动到指定位置并成功抓取物体。近年来,基于学习的方法显著提升了对不同物体抓取的泛化能力,但在灵巧手(多指机械手)上的泛化研究相对较少。由于灵巧手在结构和几何上有很大差异,抓取策略难以在不同灵巧...

南农、国防科大与苏大联合发布:基于Microscopic-Mamba的显微图像分类新方法——运用CNN与Transformer结合MIFA模块实现87.6%高准确率

在医学显微图像分类(MIC)领域,基于卷积神经网络(CNN)和 Transformer 的模型已经取得了广泛的研究成果。然而,CNN 在建模长距离依赖关系方面存在不足,而 Transformer 则受限于较高的计算复杂度。为了克服这些挑战,南京农业大学、国防科技大学、湘潭大学、南京邮电大学和苏州大学的研究团队共同开发了一种新的架构——Microscopic-Mamba。 Microscopic-Mamba 采用 Mamba 架构,旨在通过结合 CNN 的局部特征提取能力和状态空间模型(SSM)的全局依赖关系建模能力,改进显微图像分类的效果。研究团队设计了部分选择前馈网...

杰夫·迪安回忆Google Brain历程:吴恩达的激励与Hinton在团队中的贡献及Transformer与强化学习的影响

1999年8月,杰夫·迪安(Jeff Dean)加入了谷歌,成为该公司早期第20号员工。2011年,他参与创立了Google Brain团队,专注于智能机器领域的发展。自那时起,他的工作重心转向了人工智能(AI)和机器学习(ML)的研究、系统和应用,并引领了更广泛的AI/ML和计算机科学研究社区的发展。2020年12月,杰夫·迪安获得了2021年度IEEE冯诺依曼奖,以表彰他在大规模分布式计算机系统和人工智能系统科学与工程方面的贡献。2023年4月,谷歌宣布将旗下的Google Brain和DeepMind合并,成立了Google DeepMind。杰夫·迪安成为了该部门的首席...

姚班马腾宇等数学证明:思维链与Transformer结合,通过布尔电路实现图灵完备,推理Token无上限,轻松解决复杂问题

引言 最近,来自清华大学姚班的李志远、Hong Liu、Google Brain推理团队创始人Denny Zhou以及斯坦福大学助理教授马腾宇共同发表了一篇论文,揭示了Transformer在推理能力方面的巨大潜力。这篇论文已经入选ICLR 2024会议,通过严谨的数学证明,展示了思维链(CoT)能够显著提升Transformer的表达能力和解决问题的能力。研究发现,只要思维链足够长,Transformer就能够解决任何由大小为T的布尔电路解决的问题。 思维链(CoT)的重要性 论文首先通过理论分析指出,对于固定深度、多项式宽度、常数精度的Transformer模型,如果...

港大发布OpenCity:利用Transformer与图神经网络实现智慧城市的交通预测与零样本预测的新突破

精确的交通预测与城市规划 精确的交通预测对于实现高效的城市规划和交通管理至关重要,有助于优化资源分配并改善出行体验。然而,现有的预测模型在面对未知区域和城市的零样本预测任务,以及长期预测时,表现并不理想。这些问题主要源于交通数据在空间和时间上的异质性以及显著的分布变化。为了解决这些挑战,我们开发了一个多功能、强鲁棒性和高适应性的时空基础模型——OpenCity。 OpenCity的设计与特点 OpenCity结合了Transformer和图神经网络,以捕捉和规范来自不同数据源的潜在时空模式,从而增强在不同城市环境中的零...

北大王立威解析:从理论视角审视大模型与Transformer,探索人工智能的聪明与愚蠢之谜 | 智者访谈

人工智能的卓越发展与洞察 人工智能的快速发展得益于对技术和产业本质的深刻洞察。机器之心推出全新视频栏目“智者访谈”,邀请领域内的专家,解析AI核心技术与行业趋势,为从业者提供深入的认知,激发创新思考。本期节目邀请了北京大学智能学院教授王立威,探讨机器学习理论对AI未来发展的深远影响。 市场对AI泡沫破裂的担忧 近期美股科技巨头市值大幅缩水,引发了市场对AI泡沫破裂的担忧,特别是在大模型领域。尽管当前AI成果令人惊叹,但其过程中的诸多问题仍需解决。大语言模型(LLM)的通用能力是一个意外收获,Transf...

TransFusion: Meta Unifies Language and Image with Transformer and Diffusion for Multi-Modal AI Dominance

Meta发布TransFusion:统一文本与图像生成的多模态AI模型 # 随着人工智能领域的不断发展,Meta近日推出了一款名为TransFusion的新型多模态AI模型,该模型能够在单一框架内同时生成高质量的文本和图像。这款模型通过巧妙地结合Transformer和扩散模型的优点,为构建真正意义上的多模态AI模型开辟了新的路径。 TransFusion的核心创新在于:它将语言建模(下一个token预测)与扩散模型相结合,实现了在混合模态序列上训练单个Transformer的目标。研究团队从零开始,在混合文本和图像数据上预训练了一个参数量高达70亿的TransF...
123