深度学习赋能手语翻译：谷歌DeepMind推出多模态模型SignGemma，革新医疗AI与海豚声音分析领域

每日AI快讯1年前 (2025)发布 AI部落小助手

近年来，AI技术在跨语言和跨模态翻译领域取得了显著进展。2023年5月31日，谷歌旗下的DeepMind团队宣布推出了一款名为SignGemma的手语翻译模型。这款模型是目前最先进的手语识别与翻译工具之一，能够将手语转化为口语化的文本输出。据官方透露，SignGemma将在今年晚些时候作为开源项目加入到Gemma模型家族中。

值得一提的是，SignGemma主要针对美国手语（ASL）和英语进行了深度优化，并支持多语言功能。由于其开源特性，开发者可以自由使用并进一步改进该模型。DeepMind希望通过这项技术帮助手语使用者打破沟通障碍，在工作、学习以及社交场合中实现更加顺畅的交流体验。

除了SignGemma之外，DeepMind还推出了另一款多功能模型——Gemma 3n。这款模型支持从音频、图像、视频及文本等多种输入形式生成智能文本，为开发者提供了打造实时互动应用的可能性。此外，谷歌联合佐治亚理工学院与Wild Dolphin Project共同开发了DolphinGemma模型，该模型基于巴哈马大西洋斑点海豚的长期研究数据，用于分析和生成海豚的声音信号。

在医疗领域，DeepMind同样取得了突破性进展。MedGemma作为Gemma 3家族的新成员，专注于医疗人工智能方向的应用。它不仅可以辅助临床推理，还能进行医学影像分析，从而加速医疗行业与人工智能技术的深度融合与创新。

需要说明的是，本文中包含的对外跳转链接（包括但不限于超链接、二维码等形式），旨在提供更多相关信息以节省用户甄选时间，具体结果仅供参考。IT之家所有文章均附带此声明。

本文来源：