深度学习赋能手语翻译:谷歌DeepMind推出多模态模型SignGemma,革新医疗AI与海豚声音分析领域

近年来,AI技术在跨语言和跨模态翻译领域取得了显著进展。2023年5月31日,谷歌旗下的DeepMind团队宣布推出了一款名为SignGemma的手语翻译模型。这款模型是目前最先进的手语识别与翻译工具之一,能够将手语转化为口语化的文本输出。据官方透露,SignGemma将在今年晚些时候作为开源项目加入到Gemma模型家族中。

值得一提的是,SignGemma主要针对美国手语(ASL)和英语进行了深度优化,并支持多语言功能。由于其开源特性,开发者可以自由使用并进一步改进该模型。DeepMind希望通过这项技术帮助手语使用者打破沟通障碍,在工作、学习以及社交场合中实现更加顺畅的交流体验。

除了SignGemma之外,DeepMind还推出了另一款多功能模型——Gemma 3n。这款模型支持从音频、图像、视频及文本等多种输入形式生成智能文本,为开发者提供了打造实时互动应用的可能性。此外,谷歌联合佐治亚理工学院与Wild Dolphin Project共同开发了DolphinGemma模型,该模型基于巴哈马大西洋斑点海豚的长期研究数据,用于分析和生成海豚的声音信号。

在医疗领域,DeepMind同样取得了突破性进展。MedGemma作为Gemma 3家族的新成员,专注于医疗人工智能方向的应用。它不仅可以辅助临床推理,还能进行医学影像分析,从而加速医疗行业与人工智能技术的深度融合与创新。

需要说明的是,本文中包含的对外跳转链接(包括但不限于超链接、二维码等形式),旨在提供更多相关信息以节省用户甄选时间,具体结果仅供参考。IT之家所有文章均附带此声明。

本文来源: IT之家【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...