做AI自媒体的从业者,阅读前沿学术论文并不断学习以完善自己的知识体系是不可或缺的一部分。为了跟上时代的发展步伐,我们往往需要全力以赴才能不被淘汰。然而,不得不承认的是,我的英语水平实在有限,最熟悉的英语表达可能就是那句“I’m fine, thank you. And you?”了。
在研究各类文献的过程中,尽管有大模型辅助翻译,但依然面临诸多挑战。例如,昨天豆包分享了一篇关于AI图像处理的论文。我尝试回顾他们之前发布的SeedEdit论文进行对比学习时发现,这类论文通常逻辑紧密且包含大量高度专业化的术语和学术用语,如“Out-of-Domain (OOD)”和“DiT架构”等。
即使借助沉浸式翻译工具以及OpenAI或DeepL的API,面对复杂的专业术语搭配冗长的句子结构时,仍然感到困惑。很多时候,这些工具对专业术语强行翻译,导致译文晦涩难懂,对于非专业人士而言尤其费解。
最近,我偶然看到了一篇由玉渊潭天制作的关于AI翻译质量的深度分析文章,非常精彩。受此启发,我也决定亲自测试一下不同大模型的翻译表现,看看哪一款在特定场景下具有最佳的翻译效果。
经过两天的努力,我和团队测试了多款模型,并得出了结论:网易有道推出的子曰翻译2.0版本表现出色,超越了其他竞争对手。我们的评测主要基于两个维度展开:
1. 说人话:翻译结果应符合中国人的语言习惯。
2. 没活别瞎翻:对于不确定的,可以不翻译,但绝不应强行翻译。
参与测试的选手包括海外的Grok3、ChatGPT-4o、Claude3.7和Gemini2,以及国内的DeepSeek R1、智谱GLM-4、有道子曰翻译2.0和通义千问Qwen2.5-Max。
首先,我们选取了SeedEdit论文中的一个复杂段落作为第一道测试题。结果显示,国产模型中,通义千问Qwen和智谱GLM在“说人话”方面还需改进,句子结构较为混乱。相比之下,有道子曰翻译2.0的表现更为出色,主语使用合理,避免了重复代词的问题。
而在“没活别瞎翻”这一指标上,有道子曰翻译2.0和DeepSeek表现较好,能够准确保留专业术语而不强行翻译。相比之下,部分模型如Qwen对“Out-of-Domain (OOD) test”的翻译出现了偏差。
国外模型在英译中方面的表现整体稍逊一筹,存在明显的“英式中文”痕迹。其中,ChatGPT-4o的翻译最为清晰准确,而Gemini和Claude则略显生硬。
接下来,我们测试了图注的翻译能力。从经典论文《Attention is all you need》中选取的一段图注显示,各模型在处理隐性语境限制时表现各异。有道子曰翻译2.0再次展现出简洁规范的特点,但在某些细节上仍需优化。
最后,我们测试了嵌入数学公式的文本翻译。总体来看,各模型在处理数学符号时表现良好,但有道子曰翻译2.0和DeepSeek在技术性的表达上更具优势。
综合来看,有道子曰翻译2.0在“说人话”和“没活别瞎翻”两方面均表现出色。然而,由于缺乏浏览器插件支持,使用体验受到一定限制。为解决这一问题,我自行开发了一个简易插件,方便在浏览英文文献时实时调用有道子曰翻译2.0的API进行翻译。
希望未来相关厂商能推出更完善的解决方案,进一步提升用户体验。
本文来源: