随着人工智能技术的飞速发展,AI翻译工具在各行各业的应用越来越广泛。然而,到底哪家AI翻译工具最出色?终于有人为翻译领域设定了统一标准!首个应用型AI翻译测评榜单TransBench正式上线,由阿里国际AI Business团队联合上海人工智能实验室和北京语言大学共同发布。
与传统翻译评测体系相比,TransBench引入了幻觉率、文化禁忌词、敬语规范等新指标,针对大模型翻译中常见的问题进行实战评估。这些指标来源于真实的使用场景反馈,确保了大模型是否能够满足大规模应用的需求。目前,TransBench评测方法和数据集已全面开源,并发布了首期测评结果。
在TransBench数据集中,涵盖了中、英、法、日、韩、西班牙等多种语言,未来还将不断扩展更多小语种。TransBench评测体系根据“通用标准”、“电商文化”、“文化特性”三大类整理了不同的数据集。
从评测榜单来看,在英语翻译为其他语言的条件下,GPT-4o稳居榜首,DeepL Translate和GPT-4-Turbo紧随其后。而在中文翻译为其他语言的赛道上,GPT-4o依然占据首位,DeepSeek-V3和Claude-3.5-Sonnet位列第二和第三名。
值得一提的是,在文化特性方面,Qwen系列表现优异,Qwen2.5-0.5B-Instruct和Qwen2.5-1.5B-Instruct分别获得第一和第二名。
为了适应AI大模型快速落地的趋势,翻译模型进入了“比谁更好用”的时代。传统的翻译测评维度已经无法满足当前需求,因此阿里国际AI Business团队联合相关机构构建了更全面的评测标准TransBench。它从三大维度重新定义翻译测评:全面的通用标准、行业垂直标准以及跨文化特性标准。
例如,电商场景下的用户投诉通常涉及敬语和禁忌语等问题。这些问题虽然从字面意思上看无误,但会直接影响对话人的体验,应该被纳入到测评范围内。基于真实用户反馈,TransBench的测评体系应运而生。
此外,阿里国际旗下的多个电商平台如Aliexpress、Lazada等覆盖全球200多个国家和地区,多语言翻译成为助力业务发展的重要一环。TransBench的测评方法现已开源,评测结果也将持续更新。
对于有兴趣的同学,阿里国际最近启动的2026届校招中,80%的岗位是AI相关岗位,包括AI算法、研发、AI产品经理等。
本文来源: