跨境电商的蓬勃发展也给商家带来了新的挑战。以阿里巴巴国际站为例,虽然七成买家使用英语,但剩余三分之一的小语种却让平台上约96%的卖家望而生畏。

“糟糕的翻译和本地化都表明企业对海外市场不够重视,何谈品牌出海?”李兮芝直言不讳,这位阿里巴巴国际贸易事业部(ICBU)阿里语言服务总经理对商家的痛点了如指掌。每当谈到最棘手的案例,他都会立马起身,拿起一支笔,在会议室的白板上演示。

阿里巴巴国际站用户沟通语言现状

坐在李兮芝身旁的骆卫华语速要慢得多。2014年1月,出身中科院计算所的骆卫华加入阿里,现任阿里巴巴达摩院翻译平台负责人。

今年5月,在全球机器翻译领域最具影响力、水平最高的WMT2018评测中,骆卫华带领的翻译技术团队一举拿下5个语言方向的冠军,成为比赛的最大赢家。

与谷歌、微软、百度等无场景之分的通用翻译不同,阿里选择专注于电商场景的翻译。目前,阿里机器翻译已支持21个语种的48个语言方向的翻译,日均使用量已达7.5亿次。除了支持离线及文字翻译,还支持实时语音、图片以及视频翻译,应用于阿里巴巴国际站、速卖通、LAZADA、菜鸟、阿里云、钉钉、飞猪等40多个业务部门。

“现阶段,我们要把机器翻译在电商场景中做到极致。”骆卫华表示,但未来并不局限于电商翻译。

暗潮涌动的“军备竞赛”

《圣经》旧约中,人类联合起来建造通往天堂的高塔,上帝为了阻止这一计划,让人类说上不同的语言。不久之后,无法沟通的人类便四散而去。

回溯机器翻译的起源,不难发现,这是一场为了再造《圣经》中“通天塔”而展开的“军备竞赛”。

冷战时期,苏联和美国的科学家都在机器翻译上进行了诸多较量。当时,机器翻译领域的主角是精通英俄双语的语言学家,他们试图为计算机编写出一套双语规则。“规则与规则之间存在大量冲突,在实际应用中会出现大量异常情况”,骆卫华无奈的说。

很长一段时间,机器翻译都受限于编写规则的困境中,直到上世纪90年代,IBM Watson研究中心提出的统计机器翻译才取而代之,程序员开始取代语言学家,成为机器翻译领域的主导力量。

2014年,蒙特利尔大学计算机系博士后Kyunghyun Cho等人关于将人工智能底层模型“神经网络”应用于机器翻译的论文,再次吹响了翻译技术革命的号角。这一年,各大互联网公司开始大举投入,诸多优秀的学者和学生陆续加入谷歌、亚马逊、脸谱和BAT。

在中科院学习和工作近12年的骆卫华,在“纠结一段时间后”,也决定跳出学术圈,选择加入阿里,去实现将技术真正落地的梦想。“之前在实验室的主要任务是发paper(论文),做课题,只有这个领域的人才会关心,但现在每天有几千万人在实际使用你的产品,这种感觉是完全不一样的。”

2014年,骆卫华加入阿里

与大多数在通用翻译领域厮杀的玩家不同,阿里机器翻译团队以核心电商场景为起点,为整个国际化业务提供本地化解决方案。

“项目非常多,得排期。比如,2、3月做钉钉的项目,4、5月要做速卖通项目。”骆卫华说,除此之外,团队还会时不时会接到十万火急的需求。比如,去年双11之后,团队曾用两个星期,与菜鸟团队一起加班加点编写了一套报关自动翻译产品,“后来菜鸟评估说,整个报关成本下降了90%。”

难的不止是翻译

说到机器翻译,除了算法模型,大量的样本数据也是非常重要的。这也是阿里的优势所在。

“举个例子,‘Photo Print’这个词在通用语境下会被翻成‘照片打印’,但你知道它在纺织面料行业里是什么意思吗?”李兮芝接着说,“这是‘热转印印花’工艺的一种,翻成照片打印就貽笑大方了。”

阿里本身沉淀了大量电商领域相关的数据,机器翻译团队进一步梳理出10亿级别的双语平行语料、亿级别的电商双语平行语料、千万级电商知识库,以及大规模行业多语言术语库。

语言上的准确翻译只是第一步,更困难的是通过算法实现文化、法律、经济、宗教等层面的本地化落地。

一个案例让李兮芝印象深刻。“同样是10万,英美国家千位分隔符用逗号,标成‘100,000’;但法国、西班牙的千位

今年4月,中国的男装主打品牌英爵伦在东南亚电商平台Lazada的“淘宝精选”计划中加入了阿里集团,这是一个重要的举措。Lazada通过自动抓取天猫店的产品来协助品牌在东南亚市场的扩张。英爵伦的跨境电商负责人刘晨芳表示:“我们的天猫店商品标题是全中文的,没想到Lazada能将其自动翻译成英文。”刘晨芳还惊讶地说道:“最重要的是,机器自动翻译的英文品牌名‘Enjeolon’和我们真实的英文名一模一样,这真是太神奇了。”

英爵伦发现,品牌名英文名翻译得非常准确。

刘晨芳未曾料到,Lazada的这套自动翻译系统也是由阿里巴巴机器智能翻译团队开发的。这个翻译系统还重新改写了标题,让产品描述更加通俗易懂。

“淘宝商品标题没有固定格式,通常由多个热门搜索词组成,而不是一个完整的句子。如果直接翻译,海外消费者根本看不懂。”李兮芝解释道,这种缺乏上下文信息的标题翻译对人和机器来说都是一个巨大的挑战。“我们曾尝试用专业人工翻译员翻译标题,结果翻了一半就放弃了,完全无法理解。”

后来,通过融合多种自然语言处理和文本生成技术,团队解决了商品标题改写的难题。像英爵伦这样的中国品牌,不必担心他们在Lazada上的东南亚买家因看不懂标题而放弃购买商品。

今年5月,阿里巴巴正式推出了全球电商领域首个实时翻译AI产品。这项名为“无障碍对话”的功能显著提高了阿里巴巴国际站的用户体验。刘晨芳说:“我们期待卖家不再需要雇佣说某一国家语言的专职人员来开展业务。”除了提升用户体验外,阿里机器翻译还为其国际电商平台带来了显著的流量、转化率和购买率增长。

阿里巴巴的实时翻译系统

“机器翻译是一项非常具有挑战性的任务。如果我们真的希望实现全球买卖,就必须付出努力。”刘晨芳表示。

解放而非取代人工翻译

今年5月23日,阿里巴巴达摩院的机器智能-NLP翻译团队首次参加了WMT2018国际机器翻译大赛,并获得了5项冠军,包括英文-中文翻译、英文-俄语互译和英文-土耳其语互译项目。

阿里巴巴达摩院的机器智能-NLP翻译团队

作为全球最权威的机器翻译大赛之一,WMT(Machine Translation Workshop)已经举