机器翻译距今已有70年的发展历史。自上世纪40年代起,基于规则、实例以及统计的机器翻译方法渐次登场,各领风骚。近两年,神经网络机器翻译(Neural Machine Translation, NMT)技术异军突起,取得了翻译质量的大幅跃升。
12月21日,在百度机器翻译技术开放日上,百度技术委员会联席主席、自然语言处理部技术负责人吴华博士表示,基于领先的人工智能、神经网络以及自然语言处理技术,百度早在1年多以前就率先发布了世界上首个互联网NMT系统,引领机器翻译进入神经网络翻译时代。
吴华博士讲解百度机器翻译技术
先发制人:百度率先进入NMT时代
众所周知,一项新的技术从实验室诞生到真正的工业化应用,往往需要很长时间。以统计机器翻译(SMT)为例,它自上世纪90年代初提出,直到15年之后,才出现了第一个基于SMT技术的互联网翻译系统,得到了大规模的应用。
而神经网络翻译技术从2014年9月提出,到百度2015年5月上线首个互联网NMT系统,只用了短短8个月时间。这既体现了百度对于新技术敏锐的洞察力,也体现了百度翻译的雄厚的技术实力。事实证明,NMT这一技术带来了翻译质量的大幅跃升,极大的提升了用户体验。
随后,NMT以惊人的发展速度席卷学术界和工业界。在2016年学术界顶级会议上,几乎全是围绕NMT相关的创新工作,今年9月,谷歌、微软等公司也相继发布NMT系统。
NMT技术缘何受到追捧?据吴华介绍,它克服了传统方法将句子分割为不同片段进行翻译的缺点,而是充分利用上下文信息,对句子进行整体的编码和解码,从而产生更为流畅的译文。
攻坚克难:NMT时代的百度式创新
“上线过程充满挑战,然而,对于每一个难题,我们都率先给出了高效的解决方案”回顾一年多前的上线历程,吴华不无自豪的说。
尽管敏锐地洞察到NMT的优势和潜力,在最初计划上线该技术时,工程师们仍然表示了 担忧。毕竟,线上传统的SMT系统经过长时间打磨,运作良好。而NMT刚刚提出几个月的时间,尽管有优势,但技术本身仍存在诸多缺陷,学术界也对其性能存在争论甚至质疑。更不要提将其发布上线,面对广大的互联网用户了。
“既然我们相信并且验证了它是有用的,我们应该尽快让它上线,提升用户体验”。简单可依赖,百度工程师文化深入大家的骨髓。
彼时,对于NMT面临的多个难题,并无成熟的解决方法。『既要看准方向,又要摸着石头过河』。百度翻译技术人员系统化地提出了一整套解决方案。譬如,通过引入SMT中的特征解决NMT系统集外词(OOV)无法翻译、译文不完整(漏词)的问题,借助算法改进将解码速度提升数十倍;开创性地提出首个基于深度学习的多语言翻译框架,解决数据稀疏问题;同时将模型压缩70倍便于移动用户在本地运行等。
在这一系列努力之下,吴华表示,“百度翻译在中英的测试集上,翻译质量比之前传统的方法提升了7个百分点以上。”而通常,提升1个百分点,效果就非常显著了。2015年5月20日,百度翻译正式上线NMT系统,成为世界范围内第一个真正实用的NMT系统。
随后,在7月份的自然语言处理顶级会议ACL年会上,百度NMT翻译系统又担任了终身成就奖颁奖典礼的实时翻译,在众多世界级专家面前亮相展示。
同年,百度翻译获得了国家科技进步二等奖。百度也成为首个获此殊荣的互联网企业。
服务大众:场景落地与大规模工业化应用
技术最终要服务大众,否则就是镜中月、水中花。在一系列技术创新的同时,百度翻译结合用户真实的使用场景,不断丰富产品功能,优化用户体验。目前,百度翻译支持全球28种语言互译、756个翻译方向,每日响应过亿次的翻译请求。
民警用百度翻译救助外国友人、公交车售票员用百度翻译帮助巴基斯坦小伙子找回失物、游客利用『对话翻译』、『拍照翻译』功能在国外自由沟通等等,都表明了百度翻译越来越多的融入了我们的生活。
此外,百度翻译还开放了API接口,助力广大企业国际化。目前已有超过2万个第三方应用接入。华为、OPPO、中兴、三星等手机厂商,金山词霸、灵格斯词霸、敦煌网等众多产均接入了百度翻译API。世界知识产权组织(WIPO)也将百度翻译API集成到官网,供用户将专利信息翻译成不同语种查询。
砥砺前行:不断创新,扩大领先优势
“NMT时代我们走在了世界前列,我们需要适应并一直保持领跑者的角色。以前我们是跟跑、并跑,现在我们要带着别人跑”吴华在活动上如是说道。
事实上,这不仅是对机器翻译而言,对于整体的科学技术领域,中国科技企业正逐步摆脱跟跑、并跑角色,开始在国际中担负起领跑重任,并持续保持扩大这种领先优势。