落地机器翻译服务,「Atman」推出TransGod翻译工具

石亚琼36氪@123·2017-09-29 12:07
技术的进步及廉价化,则有可能激发被压抑的翻译需求

数据显示,2014年全球翻译行业市场规模大达到371.9亿美元,同比增长6.23%,预计2020年将达到530亿美元左右。近年来,随着算力的大幅提升,大型语料库、记忆库的出现,深度学习算法成熟,机器翻译技术出现了长足进步。利用机器翻译相关技术以提升人类译者的工作效率成为可能。

我们此前报道的国内初创公司Atman就在做机器翻译技术及应用方向的创新。近期,公司已经对外推出了落地产品TransGod(个人版https://transgod.cn/;企业版 https://transgod.cn/enterprise)。

Atman 成立于2016年年中,团队早期成员主要来自微软亚研院和微软搜索技术中心,主要提供基于深度学习的神经网络机器翻译服务。2016年秋季接受36氪采访时,已经完成了基础的机器翻译模型研发,在时政领域其模型进行BLEU评分测试(国际上通用的客观评测机器翻译质量的指标),分数达到了52.53分,要高于微软、Google、百度等知名大公司(一般说来,在一个专业领域,人工翻译的得分在65-70分之间)。

翻译结果的提升,与团队的研发能力和经验、 研发策略密不可分。Atman的早期团队成员基本都有大数据和大搜索的相关背景,在构建超大规模在线服务方面积累了经验。CEO马磊在微软研究院和微软搜索技术中心都供职过,担任微软对话、输入改错、内容抽取等相关产品架构师,专长是机器学习。CTO刘炜毕业于北大电子系,在微软时加入的就是搜索引擎的相关性团队。

Atman采用了目前国际上普遍认可的基于深度学习的神经网络机器翻译算法,这一算法目前已经被Google、Facebook、有道、搜狗等公司采用,并提升了翻译的效果。与其他深度学习算法类似,为了解决数据稀缺的难题,Atman尝试了一条“开源节流”的道路:一方面,通过和语料数据提供商的广泛合作(如最近与TMXMall达成的战略合作)快速获得语料数据的使用权;另一方面,在数据的使用上进行技术创新,利用GAN等算法,深度挖掘使用数据,提升数据使用效率,达到基于更少的数据获得更好的机器翻译质量的目标。

具体的研发策略上,团队认为一个统一的翻译模型可能很难适用所有领域,因此会针对不同的专业领域开发不同的翻译模型。一般来说,进入一个新的领域大约需要2周时间。此前接受36氪采访时,Atman解释,这是因为团队做了通用的机器翻译模型,代码框架也是通用的,进入新的领域主要需要通过新的语料素材训练,实现周期可以做到两周。

过去的半年多时间中,Atman 的一个工作就是在时政之外拓展新的垂直领域。具体领域的选择会结合用户的需求,目前主要包括科技、医疗、法律、时政、专利等。团队表示,在医疗领域,客户主导的BLEU评分高出市面可获得最好系统10+点;在新闻领域,中标重量级媒体客户参考消息。

技术研发之外,Atman也在将技术产品化,开发了名为TransGod的在线机器翻译工具。这款工具覆盖全翻译流程,包括译前分析、格式排版预处理、机器翻译、译后编译、审校、格式排版等环节,同时可以实现轻量级项目管理、语言资产管理的功能。相比于普通的翻译工具,增加了格式预处理、机器翻译的功能点。语种方面,目前主要为外文译中文。

其中,机器翻译方面,系统可以逐句给出自动翻译的结果。为了方便译者使用,不仅集成了Atman自己的翻译服务,也整合了Google、百度的翻译结果,译者可以在三选一,其中使用Atman翻译引擎的自动翻译结果会标注出系统评级(包括好、一般)。读者可以在机器翻译的基础之上,进行人工修订,并进行标记。

36氪也试用了产品,随机翻译了几篇文章。一篇1200字左右的文章,机器自动翻译的结果在半分钟内。其中,语句英译中翻译的流畅度方面Atman优于百度、Google;一篇关于利用比特币构建全球超级计算机的文章,相对简单的语句可以直接使用,包含专业术语的长句翻译的流畅度低于Google,优于百度。

目前,TransGod共分为企业版和个人版。个人版是在线SaaS服务,用户端的界面是一个在线翻译工具。官方表示,目前支持9种文件格式、30个垂直领域、70个专业领域、100种语言。现阶段产品为免费试用,未来有可能按字数收费,收费标准不高于8元/千字。团队测算,当前市面上普通译者的收入约为每千字80元左右,使用TransGod可以缩短翻译的时间,整体上会提升译者的收入,因此这个价格比较容易被接受。

TransGod的企业版依据企业的规模、需求、类型分为私有部署方案和SaaS部署方案。大型企业一般会特别看重数据的安全性和新系统与自身业务的融合,且能够使用自有的个性化数据进行模型训练,因而更倾向于定制化开发的私有部署方案。私有部署方案是专为对数据安全有高度保密需求的客户提供的定制化部署方案,同时可以充分利用客户自有的个性化数据进行模型训练。该方案还可为用户定期升级机器翻译系统,升级过程也在用户内部完成。中型客户对数据安全有需求,但定制化的需求不强,一般以部署机器翻译服务器为主。

深度定制的私有部署方案方面,主要与细分领域的排名靠前的客户合作。目前已经落地的领域包括医药行业、媒体行业。以医药行业为例,虽然客户内部的翻译团队有一定规模,有多年积累,在翻译的准确性、专业性、规范性上经验丰富。但这样强大的团队在面临大量文件的格式转换、译前分析、译后排版等众多环节,人工效率无法满足,而定制机器翻译模型后,收到了很好效果。

机器翻译是人工智能领域的热门方向,但是进展一直不够明显,直到神经网络机器翻译算法出现,翻译的效果才获得了大幅提升,于是巨头纷纷涌入,国外方面Google、微软都推出了相应的算法及翻译服务,国内方面百度、搜狗、网易、科大讯飞、有道等也频频秀技。这种竞争态势,从论文数量就可见一斑。根据新智元统计,在arXiv.org存储库中,涉及NMT(神经网络翻译)的论文2014年为7篇,2015年为11篇,2016年达到67篇。

一方面是技术不断进步,一方面是商业化的需求逐渐显现。当前市面上的机器翻译服务多以免费为主,还很难直接统计机器翻译产生的经济价值,有道是为数不多对外公开了相关数据的厂商。不过, 此前有道接受36氪采访时曾表示,由机器先做翻译,人工翻译员做后续的审核和润色,人工需要付出的时间和精力由此缩减了50%,价格也降低了一半。而技术的进步,则有可能激发被压抑的翻译需求,网易有道官方提供的数据显示,有道翻译官在去年一年的使用量呈现出三倍的提升。

+1
0

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

婚礼行业人才匮乏,为人才预留出足够空间,才能实现人才变现。

2017-09-29

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业