微信号:programmer_club

介绍:程序员第一自媒体,与你探讨码农人生路上遇到的各类泛技术话题,定期为你推荐码农人生思考、感悟以及启迪!

从微软出来的这个技术团队,要做“智能文字”

2017-10-02 21:00 节日快乐

蓦然认知的CEO戴帅湘,是前百度主任架构师;

若说它们共同的基因,无疑都是学院派天之骄子带领的技术创业。过去一年,IT耳朵采访了超过50家人工智能领域的企业,我们能够体会到人工智能领域中国的技术大牛很多。可以想象,在人工智能引领的第四次工业革命中,我们将见证这些技术创业企业的崛起。

耳朵君在三楼见到了爱特曼的 COO 阮晓峰。作为一位70后,阮总也是眼镜 工程范,说话速度很快,但还好,采访过程中他没有完全从技术角度作答,因此整个采访还算顺利。他解释到,之前马磊在接受一些媒体采访或者跟投资机构交流的过程中,谈到技术方面的时候,经常遇到沟通困难。

CEO马磊以及CTO刘炜都是来自于微软的技术团队,谈起创业契机,其实和许多的AI初创公司类似。2015年的时候,语音和图像技术公司都很活跃,马磊感觉人工智能风口起来了,于是说服了在bing带团队的刘炜,一起出来创业。

为什么选择做智能翻译?

用阮晓峰的解释就是:发展前景空间大;通过垂直领域避开巨头;用技术对现有行业“降维”创新。

马磊认为谷歌、微软、Facebook在翻译领域已经很强,他深信未来三到五年,AI将在智能翻译领域取得重大技术突破,因为距上一次谷歌机器翻译取得的技术突破,已经经过了十年。

机器翻译的历史经历了两个阶段。

第一个阶段是分词算法,通过事先在机器中灌输大量语法和词汇,然后按照句子进行对照翻译,这与语音识别早期切分音节较为类似。

第二阶段是2004年,谷歌开发了“语义相似度算法”,先往机器里输入大量文本文字,再比对平行语句库找出无数相互关系,通过穷举得出最佳翻译结果。

另一个重要组成部分则是术语管理。广义的说,翻译中出现的任何词汇,如果有重复使用的必要,都可以作为术语进行保存,保存的术语集合则成为术语库。术语库也可以重复利用,不仅仅是在本次翻译,还可以在以后的项目或其他人的翻译工作中重复使用,不但提高工作效率,更重要的是解决翻译一致性问题。

爱特曼开发的在线CAT系统,通过对海量文件的整理,建立内容记忆库,术语库,这些数据库的整理,以此来提高翻译效率。爱特曼在医药、科技、法律、时政新闻、专利,这五个垂直领域逐渐建立了自己的优势。并推出了TransGod企业版和个人版。

在阮晓峰看来,智能翻译在TO B端的需求在于,

第一,数据安全需求。有许多跨国企业在翻译文件的时候,有保证其商业秘密的需求。比如,专业代理海外技术专利的翻译,新药申请的翻译。这些翻译系统不能用谷歌这种大众翻译平台,而只能将翻译系统建立在内网。

第二,定制需求。

很明显,大平台不会针对个别用户定制。而爱特曼可以根据客户自身的数据,进行二次开发和整合,以此来提升翻译准确率。

此外,爱特曼的CAT系统还有两个优势,其一是文件格式的转换。将各种格式的文件,在翻译的时候,在爱特曼的平台上统一格式;其二是,爱特曼的CAT系统可以处理多人协同翻译。


阮晓峰说,翻译行业是一个很苦逼的行业。许多译者早上一起来,就欠甲方数千字的译稿;另一方面,他们对于跨行业和新兴的词汇,缺乏学习时间。

专业翻译学校出来的人才只有不超过10%的会进入翻译行业,很多优秀的译者流失了,这是一个净流出的行业。(尽管阮再三说这个不提也罢,但同是文字民工,耳朵君感同身受。)

传统翻译的流程是:翻译材料,校正稿件。而由于准确率问题,目前智能翻译的工作只能是翻译材料,校正稿件还需要人为。

所以,正如爱特曼的slogan“让译者有尊严”,人工智能技术是解放译者,把低技术含量,重复性的工作交给爱特曼的TransGod,让译者做更专业的事,同时有更多的时间来提高专业程度,学习更多领域的专业翻译知识。

阮晓峰提到一个案例:爱特曼的某个译者用户采用TransGod之后,翻译一篇5000字的内容,只用两个小时,而平时需要4个小时以上。

另一个则是TO B的案例:某个跨国药企,它们的翻译中心业务需求特别大。经过对国内几个翻译公司在数据安全和机器翻译的效率以及完整的开发能力这几个方面进行对比、评测,最终选择了爱特曼。而爱特曼将利用其百万级别的数据,定制开发内网机器翻译系统。



3
“文字智能”才是爱特曼的星辰大海


如果说做智能翻译只是起点,阮晓峰向我们阐述了他们更大的方向:做文字智能。

“文字智能”是一个很抽象的概念。它其实是人工智能在语义识别方面的进化。阮晓峰认为文字智能的未来包括不少领域,他举了两个例子:

1、分类。比如一段文字可能涉及:科技、情感、文学、体育……现在的翻译只能翻译表面意思,却无法识别属于哪个范畴,并与之关联。如果人工智能系统如果能做到,就是让“文字”智能化。

2、匹配。两段文字的内涵,如果能够匹配,就可以进一步进行对话、内容推荐和推送。比如,A说关于巴萨和皇马的比赛,B说关于西班牙足球,人工智能可以对两者的语义进一步匹配。

“文字智能”将在许多细分领域被应用。比如,如果某品牌要进入一个全新的国家或者地区,它需要通过收集大量的信息和数据,做当地的舆情分析。这也是“文字智能”可以实现的工作。




编辑 | 码哥

图片源于网络,版权归原作者所有

 
程序员之家 更多文章 印度diss中国?真正的威胁到底是什么? 2017互联网月饼哪家强?腾讯、阿里、百度、网易等21家中秋月饼盘点 抢网易云音乐饭碗?B站正式上线音乐播放器功能 马云又双叒叕搞事情啦!淘宝怎么活! 性奴、割器官,每年至少250万人旅游失踪?他们都去了哪?
猜您喜欢 2013 圣诞狂欢eoer心愿墙及抢楼活动中奖名单公布 重磅:《Python可以这样学》正式出版 浅谈我对DDD领域驱动设计的理解 Atlas支持mysql的prepare特性吗 程序大牛最常用的几个工具