微信号:infoqchina

介绍:有内容的技术社区媒体

专访明略数据CTO:打造最易用的跨平台数据整合系统

2015-03-25 11:57 刘羽飞


明略数据是一家聚集了国内顶尖大数据人才的技术型大数据整体解决方案供应商,其从创立之初就秉承着将技术研究落地转化为科技生产力的基本理念,至今已经为银联、中央电视台、中国联通、国美在线、苏宁云商等公司部署了大数据处理平台,并带来了大量的业务创新机会。那么,明略数据是怎样做到这些的?明略数据在技术层面上又具有怎样的过人之处呢?为此,我们请到了明略数据CTO冯是聪博士进行了采访,以便更加深入的了解明略数据的技术特点。


InfoQ:明略推出的大数据平台BDP,对于这个平台我理解的就是很多传统企业比如说银行、政府,这种大型的机构当中,会有很多的分支部门,而部门之间的数据可能会由于种种的历史原因无法进行打通。这些数据,可能它的字段跟描述方式以及存储的格式也是不一样的。那么该如何把这些不同格式、不同表达方式的数据进行打通?是不是BDP这个产品可以实现这样的功能呢?

冯是聪:从技术上讲,对于一些企业、政府机构来说,一定会存在这样的情况,它有不同的数据来源的,不同的数据格式。那么这些数据必然面临着一个问题,就是如何把它们融合在一起,怎么实现数据之间的交互。


这一问题从技术的角度上来看确实具有一定挑战,但明略恰恰就善于解决这种问题。明略BDP中有两个核心模块——Data ONE与SQL ONE。Data ONE采用的是All-In-One模式,无论数据来源是什么,无论是来源于关系型数据,还是来源于非关系型数据库,是NoSQL,还是来源于NewSQL,或是文件系统,这都没有关系。明略会以统一的方式将这些数据放到BDP平台内,通过Data ONE把所有数据统一管理起来。


那么接下来怎么实现数据之间的交互呢?这就需要用到另一个核心模块SQL ONE了。SQL ONE是一个标准的SQL查询引擎。传统的新客户一般对于关系型数据库都非常熟悉,对SQL语句也会非常熟悉。那么当我们提供了SQL ONE这种语言之后,如果客户会操作传统的关系型数据库的话,就可以操作我们所有的文件系统、NoSQL,甚至是NewSQL。SQL ONE可以智能地识别这些数据被物理地存放在Data ONE的哪个子系统中,确定数据是放在关系型数据库,还是放在非关系型数据库,或是放在文件系统中。客户只需要输入一个SQL语句,系统就能自动完成所有的事情,这也是BDP的一个特点之一。


InfoQ:从数据安全问题上来说,不同的行业,不同的企业,对数据安全的审计、审核的标准也不一样,尤其像一些涉及到国计民生的政府机构,他们的数据对安全的要求是非常高的。明略的产品是部署在客户的数据中心当中的,这样从物理上就可以规避一部分安全隐患。那么除此之外,明略还有在安全方面还有哪些不一样的地方?

冯是聪:从目前来讲,在大数据安全这一领域中很多技术都是不太成熟的。从大数据的特点来看,首先数据规模比较庞大,数据内容也比较复杂,再加上各种数据来源,各种数据格式,还要要求统一在大数据平台上进行管理,这些因素导致其对安全技术的要求变得非常高。


明略针对这些问题开发了自己的核心安全组件Acre,在Hadoop平台上首次实现了行列级别的数据安全访问管理。它的核心思想是,可以把任何人操作该数据的历史、权限,包括他的授权认证,全部统一管理起来。


另外在隐私保护方面,明略实现了多种数据脱敏与加密算法,智能地实现了敏感数据的自动脱敏和保护。


InfoQ:您刚才也提到,明略还会在数据价值挖掘上有一些自己的动作,这就可能涉及到机器学习、深度学习,这些现在比较流行的新技术。那么,能否介绍一下明略在这方面的一些研究实践?

冯是聪:机器学习还有数据挖掘是大数据最核心的技术之一。明略的3大核心产品之一的DataInsight就是数据挖掘和机器学习的一个典型的平台。数据挖掘和机器学习在明略实施的几乎每一个项目中都得到了充分地应用,基本上每个项目都会进行一些预测、分类,这些都会用到机器学习里面去,另外像以前机器学习有进度学习、无进度学习、深度学习,这些也都会用到明略的项目里面去。


InfoQ:展望2015年,您认为哪些类型的企业会成为大数据领域的明星企业,或者说哪些企业会有高速的增长空间?能根据您的研究,分享一下您的观点吗?

冯是聪:因为大数据现在已经慢慢被大部分企业或者是政府接受了,它会在很多的领域都得到广泛的应用。从我个人看来,我觉得有两个领域是值得关注的,第一个是金融领域。现在的个人贷、余额宝等金融产品越来越多,因此为了更有效的进行反欺诈,征信系统将会利用更加密切的、彻底的应用大数据技术。


第二个领域是安全领域。安全永远都是一个话题,几乎每一家企业、每一个政府机构都会关心安全问题。数据安全技术没有得到突破的情况下,很多企业和政府是不会轻易的把自己的数据放在云端的。另外现在有的公安机关,甚至军方机构,都开始将大数据安全技术用于追捕或是反恐,这都说明了安全领域将更多的应用大数据技术。


InfoQ:明略的商业模式是很清晰。那么在未来,您更看好是像明略这样的面向企业的On-Premise的商业模式,还是同时还看好别的一些大数据创业公司的商业模式?

冯是聪:对于我自己来讲,我肯定是看好明略的商业模式的。一方面这种模式能够更好的基于客户的不同需求进行定制化开发,另一方面在安全上也更有保障。那些能够跟客户共同成长,能把客户当成伙伴,能够把客户的问题当成自己的问题的那种公司,才能够得到比较迅猛的发展。


大数据的核心在于从数据中挖掘价值。2015年是大数据应用元年,企业将更加关注大数据技术的落地和应用。因此我比较看好那些能够根植于客户业务,能够帮助客户解决业务痛点,真正能够给客户带来价值的大数据公司。那些在不同细分领域,能够提供整体解决方案的大数据公司的前景将更好。


InfoQ:也就是不仅仅要做技术,而且还要熟悉、了解客户的业务模式,从而能更好提供有针对性的大数据服务。

冯是聪:明略始终认为大数据仅仅靠技术是不行的,它必须要能解决业务问题。厂商的数据科学家通常需要三方面的知识,一方面是需要懂得计算机知识,第二方面他要懂得数据挖掘知识,第三方面他要懂得数学,这是综合能力的体现。而只有当把客户的业务本质了解比较透彻,才能给客户带来实际的价值。


InfoQ:您能否谈谈有哪些技术会对大数据行业的未来产生巨大影响或者说带来巨大推动力?

冯是聪:我认为有四类技术比较重要。第一类技术是大数据安全技术,无论是金融业的反欺诈,还是警方的反恐与安保,都需要有大数据安全技术的帮助。


第二类技术是机器学习领域,从各种报道来看,无论是在云识别,还是图像识别,甚至视频的处理,已经基于机器学习以及深度学习而得到广泛的应用,我相信随着深度学习的发展,将会带来巨大的变革。


第三类技术是量子通讯,据我了解中国量子通讯的研究还是非常的具前沿的,基本上处于国际领先地位。像中国科大,他们现在在量子通讯上,能够在超过一百公里上午距离上进行传输。所以我相信随着量子通讯技术和量子计算机的发展,最后我们的通讯技术,还有计算机技术、语言都会发生翻天覆地的变化。


第四类是智能设备。我们身边生活中的几乎每一样设备,每一样东西实际上都可能会智能化。而一旦设备智能化了,这就需要想办法将数据收回来,当这些数据达到一定规模的时候,就一定会需要大数据技术来进行处理这些数据。我相信随着智能设备的发展,无论是中国还是外国,人们的生活方式以及工作方式都将得到改革。




如果想要评论本篇文章,想看下其他读者都有什么话想说,欢迎点击“阅读原文”参与讨论。


 
InfoQ 更多文章 Facebook如何实现PB级别数据库自动化备份 学术派Google软件工程师Matt Welsh谈移动开发趋势 Spotify为什么要使用一些“无聊”的技术? 妹纸们放假了,汉纸们做啥? 大多数重构可以避免
猜您喜欢 过去20年里数字营销的5个惊人教训 超级人工智能:大数据的未来? 源代码教育2016年各科学费新鲜出炉啦! 使用R和Python计算AUC(干货) 与2015苹果秋季新品发布会同步,传智播客iOS课程全面升级