微信号:cgbigdata

介绍:在这个大数据的时代,大数据互联网大牛们将每日推送大数据相关资料,最新技术和资讯,层层干货喂饱你!

大数据时代,数据管理必备12条铁则

2016-09-19 17:13 达内java大数据培训

在大数据的时代,大家都在重视数据存储和一系列大数据相关技术,但是很多人忽略了数据是需要管理的,没有经过管理的数据,只能叫数据,而不能成为信息,无法真正体现出其内在价值。


对于数据治理来说,目前大部分企业还在沿用传统的数据治理路线,如果想真正体验到数据管理带来的收益,建议在数据管理的时候,采用敏捷数据管理的方法,寻找适合的“机器人”,简化数据管理组织架构和流程,以自动化方式代替人工录入,拓宽数据管理的范畴。


本文就为大家介绍企业数据管理过程中应该遵循的12大技术原则,从技术上告诉大家如何对“机器人”进行挑选。


1统一管理企业资产


不会擦地的扫地机器人,不是好清洁工。一个合格的扫地机器人,应该能够把整个家都收拾整齐,而不只是扫地。


对于敏捷数据管理来说,应该能够在技术上管理企业内部所有资产,也就是所有的元数据。这是企业实现敏捷数据管理最基础、最重要的原则。


目前企业元数据管理的技术架构一般都是基于CWM标准,OMG模型规范体系分为M3,M2,M1,M0四层,CWM标准位于M2层,是一个偏上层的规范,这从一定程度上限制了技术架构的扩展性,这种元数据管理技术架构只能管理企业数据相关资产,并不能管理对象、接口、业务、服务等其他企业信息。


为了增强技术架构的扩展性,实现对企业内部所有数据资产的管理,企业元数据管理技术架构需要基于更底层的规范,也就是位于OMG模型规范体系M3层能够描述CWM标准的MOF规范,基于MOF规范的元数据管理架构能够帮助企业扩展出其所需要的所有元模型,进而实现企业所有资产的统一管理。


2自动获取资产信息


机器人应该能够通过“采集器”自动获取主人的指令,而不是所有的指令都要主人通过按钮来手工控制。


对于企业来说,要想统一管理所有信息资产,还依靠原来人工录入资产的方式肯定是不行的。


企业需要从技术上提供各种自动化能力,实现对资产信息的自动获取,包括自动数据信息采集、自动服务信息采集与自动业务信息采集等。


这要求企业使用的数据管理工具支持一系列的采集器,并且多采用直连的方式来采集相关信息。


3识别与管理业务语义


合格的机器人要能够听懂主人的指令,最好内置Siri,能够人机对话。


企业数据管理也一样,很多业务的语义十分依赖业务人员的人工梳理,难度大效率低,很可能出现因为梳理人员没有及时梳理,而造成业务语义难以被及时发现和管理的问题。


未来企业将会面临数字化转型,从非结构化的文档中,将大部分业务语义抽取出来,并统一管理,成为未来的发展趋势(比如对于保险企业来说,可以利用业务语义抽取技术,从相关文档中自动识别出短期保险的定义)。


这种能力可以通过自然语言分析技术来实现,企业可以通过综合多个材料中对同一业务的描述,分析出最新与最广泛认可的业务定义,由业务人员确认之后,识别出业务语义,这样大大减少了业务人员的工作量,提升了业务人员梳理业务语义的积极性。


4业务语义与技术关联


合格的机器人,需要听懂主人的语言,并根据主人的不同指示,启动不同的程序。


对于企业数据管理来说,技术能弄懂业务的前提是技术与业务之间要有对应,让企业能够通过技术手段,对业务进行理解和分析。


目前大部分企业还是靠人工梳理对应业务与技术,业务部门负担很重,若能够利用数据治理工具提供商的行业实践积累,形成业务与技术的自动关联库,自动完成业务与技术对应,将能大大减少业务人员的工作量,同时提升技术与业务关联的准确度,消除业务与技术之间的鸿沟。


5从需求开始控制数据质量


要想让房间彻底变干净,这个机器人不能只是在房间乱了之后再进行打扫,要想真正解决房间卫生问题,机器人需要在主人的日常生活中时刻提醒主人保持良好的卫生习惯,从根源防止卫生问题的出现。


其实数据质量一直是企业的痛点,数据质量不高,分析和挖掘无从谈起,但是企业容易犯一个错误,就是只对已经产生的数据做检查,然后再将错误数据剔除,这种方法治标不治本,不能从根本上解决问题。


要想真正解决数据质量问题,应该从需求开始,将数据质量的服务集成到需求分析人员、模型设计人员与开发人员的工作环境中,让大家在日常的工作环境中自动控制数据质量,在数据的全生命周期中控制数据质量。


6在集成点检查数据质量


合格的机器人需要对主人日常活动中的各个重要时刻进行检查,比如吃饭之前、睡觉之前等,严格控制主人的卫生情况,当房间内的人数比较多时,要通过抽查的方式检查人们的卫生情况。


在企业大数据治理过程中,对于大数据生产线中的每个集成点,都需要做数据质量的检查,严格控制输入数据的质量。


但在企业实际场景中,每个集成点的数据量会非常大,把数据一条条拿出来做检查这种传统方式是行不通的,应该先对数据进行抽样,根据抽样检查的结果,决定是否采用这批数据。


7持续积累检核规则


主人自己在家时,机器人可以直接根据主人的生活习惯制定出检查规则,但是当有外来客人时,就需要对这些客人进行抽查,启动相关程序自动制定出检查规则并对这些规则进行存储,形成外来客人的检查规则库。


目前企业内的数据主要分为外部数据和内部数据,大数据时代到来让各企业广泛采购第三方数据,第三方数据的质量逐渐成为决定企业数据质量的关键因素。


对于企业的内部数据,可以通过业务梳理直接获得质量检核规则。


但是对于外部第三方数据,需要先对这些数据进行采样,并应用关联算法自动发现其中的质量检核规则,并将这些检核规则持续积累,形成外部数据的检核规则库。


8自动化质量评分


无论是主人还是外来客人,进入房间之前,都要先在走廊上接受机器人的卫生打分和整改,卫生条件合格的人才可以进入房间。


在企业数据治理中,应该与数据采集工具、交换工具相连接,对数据湖泊中的数据进行评分和整改,评分和整改通过的数据才能进一步进入大数据平台。


9管理核心数据定义


机器人只需要针对主人身上的关键部位制定相应的卫生标准,就可以大体控制主人的卫生情况,并不需要为主人全身各个部位都制定出专门的卫生标准。


在企业数据治理中,数据标准是很重要的内容,但是建立有效的数据标准并落地,是有一定难度的,传统数据管理的模式需要建立一套规范数据模型,即使企业实际数据模型中有上万个字段,也需要将每个字段与规范数据模型进行比对,这种方式往往难以落地。


其实只需要在众多数据中挑选出核心数据,只管理这些核心数据定义,依照核心数据建立标准,就可以实现企业数据治理的目标,还能提升数据治理的效率。


10以数据标准添加技术属性


合格的机器人应该能够把所有的卫生标准,转换为机器可以理解的语言,比如主人规定饭桌干净的标准是饭桌上没有任何东西,机器人需要将这条标准翻译成机器语言,相当于为这条标准增加技术属性,比如“if(things() == false)”之类的。


在企业数据治理中,任何一个数据标准,如何没有对应的技术手段,都将难以落地,所以企业建立数据标准时,需要加入信息项的英文名称,来和实际数据库表中的字段相对应。


在数据标准中加入信息项的英文名称能给企业数据治理带来两方面的好处:


1. 在做模型设计的时候,标准可以直接与模型设计工具集成,设计模型时就可以直接引用标准。


2. 对已有系统,标准能够通过英文名称直接和应用系统的相关字段对应,自动发现与不符合标准的字段,并通过元数据直接通知给相应的系统。


11随业务持续更新数据标准


优秀的机器人能够自动更新卫生标准,随着时间的积累,让这些卫生标准越来越符合主人的要求。


对于企业数据治理来说,有很多数据标准建立以后,往往只是一套书,没有根据企业业务发展及时做出更新,时间长了就成为了摆设。


实际上,数据标准是需要随着企业的业务变化而不断进行修订的,比如在企业拓展新业务的时候,需要增加相应的标准进去,对于没有价值的标准,也要及时废弃。


12数据管理能力服务化


机器人是用来为主人“服务”的,其作用是帮助主人清理房间,而不是来“管理”主人的。


对于企业数据治理来说,数据管理服务化是企业能否实现敏捷数据管理的重要原则,敏捷数据管理强调企业把所有的技术能力全面共享成为服务,并融入到企业的各个系统中“帮助”各个系统控制数据质量,规范数据,而不是对企业各个部门的人员进行“管理”,这样就能使数据管理融入到各部门人员的工作环境中,让大家在日常的工作环境中自动控制数据质量。


未来在大数据时代,数据除了要存储起来,更加重要的是要管理好,相信未来会有更多的企业重视数据的管理。这样企业的数据湖才能一直清澈下去,而不是成为数据沼泽。


想成为优秀的大数据专家?想从java转变为大数据工程师?希望通过大数据实现人生价值?


那就阅读原文或者直接回复姓名+电话+城市,报名达内java免费训练营吧!学会大数据,升职加薪做时代的弄潮儿!


PS:还有疑问可以咨询QQ:1229718872问达妹哦~

来源: INFOQ  作者 :王轩

*版权声明:

转载文章和图片均来自公开网络,版权归作者本人所有,推送文章除非无法确认,我们都会注明作者和来源。如果出处有误或侵犯到原作者权益,请与我们联系删除或授权事宜。转载达内java大数据公众号文章请注明来源,否则产生的任何版权纠纷与本公众号无关。


达内教育

40万学员的共同选择

长按二维码关注我们



 
达内java大数据培训 更多文章 MySQL 8.0.0 版本发布,亮点都在这了! 2016年9月编程语言排行榜:java再居榜首! 达内9月java免费训练营强势来袭,送中秋好礼咯! 必看|数据行业新手职业生涯发展规划 教师节|致敬那些陪你长大的“别人”(含福利)
猜您喜欢 从月薪6K到2.5W+,华清学霸是如何做到的? 推荐!手把手教你用 Git 内存是手游的硬伤——Unity游戏Mono内存管理与泄漏 笑谈设计模式 『英语流利说』离线深度神经网络优化