微信号:datadw

介绍:实战学习资料提供.涵盖数据分析工具使用,数据挖掘算法原理与案例,机器学习,R语言,Python编程,爬虫.如需发布广告请联系: hai299014

数据挖掘模型生命周期管理

2014-07-04 01:25 陈云

为成功地利用数据挖掘模型,我们需要从开发阶段直至生产环境对模型进行全面跟踪管理与评估。挖掘模型生命周期过程是由以下阶段组成的高效交替过程。

  • 确定商业目标

最初的阶段集中在理解项目目标和从业务的角度理解需求,同时转化为数据挖掘问题的定义,完成目标的初步计划。确定所需模型以及模型的应用类型,制定策略保证模型部署后,业务单位了解模型的使用方法。

典型模型包括用于客户行为、风险管理和信用评分的预测建模模型。应用领域包括客户保有、信贷发放、交易验证、欺诈检测和促销等。这些因素推动数据采集和模型开发过程。

  • 数据理解

数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,检查数据的质量,初步发现数据的特征,或是探测引起兴趣的样本子集去构建隐含信息的假设。

影响数据质量的几个主要问题包括:缺失值、不合理值、不同数据源的不一致、异常值。

  • 数据准备

数据准备(预处理)阶段包括从未处理数据中构造最终数据集的所有活动。这些数据将作为模型工具的输入值。这个阶段的任务有时一个能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。

现实中的数据通常是不完整的、不一致的、含噪声,污染数据的普遍存在导致了数据清理的必要性,所谓“垃圾进垃圾出”。形成污染数据的原因包括:滥用缩写词、数据输入错误、不同的惯用语、重复记录、缺失值、不同的计量单位等。

  • 建立模型

选择和应用不同的模型技术,调整模型参数到最佳值。一般,有些技术可以解决一类相同的数据挖掘问题。有些技术在数据形成上有特殊要求,因此需要经常跳回到数据准备阶段。

这个过程涉及采用挖掘统计和虚拟化技术、变量转换、过滤异常、数据替换、细分、聚合、预测建模运算和模型验证等。

  • 模型评估

在最后部署模型之前,重要的事情是较彻底地评估模型。检查构造模型的步骤,确保模型可以达成业务目标。这个阶段的关键目的是确定是否有重要业务问题没有被充分的考虑。在这个阶段结束后,关于数据挖掘结果使用的一个决定必须达成共识。

随着越来越多地采用分析方法支持业务决策,预测模型已被视为企业的重要智能资产。每一种模型都是重要的,对企业利润水平、法规遵从和规避法律/经济风险具有重要作用。这种情况促使越来越多的企业将模型验证作为常规业务流程。

  • 结果发布

通常,模型的创建不是项目的结束。模型的作用是从数据中找到知识,获得的知识需要便于用户使用的方式重新组织和展现。根据需求,这个阶段可以产生简单的报告,或是实现一个比较复杂的、可重复的数据挖掘过程。在很多案例中,这个阶段是由客户而不是数据分析人员承担实施的工作。

 
数据挖掘DW 更多文章 数据信息图工具整理 直销银行将加速进军“线上理财”业务 视频手把手教你用python做机器学习案例(免) 2分钟完成30*15页拉勾网职位需求关键词的抓取 网易云音乐歌单的推荐算法解析
猜您喜欢 热烈祝贺博赛学员隗继通同学一次性通过HCIE认证考试 成为谷歌软件工程师你需要准备什么? 《近匠》17期从Cubieboard到radxa:汤亮的第二次硬件创业 对程序员非常重要的24个软技能 腾讯技术总结!超实用的HTML 5接口全方位测试总结文(一)