微信号:bigdatalab

介绍:宽客俱乐部旗下美国大数据实验室,大数据研究应用.

数据、学习和建模

2016-03-03 08:29 大数据实验室

这里有些关键的机器学习概念可以帮助我们理解这一领域的相关知识。

在这篇文章中,你会接触到一些相关的专业术语(常用的术语),它们用来描述数据和数据集。你也会学习到一些相关概念和术语,它们用来描述数据的学习和建模过程,而这些又给你的学习旅程提供了一些关于机器学习的宝贵经验。

数据

机器学习方法可以从实际案例进行学习。对于我们来说,掌握数据的输入和各种描述数据的术语是很重要的,而在这一部分中,你会在涉及到数据的机器学习中学到一些相关术语。

但我在思考数据是什么样的时候,我的感觉一般都是行和列,就像是一个数据集图表或者是Excel的电子表。这是数据的传统格式,而且在机器学习中也是一种常见的格。其它数据如图像、视频,以及文本,而所谓的没有结构的数据并不会在这篇文章中进行描述。


展示一个相关例子、特征和数据集的形式的数据的图表

实例:数据的单行称之为实例。这是某一个域所观察的结果。

特征:数据的单列称之为特征。它是观察的一个组成部分,而它也被称之为一个数据实例的属性。一些特征也许会输入一个模型(预测值),而其它可能有输出或预测的特征。

数据类型:特征有其数据类型。它们也许是真实数或者是整数,又或者是分类值又或者又是序数。你可以有字符串、日期、时间或更多复杂的数据类型。但是,通常情况下,它们都会在使用传统机器学习方法的时候被换算成实数或者是分类值。

数据集:实例的集合是一个数据集,而且当我们使用传统机器学习方法的时候,我们通常需要几个不同的数据集处理不同的问题。

训练数据集:训练数据集就是一个我们通过使用机器学习算法进行建模的数据集。

测试数据集:一个用于检验我们模型精准度而不用于建模的数据集。我们可以把它称之为检验数据集。

我们也许会收集一些实例来建立我们的数据集,或者给定一个有限数据集,我们需要把它分解成若干个子数据集。

学习

机器学习,确切来说是一个动态的学习算法。在这一部分中,我们会考虑几个学习方面的高级概念。

前序:机器学习算法通过一个叫归纳或者归纳学习的方法进行学习。归纳是一个合理的过程,它可以从一些特殊信息(训练数据)进行概括总结。

概括:概括这一过程是必要的,那是因为模型是由机器学习算法为我们准备的,而我们需要用这个模型,基于在训练过程中我们看不到的数据,我们会对它们进行预测或决策。

过度学习:当一个模型从一些训练数据中学习过多而不能进行概括的时候,这个过程称之为过度学习。结果就是处理数据的性能很差,而它有不同于训练数据。这也称之为过度拟合。

缺乏学习:当一个模型因为与它们相关的数据集提前结束学习过程,从而导致这个模型无法获得一个完整的结果,这就称之为缺乏学习。它的结果则是可以作一个好的概括但是对所有数据,包括训练数据集在内的处理的性能却很差。这也称之为欠拟合。

在线学习:在线学习就是当一个域变得可用的时候,这种方法会从来自这个域的数据实例进行更新。在线学习需要数据在噪音情况下具有很强的健壮性,但是也要产生一个符合这个域当前状态的模型。

线下学习:线下学习就是一个通过现成的数据进行创建的方法,而这个方法对未被观察的数据进行相关操作。这个训练过程可以被很好的控制和调整,原因在于训练数据的范围是未知的。在这个模型早已被创建好,同时在相关域发生了改变从而导致模型的性能可能被改变的情况下,这个模型不再进行更新。

监督学习:这是一个针对需要进行相关预测的问题进行概括的学习过程。一个“教学”过程会与一个有未知答案的模型进行比较,并对模型进行修正。

非监督学习:这是一个对不需要预测的数据的结果进行概括的学习过程。默认情况下,数据的结构都可以得到相关的确认和利用。

我们在之前的一篇文章 machinelearning algorithms就已经对监督学习和非监督学习过程进行详细的阐述。

建模

一个由机器学习创建的产品被视为是一个程序的权利。

模型选择:我们可以这样认为,模型的设定和训练过程就是模型的选择过程。对于我们所拥有的每个模型的迭代可以让我们选择是直接使用这个模型,还是对它进行修改,甚至,算法的选择也是模型选择过程的一部分。然而,每个模型都存在一个共同的问题,那就是对于一个可能被选到的数据集的一个给定的模型以及模型的设置会提供一个最终的模型选择。

诱导偏差:偏差就是选定模型所产生的限制。每个模型都存在其自己的偏差,这也引入了模型的误差,以及对每个模型进行定义时产生的误差(它们是来自观察的概括)。偏差是通过一个包含模型的设定以及产生一个模型的算法的模型所做的概括引入的。一个机器学习方法可以创建一个或高或低的模型,而相关的手段可以对一个误差较高的基本模型进行一定程度的误差消除。

模型方差:方差就是检验对已经进行过训练的数据建立的模型是否灵敏的术语。一个由数据集产生的模型的机器学习方法,都有一个或大或小的方差,而消除方差的相关手段有在不同的初始化环境下对一个数据集进行重复运行,然后取平均值精准度作为模型性能好坏的参考标准。

偏差方差权衡:模型的选择可以被认为是一个权衡偏差和方差的过程。一个误差较小的模型有较大的方差,这时我们要对相关数据进行多长且长时间的训练以求得到一个合适的模型。一个误差较高的模型往往其方差比较小,所以训练时间短一点,但是要承担性能差的后果。

资源

如果你想深入的学习,一下链接对于你来说有帮助:

Tom Mitchell, Theneed for biases in learning generalizations, 1980

Understandingthe Bias-Variance Tradeoff



作者:何品言,热爱英语和数据科学,积极学习和践行数据科学的知识。

来源:数据人网            

原文链接:http://shujuren.org/index.php/Article/update/aid/123



系统培训——量化实战特训营

3月18-20日,北京


建模编程——策略实战——资金管理——绩效评价


咨询报名手机/微信:13061694649


 
大数据实验室 更多文章 用户画像数据建模方法 李光斗:警方是如何利用大数据抓到王全安的 降楼价,新加坡居然靠的是无人驾驶! 小数法则和经验主义 什么性格的人适合 Quant 这个职位?能否描述一下 Quant 一天的生活是怎样的?
猜您喜欢 硅谷传奇 国外一些知名程序员的办公室和电脑桌的样子 【德勤重磅】2016年度科技趋势之区块链技术(134pdf下载) DTCC | 使用 Raft 构建分布式高可用 OLTP 数据库之路 化繁为简的企业级 Git 管理实践(一):多分支子模块依赖管理