微信号:shushuojun

介绍:数据分析师之家.旨在为数据人提供一个学习、分享、互帮互助的家园.

留一交叉验证及SAS代码

2016-03-02 07:38 数说君


数据量很少,用什么模型?(点击查看)中,我们总结过当数据量很少时如何选择模型和方法,以使得数据能够最大限度的得到利用。


其中有一个方法就是做交叉验证。


我有备选的模型G(x1, x2, x3), G(x1, x5, x6), F(x1, x2, x3),想知道哪一个预测的效果好。不能做样本内预测(就是用样本训练出模型,再用同样的样本代到模型中看准确度),样本量太少,再分成训练集和测试集就更少的可怜了,怎么办?


K折交叉验证可以充分利用少样本的信息。


K折交叉验证是将样本分成K个子样本集,拿出其中的K-1个子样本来训练模型,用剩下的1个子样本来对模型进行验证;再拿出K-1个训练模型,留下另外1个(与上一步的不同)子样本进行验证......,如此交叉验证K次,每个子样本验证1次,平均K次的结果作为一个模型的预测效果。


而本文想说的留一交叉验证(Leave-one-out cross validation, LOOCV)就是这种方法的极端情况:


假设只有10个样本(真的很小啊),每次拿出其中9个来训练模型,用剩下一个进行测试,得到一个测试结果(真实值与预测值的差异);再拿出另外9个进行训练,留下另外一个进行测试......如此验证10次(每个样本都能轮到一次验证样本),将10次的预测效果平均,就可以评价这个模型的好坏。


留一交叉验证就是留下1个单样本,将其他所有样本拿来做训练。可以充分利用小样本的信息。


下面分享一下数说君留一交叉验证的SAS代码,样本量假设为30:


*样本量30;

%let K=30;

 

*为数据增加一个变量:index,标识出观测值的ID(从130;

data sample;

set sample;

index = _n_;

run;

 

  *用全30个样本建模看一下;

  proc reg data=sample;

  model y= x1 x2 x3;

  run;

 

data sample_all;

set sample;

selected = .;

replicate = .;

run;

 

*每次模型将一个样本留作测试,其他用来训练样本,重复30次,那我们就建立30个数据集,并将这30个数据集合在一起;

%macro generateData;

 

%do i = 1%to &K;

 

*每次选择一个观测值,其selected=0,意为测试样本,其他29个均为1,意为训练样本。

data temp;

set sample;

if index = &i thenselected = 0;

else selected = 1;

replicate =&i;

run;

 

data sample_all;

set sample_all temp;

run;

 

%end;

 

data sampleOut;

set sample_all;

where selected ^= .;

run;

 

%mend;

 

*运行宏;

%generateData;

 

 

*slelected=0的样本意为一个数据集中的测试样本,我们看一下是否每个观测值都轮到一次测试;

  proc print data=sampleOut;

  where Selected=0;

  var Selected id;

  run;

 

  data sampleOut;

  set sampleOut;

   if selected then new_y=y;

  run;

 

*计算selected=0的样本、也就是测试样本的预测值;

  proc reg data=sampleOut;

    model new_y=x1 x2 x3;

   by replicate;

   outputout=out1(where=(new_y=.)) predicted=y_hat;

  run;

 

  data out2;

  set out1;

   d=y-y_hat;

   absd=abs(d);

  run;

 

*画出预测值与真实值的散点图;

proc gplot data=out2;

plot y*y_hat;

run;

 

  proc summary data=out2;

  var d absd;

  outputout=out3std(d)=rmse mean(absd)=mae sum(d)=sumd;

  run;

 

 *计算yy_hat的相关系数,以及y=y_hatR方(这个常被用于评价模型的拟合好坏);

 proc corr data=out2 pearson out=corr(where=(_TYPE_='CORR'));

  var y ;

  with y_hat;

 run;

 

 data corr;

  set corr;

  Rsqrd=y**2;

 run;



参考资料:

http://altons.github.io/sas/2013/05/22/cross-validation-using-sas/


欢迎大家提出异议或留言交流,这里是数说工作室——数据分析师之家!



1. 关于数据分析的提问求助直接在微信后台留言。


2. 转载、投稿、免费发布招聘、合作,请加数说君个人微信AnselT,或Email:jiayounet@163.com。


数说工作室

数据分析师之家 | 金融 生物 零售 互联网

微信ID:shushuojun


长按二维码关注数说工作室


 
数说工作室 更多文章 导语:SAS正则表达式,统计师入门文本分析的捷径 讨论 | 数据分析的价值 日本 | 医疗大数据值得关注的3个方向 统计师的Python日记【第6天:数据合并】 统计师的Python日记【第5天:Pandas,露两手】
猜您喜欢 使用JavaScript截断字符串 差异运营聚用户,因子分析打前站 影响计算机算法世界的十位大师