微信号:shushuojun

介绍:数据分析师之家.旨在为数据人提供一个学习、分享、互帮互助的家园.

导语:SAS正则表达式,统计师入门文本分析的捷径

2016-05-10 21:09 数说君


文本分析很有用,数说君自己也玩过,炒鸡有意思,从论坛、网页上爬取网友的舆情数据,然后整理、统计、画图,就可以知道舆论的风暴是什么,可以知道网友最热议的话题、最想去的旅游景点、最喜欢的饮料等等,也可以从这些舆情数据中挖掘出两个话题之间的关联性等等。


统计领域比较流行的软件主要就是SPSS、R、SAS等,因为用它们来做统计模型/数据分析,实在太方便了,但是一旦遇到了文本形式的数据,就常常不知道该怎么办。比如下面这列杂乱无章的文本数据:


(01)1872-8756

Body shop P1

Book B13

(05)9212-0098

PD(05)9206-4571

Shushuo phone

(12) 6753-5513

None here

PD(12)6434-4532

P&D Washing

PC Pro4321S: (09) 1352-3154


如果我们只想保留数字部分,即红色字体部分该怎么办呢?又或者是,我们想把淘宝上面关于某手机的参数信息给爬取下来,比如品牌、内存:




又该如何精准定位呢?


正则表达式就可以很容易的帮我们解决这些问题。其实无论是爬数据,还是整理数据,牵扯到文本的内容,正则表达式就非常好用。一旦你弄懂它们,你就能把数小时辛苦而且易错的文本处理工作压缩在几分钟甚至几秒钟完成!


然而对于一个经过正规统计学训练的统计师或者数据分析师来说,这方面可能并不那么擅长。因此我们如果能以SAS为工具,来学习正则表达式、学会做一些简单的文本数据处理,不仅学习起来变得非常容易,此后再用Python等其他编程工具去处理文本,都会变得简单了。


在公众号【数说工作室】后台回复【SASRE】,获取本系列。



1. 关于数据分析的提问求助直接在微信后台留言。


2. 转载、投稿、免费发布招聘、合作,请加数说君个人微信AnselT,或Email:jiayounet@163.com。


3. 查看所有文章请在后台回复【M】


数说工作室

数据分析师之家 | 金融 生物 零售 互联网

微信ID:shushuojun


长按二维码关注数说工作室

 
猜您喜欢 史上最形象Linux 系统结构以及命令图 解决光纤信号衰减引发无法上网的故障 oracle秘境探索之11g tablespace prellocation Realm Java 原理介绍以及常见问题QA