微信号:bigdatalab

介绍:宽客俱乐部旗下美国大数据实验室,大数据研究应用.

用文本挖掘和机器学习洞悉数据

2016-02-16 09:26 大数据实验室

文本挖掘是对包含于自然语言文本中数据的分析。它可以帮组一个组织从基于文本的内容中获得潜在的有价值的业务洞察力,比如Word文档,邮件和社交媒体流中发布的帖子,如Facebook,Twitter,和LinkedIn。对于机器学习技术中信息检索和自然语言处理的应用而言,文本挖掘已经成为一个重要的研究领域。在某种意义上,它被定义为在无处不在的文本中发现知识的方式,而这些文本可以在网络上轻易获取。


文本挖掘是一个包含几个步骤的过程。

第一步:适合应用的文档一般是确定的大量文本数据。文档聚类方法经常用语解决“大量”这个问题。这些方法是非监督的学习方法,最受欢迎的文档聚类方法是K-means聚类和凝聚层次聚类。


第二步:文本是被清洗了的——它从网页上的广告中拆离出来;标准化文本从二进制格式转换而来;表、数字等式都是经过处理的;还有其它的等等。然后,将文本中的词语与对应的词类标记的步骤开始进行。有两种方法标出词语:一个是基于规则方法,依赖于语法规则;一个是基于统计的方法,它依赖于不同的词序概率,并且需要一个用来机器学习的手工且有针对性的语料库。之后,一个词语在依据给定的话句子中所含有的拥有的许多不同的含义确定了。最后,语义结构明确下来。有两种方式来确定语义结构:完全语法分析,它会对一个句子会产生一个分析树,是部分语法分析的组合,部分语法分析会产生一个句子的语法结构,比如名词短语和动词组。产生一个完整分析树经常失败,因为语法不准确、异常词汇、糟糕的符号化、不正确的句子拆分、词性的标准错误和其它等等原因。因此,分块和部分分析更为常用。


第三步:这些词语(特征)决定了文本表示。最基本的文档表示方法有词袋法和向量空间。这些方法的目标在于确定哪些特征可以最好的描述一个文档。


第四步:特征的维度被降低。为此,无关的属性将被移除。


第五步:文本挖掘过程与传统的数据挖掘过程结合。经典的数据挖掘技术如聚类,分类,决策树,回归分析,神经网络和近邻取样将被用在之前的阶段所得到的结构化数据库上。


在最后的步骤中,如果结果不令人满意,它们将会用做文本挖掘一个或多个早期阶段所投入的一部分。


机器学习是计算机科学的一个分支,它来源于模式识别研究好人工智能中计算学习理论。它探索了算法的研究和建立,认为可以从数据中进行学习并对数据进行预测。这样的算法运行是通过样例的输入来建立模型,从它成为以数据作为驱动的预测或者决策,而不是遵循严格的静态程序指令。


机器学习与计算统计学非常相关,并且经常有所重叠——也是一个专门研究预测制定的学科。它和数学最优化法有很强的关系,提供了方法、理论和应用领域。它是使用一系列的计算任务,其中显示算法设计和编程都不可用。示例应用程序包含垃圾邮件过滤,光学字符识别(OCR),搜索引擎和计算机视觉。文本挖掘利用机器学习在决定功能,降低维数和删除不相关的属性上的特别优势。例如,文本挖掘将机器学习用于情绪分析,它广泛的应用于评论到社交媒体,涵盖了从营销到客户服务各种不同的而应用程序。它的目的是确定一个说话者或写作者对一些话题的态度,或者是一个文档整体语境的极性判定。这个态度可能是他或者她的判断或评价,情感状态或情感交流。文本挖掘中机器学习算法包括决策树学习,关联规则学习,人工神经学习,归纳逻辑编程,支持向量机,贝叶斯网络、遗传算法和稀疏字典的学习。


(来源:数据科学自媒体




理论实战名师荟萃,知识技能证书校友面面俱到

量化投资专业人士不可错过!!

中国人民大学量化对冲高级研修班·精读模块招生简章


全面深入了解量化对冲策略与技术
掌握实战量化思想及交易策略
掌握包括量化投资在内的资产管理实务
赠送经典策略、分析文档、分析工具源码
结识学术专家及业界精英
加入老师、同学量化社交圈,持续助力个人发展
中国人民大学结业证书


学习时间5天,费用:14800元


报名咨询手机/微信:13061694649

点击“阅读原文”可了解详情


 
大数据实验室 更多文章 用户画像数据建模方法 李光斗:警方是如何利用大数据抓到王全安的 降楼价,新加坡居然靠的是无人驾驶! 小数法则和经验主义 什么性格的人适合 Quant 这个职位?能否描述一下 Quant 一天的生活是怎样的?
猜您喜欢 20+ 为前端程序员准备的文档、指南 10位顶级PHP大师的开发原则 Linux下查看进程IO工具iopp 想提升工作效率,就別再做这七件事。 快的打车架构实践