微信号:idacker

介绍:数据客是一家用大数据思维解读创业的科技媒体.传播大数据思维、拓宽创业视野、在国内催生出更多具备大数据思维的创业公司.

【收藏】10个Github上最受欢迎的机器学习开源项目

2015-12-23 18:02 Matthew Mayo


作者:Matthew Mayo

翻译:卢谊


开源软件在数据科学的版图上是非常重要的一块。


根据对KD上数据科学家的调查,73%的数据科学家在过去的12个月都会使用免费的开源软件。这里有很多资源是可以在网上找到的,github已经成为一个各种开源软件的仓库,也包括数据科学相关软件。鉴于机器学习在数据科学领域的重要性,我们整理出我们认为在github上最好的10个机器学习项目。

(数据截止到美国时间12月10日下午1点)


1. Scikit-learn

Machine learning in Python.

8641, 5125


最受欢迎的就是这个开源学习工具Scikit-learn,这是一个适合产业界到学术界的各地python使用者的机器学习库。Scikit-Learn的安装需要numpyscipymatplotlib等模块。scikit-learn的基本功能主要被分为分类,回归,聚类,数据降维,模型选择,数据预处理六个部分。



2. Awesome MachineLearning

机器学习框架、库和软件集合

8404 , 1885


这是一个机器学习框架、库和软件集合列表。该列表是通过语言进行分类,并进一步通过机器学习的类别(一般用途,计算机视觉,自然语言处理等)分类,它还包括数据可视化工具。


3. PredictionIO

PredictionIO是一款适用于开发人员和ML工程师的机器学习服务器基于 ApacheSpark, HBase and Spray构建

8145, 1002


predictionio是一个通用的框架。它包括几个著名的任务模板引擎,如分类和推荐。PredictonIO是用基础的开源技术编写的,建立在Spark同时利用它的生态系统,有Scalding 原生支持。


4. Dive IntoMachine Learning

Dive into Machine Learning with PythonJupyter notebook and scikit-learn.

4326, 342


适用于初学者,这是一个包含了Scikit-learn学校的教程集合,以及一些特定的python和机器学习主题的相关链接,还有一些通用的数据科学信息。


5. Pattern

Python准备的Web挖掘模块, 有检索、自然语言处理,机器学习,网络分析和可视化的工具。

3799, 598


Pattern是一个基于PythonWeb挖掘工具包,安特卫普大学的计算语言学和心理语言学(剪辑)研究中心建立的,有检索、自然语言处理,机器学习,网络分析和可视化的工具。Pattern也很容易地从几个知名的Web服务来挖掘数据。


6. NuPIC (Numenta Platform for IntelligentComputing)

一种基于脑皮质学习算法的智能平台和生物精确神经网络

3647, 987


NuPIC是实现层次时间记忆(HTM)的机器学习算法。htm是试图模拟大脑皮层的计算,重点对储存和回忆的空间和时间模式。nupic适合模式相关的异常检测。


7. Vowpal Wabbit

Vowpal Wabbit是一个机器学习平台,推动机器学习的前沿技术的学习,如在线学习、哈希、交互学习等。

2949, 827


Vowpal Wabbit针对大规模数据集的快速建模,并支持并行学习。该项目最初由雅虎建设,目前在微软的研究开发。


8. aerosolve

为人设计的机器学习软件包。

2538, 245


aerosolve希望和其他图书馆不同,注重人性化的调试,使用Scala代码进行训练,简单的图片内容分析代码,适合于图片的排序或者排名。


9. GoLearn

一款 Go 语言机器学习框架

2334, 215


GoLearn一款 Go 语言机器学习框架. 它的目标是为开发人员提供一个功能齐全,使用简单,可定制的软件包。


10. Code for MachineLearning for Hackers

2003, 1446


它包含一些 O'Reilly书《黑客的机器学习》中的代码。使用R语言写代码,同时依靠众多的R程序包。主题包括了分类,排行,以及回归这类常见任务,也有类似于主成分分析和多维尺度这样的统计方法。


回复【企业】 来看大企业的大数据的大故事

回复【就业】 了解如何成为一位大数据的从业者

回复【股市】 看看大数据如何教你炒股

回复【算法】 了解多种有趣又有用的算法

回复【脑洞】 看完这个你还觉得你的脑洞真的大么?

回复【生活】 看大数据在我们生活中的方方面面

回复【医疗】 查看医疗的领域大数据文章

回复【沙龙】 查看数据客沙龙活动

欢迎加入数据客QQ群:280272363

 
数据客 更多文章 DigitalOcean融资8300万美元,你用过它家的云服务器吗? Google 的算法出过哪些囧事? 票房之下,数据先行 美国首席数据科学家:打造数据产品必知秘籍 营销人 大数据对于你的价值在这里!
猜您喜欢 推荐一款GitHub超实用的可视化代码树插件:Octotree 各个公共云服务商数据中心分布图 网盘们迎来新一轮关停潮,终究没有免费午餐! Python函数参数默认值的陷阱和原理深究 Mysql 的GTID主从复制方式