28款GitHub最流行的开源机器学习项目(二):TensorFlow排榜首

  • 时间:
  • 浏览:0
  • 来源:万人牛牛棋牌_万人牛牛棋牌官网

Shogun是另六个 多多机器学习工具箱,由Soeren Sonnenburg 和Gunnar Raetsch(创建,其重点是大尺度上的内核学习土土方法,有点儿是支持向量机(SVM,Support Vector Machines)的学习工具箱。它提供了另六个 多多通用的连接到十几个 不同的SVM实现土土方法中的SVM对象接口,目前发展最先进的LIBSVM和SVMlight 也发生其中,每个SVM都可否与各种内核相结合。工具箱不仅为常用的内核程序运行运行(如线性、多项式、高斯和S型核函数)提供了高效的实现途径,还自带了三种近期的字符串内核函数,累似 局部性的改进、Fischer、TOP、Spectrum、加权度内核与移位,日后 有效的LINADD优化内核函数也可能性实现。

此外,Shogun还提供了使用自定义预计算内核工作的自由,其中另六个 多多重要特性如果可否通太大个子内核的加权线性组合来构造的组合核,每个子内核太大工作在同另六个 多多域中。通过使用多内核学习可知最优子内核的加权。

目前Shogun可否正确处理SVM 2类的分类和回归难题。此外Shogun也上加了了像线性判别分析(LDA)、线性规划(LPM)、(内核)感知等少许线性土土方法和三种用于训练隐马尔可夫模型的算法。

ML_for_Hackers 是针对黑客机器学习的代码库,该库含晒 了所有针对黑客的机器学习的代码示例(2012)。该代码可能性和文中再次出现的无须完整篇 相同,可能性自出版以来,可能性又上加了附加的注释和修改每段。

所有代码均为R语言,依靠众多的R程序运行运行包,涉及主题包括分类(Classification)、排行(Ranking)、以及回归(Regression)的所有常见的任务和主成分分析(PCA)和多维尺度(Multi-dimenstional Scaling)等统计土土方法。

GitHub项目地址:

GitHub项目地址:

Oryx本质上只做两件事:建模和为模型服务,这如果计算层和服务层另六个 多多独立的每段个人的职责。计算层是离线、批量的过程,可从输入数据中建立机器学习模型,它的经营收益在于“代”,即可利用某三种处输入值的快照建模,结果如果随着连续输入的累加,随时间生成一系列输出;服务层也是另六个 多多基于Java长期运行的服务器应用程序运行运行,它公开了REST API。使用者可从浏览器中访问,也可利用任何太大 发送HTTP请求的语言或工具进行访问。

Oryx的定位还会机器学习算法的程序运行运行库,Owen关注的重点有六个:回归、分类、集群和战略相互合作式过滤(也如果推荐)。其中推荐系统非常热门,Owen正在与十几个 Cloudera的客户战略相互合作,帮亲戚亲戚.我歌词 使用Oryx部署推荐系统。

与麦克斯韦GPU中fp16 和 fp32(基准) 的nervanagpu 内核紧密集成;

MLPNeuralNet是另六个 多多针对iOS和Mac OS系统的快速多层感知神经网络库,可通过已训练的神经网络预测新实例。它利用了向量运算和硬盘加速功能(可能性可用),其建立在iPhoneiPhoneiPhoneiPhoneiPhoneiPhoneiPhoneiPhone公司的加速框架之上。

Decider 是日后 Ruby 机器学习库,兼具灵活性和可扩展性。Decider内置了对纯文本和URI、填充词汇、停止词删除、字格等的支持,以上那些都可否很容易地在选项中组合。Decider 可支持Ruby中任何可用的存储机制。可能性你喜欢,可否保存到数据库中,实现分布式分类。

Decider有十几个 基准,也兼作集成测试。那些还会定期运行并用于查明CPU和RAM的瓶颈。Decider可否进行少许数学运算,计算相当密集,什么都对下行速率 单位的要求比较高。这是总爱使用Ruby1.9和JRuby测试其计算下行速率 单位。此外,用户的数据集应该完整篇 在内存中,日后 可能性遇到麻烦。

现在机器学习逐渐成为行业热门,经过二十几年的发展,机器学习目前还会了十分广泛的应用,如:数据挖掘、计算机视觉、自然语言正确处理、生物特性识别、搜索引擎、医学诊断、DNA序列测序、语音和手写识别、战略游戏和机器人等方面。

云栖社区特意翻译分派了目前GitHub上最受欢迎的28款开源的机器学习项目,以供开发者参考使用。

H2O使得Hadoop太大 做数学运算!它可否通过大数据衡量统计数据、机器学习和数学。H2O是可扩展的,用户可否在核心区域使用简单的数学模型构建模块。H2O保留着与R、Excel 和JSON等相累似 的熟悉的界面,使得大数据爱好者及专家们可通过使用一系列由简单到高级的算法来对数据集进行探索、变换、建模及评分。分派数据很简单,但判决难度却很大,而H2O却通过迅速捷、更优化的预测模型,太大 更加简单迅速地从数据中获得深刻见解。

0xdata H2O的算法是面向业务流程——欺诈或趋势预测。Hadoop专家可否使用Java与H2O相互作用,但框架还提供了对Python、R以及Scala的捆绑。

开源许可:Simplified BSD License

Datumbox机器学习框架是用Java编写的另六个 多多开源框架,该框架的含晒 少许的机器学习算法和统计土土方法,并太大 正确处理大尺寸的数据集。

Datumbox API提供了海量的分类器和自然语言正确处理服务,太大 被应用在什么都领域的应用,包括了情人关系的说说分析、话题分类、语言检测、主观分析、垃圾邮件检测、阅读评估、关键词和文本提取等等。目前,Datumbox所有的机器学习服务都太大 通过API获取,该框架太大 让用户迅速地开发此人 的智能应用。目前,基于GPL3.0的Datumbox机器学习框架可能性开源日后 可否从GitHub上进行下载。

Datumbox的机器学习平台很大程度上可能性太大 取代普通的智能应用。它具有如下十几个 显著的优点:

使用 Mahout 还可实现内容分类。Mahout 目前支持三种根据贝氏统计来实现内容分类的土土方法:第三种土土方法是使用简单的支持 Map-Reduce 的 Naive Bayes 分类器;第二种土土方法是 Complementary Naive Bayes,它会尝试纠正Naive Bayes土土方法中的三种难题,一块儿仍然太大 维持简单性和下行速率 单位。

以上为"28款GitHub最流行的开源机器学习项目"系列完整篇 内容,更多精彩敬请期待。


编译自:https://github.com/showcases/machine-learning

译者:刘崇鑫 校对:王殿进

GitHub项目地址:

GitHub项目地址:

若你可能性用Matlab(Python或R)设计了另六个 多多预测模型,并希望在iOS应用程序运行运行加以应用。在三种情形下,正好时需MLP NeuralNet,而MLP NeuralNet没法加载和运行前向传播土土方法的模型。MLP NeuralNet 有如下十几个 特点:

开发语言:Java

开发语言:C/C++、Python

许可协议:LGPL

开发语言:Java

GitHub项目地址:

Jubatus库是另六个 多多运行在分布式环境中的在线机器学习框架,即面向大数据数据流的开源框架。它和Storm三种累似 ,但太大 提供更多的功能,主要功能如下:

开发语言:C/C++

GitHub项目地址:

开源许可:Apache-2.0 license

GitHub项目地址:

推荐:28款GitHub最流行的开源机器学习项目(一):TensorFlow排榜首

在 Nervana中,neon被用来正确处理客户在多个域间发生的各种难题。

开发语言:R

GitHub项目地址:

GitHub项目地址:

开发语言:Objective-C

开发语言:Haskell

开发语言:Java

Seldon是另六个 多多开放式的预测平台,提供内容建议和一般的功能性预测。它在Kubernetes集群内运行,日后 可否调配到Kubernetes范围内的任一地址:内内外部部署或云部署(累似 ,AWS、谷歌云平台、Azure)。另外,它还可否衡量大型企业安装的需求。

XGBoot是设计为高效、灵活、可移植的优化分布式梯度 Boosting库。它实现了 Gradient Boosting 框架下的机器学习算法。XGBoost通过提供并行树Boosting(也被称为GBDT、GBM),以三种快速且准确的土土方法正确处理了三种数据科学难题。相同的代码可否运行在大型分布式环境如Hadoop、SGE、MP上。它累似 于梯度上升框架,日后 更加高效。它兼具线性模型求解器和树学习算法。

XGBoot至少 比现有的梯度上升实现有至少 10倍的提升,一块儿还提供了多种目标函数,包括回归、分类和排序。可能性它在预测性能上的强大,XGBoot成为什么都比赛的理想选折 ,其还具有做交叉验证和发现关键变量的额外功能。

值得注意的是:XGBoost仅适用于数值型向量,日后 在使用时时需将所有三种形式的数据转换为数值型向量;在优化模型时,三种算法还有非常多的参数时需调整。

HLearn是由Haskell语言编写的高性能机器学习库,目前它对任意维度空间有着最快最近邻的实现算法。

HLearn同样也是另六个 多多研究型项目。该项目的研究目标是为机器学习发掘“最佳可能性”的接口。这就涉及到了另六个 多多相互冲突的要求:该库应该像由C/C++/Fortran/Assembly开发的底层库那样运行快速;一块儿也应该像由Python/R/Matlab开发的高级库那样灵活多变。Julia在三种方向上取得了惊人的进步,日后 HLearn“野心”更大。更值得注意的是,HLearn的目标是比低级语言下行速率 单位迅速,比高级语言更加灵活。

为了实现三种目标,HLearn采用了与标准学习库完整篇 不同的接口。在HLearn中H代表着另六个 多多不同的概念,这另六个 多多概念也是HLearn设计的基本要求:

GitHub项目地址:

neon 是 Nervana 基于 Python 语言的层厚学习框架,在诸多常见的层厚神经网络中都太大 获得较高的性能,比如AlexNet、VGG 可能性GoogLeNet。在设计 neon 时,开发者充分考虑了如下功能:

GitHub项目地址:

GitHub项目地址:

开发语言:Ruby

许可协议:Apache

Mahout 是Apache Software Foundation(ASF) 旗下的另六个 多多开源项目,提供三种可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序运行运行。Mahout含晒 三种实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可是不是 效地扩展到云中。Apache Mahout项目的目标是建立另六个 多多太大 快速创建可扩展、高性能机器学习应用的环境。

觉得在开源领域中相对较为年轻,但 Mahout 可能性提供了少许功能,有点儿是在集群和 CF 方面。Mahout 的主要特性包括:

Datumbox主要可否应用在六个方面:另六个 多多是社交媒体的监视,评估用户观点太大 通过机器学习正确处理,Datumbox太大 帮助用户构建此人 的社交媒体监视工具;第二是搜索引擎优化,其中非常有效的土土方法如果文档中重要术语的定位和优化;第三点是质量评估,在在线通讯中,评估用户产生内容的质量对于去除垃圾邮件是非常重要的,Datumbox太大 自动的评分日后 审核那些内容;最后是文本分析,自然语言正确处理和文本分析工具推动了网上少许应用的产生,平台API太大 很轻松地帮助用户进行那些分析。

开源许可:Apache-2.0 license

许可协议:Apache License 2.0

开发语言:C++

GitHub项目地址:

许可协议:GPLv3 

开发语言:Python

开发语言:Java

开源项目Oryx提供了简单且实时的大规模机器学习、预测分析的基础设施。它可实现三种常用于商业应用的算法类:战略相互合作式过滤/推荐、分类/回归、集群等。此外,Oryx 可利用 Apache Hadoop 在大规模数据流中建立模型,还可否通过HTTP REST API 为那些模型提供实时查询,一块儿随着新的数据不断流入,可否近似地自动更新模型。三种包括了计算层和服务层的双重设计,太大 分别实现另六个 多多Lambda 架构。模型在PMML格式交换。

许可协议:BSD license

可能性有基于流数据的机器学习方面的需求,Jubatus值得关注。

开发语言:Go

Jubatus认为未来的数据分析平台应该一块儿向另六个 多多方向展开:正确处理更大的数据,层厚次的分析和实时正确处理。于是Jubatus将在线机器学习,分布式计算和随机算法等的优势结合在一块儿用于机器学习,并支持分类、回归、推荐等基本元素。根据其设计目的,Jubatus有如下的特点: 

GoLearn 是Go 语言中“功能齐全”的机器学习库,简单性及自定义性是其开发目标。

在安装 GoLearn 时,数据作为实例被加载,日后 可否在其上操作矩阵,并将操作值传递给估计值。GoLearn 实现了Fit/Predict的Scikit-Learn界面,日后 用户可轻松地通过反复试验置换出估计值。此外,GoLearn还包括用于数据的辅助功能,累似 交叉验证、训练以及爆裂测试。

开发语言:Java

GitHub项目地址: