您的位置: 首页 >服务器 > 解决方案 > 正文

推荐|13种编程语言对应的机器学习资源大全!

2017-12-07 09:46:18来源:

原标题:推荐|13种编程语言对应的机器学习资源大全!

1. C++

1.1 计算机视觉

  • CCV —基于C语言/提供缓存/核心的机器视觉库,新颖的机器视觉库

    https://github.com/liuliu/ccv

  • OpenCV—它提供C++, C, Python, Java 以及 MATLAB接口,并支持Windows, Linux, Android and Mac OS操作系统。

    http://opencv.org/

1.2 机器学习
  • MLPack:http://www.mlpack.org/

  • DLib:http://dlib.net/ml.html

  • ecogg:https://code.google.com/p/encog-cpp/

  • shark:http://image.diku.dk/shark/sphinx_pages/build/html/index.html

2. Closure
  • Closure Toolbox—Clojure语言库与工具的分类目录

    http://www.clojure-toolbox.com/

3.Go 3.1 自然语言处理
  • go-porterstemmer—一个Porter词干提取算法的原生Go语言净室实现

    https://github.com/reiver/go-porterstemmer

  • paicehusk—Paice/Husk词干提取算法的Go语言实现

    https://github.com/Rookii/paicehusk

  • snowball—Go语言版的Snowball词干提取器

    https://bitbucket.org/tebeka/snowball

3.2 机器学习
  • Go Learn— Go语言机器学习库

    https://github.com/sjwhitworth/golearn

  • go-pr —Go语言机器学习包.

    https://github.com/daviddengcn/go-pr

  • bayesian—Go语言朴素贝叶斯分类库。

    https://github.com/jbrukh/bayesian

  • go-galib—Go语言遗传算法库。

    https://github.com/thoj/go-galib

3.3 数据分析/数据可视化
  • go-graph—Go语言图形库。

    https://github.com/StepLg/go-graph

  • SVGo—Go语言的SVG生成库。

    http://www.svgopen.org/2011/papers/34-SVGo_a_Go_Library_for_SVG_generation/

4. Java 4.1 自然语言处理
  • CoreNLP—斯坦福大学的CoreNLP提供一系列的自然语言处理工具,输入原始英语文本,可以给出单词的基本形式(下面Stanford开头的几个工具都包含其中)。

    http://nlp.stanford.edu/software/corenlp.shtml

  • Stanford Parser—一个自然语言解析器。

    http://nlp.stanford.edu/software/lex-parser.shtml

  • Stanford POS Tagger —一个词性分类器。

    http://nlp.stanford.edu/software/tagger.shtml

  • Stanford Name Entity Recognizer—Java实现的名称识别器

    http://nlp.stanford.edu/software/CRF-NER.shtml

  • Stanford Word Segmenter—分词器,很多NLP工作中都要用到的标准预处理步骤。

    http://nlp.stanford.edu/software/segmenter.shtml

  • Tregex, Tsurgeon and Semgrex —用来在树状数据结构中进行模式匹配,基于树关系以及节点匹配的正则表达式(名字是“tree regular expressions”的缩写)。

    http://nlp.stanford.edu/software/tregex.shtml

  • Stanford Phrasal:最新的基于统计短语的机器翻译系统,java编写

    http://nlp.stanford.edu/software/phrasal/

  • Stanford Tokens Regex—用以定义文本模式的框架。

    http://nlp.stanford.edu/software/tokensregex.shtml

  • Stanford Temporal Tagger—SUTime是一个识别并标准化时间表达式的库。

    http://nlp.stanford.edu/software/sutime.shtml

  • Stanford SPIED—在种子集上使用模式,以迭代方式从无标签文本中学习字符实体

    http://nlp.stanford.edu/software/patternslearning.shtml

  • Stanford Topic Modeling Toolbox —为社会科学家及其他希望分析数据集的人员提供的主题建模工具。

    http://nlp.stanford.edu/software/tmt/tmt-0.4/

  • Twitter Text Java—Java实现的推特文本处理库

    https://github.com/twitter/twitter-text-java

  • MALLET -—基于Java的统计自然语言处理、文档分类、聚类、主题建模、信息提取以及其他机器学习文本应用包。

    http://mallet.cs.umass.edu/

  • OpenNLP—处理自然语言文本的机器学习工具包。

    https://opennlp.apache.org/

  • LingPipe —使用计算机语言学处理文本的工具包。

    http://alias-i.com/lingpipe/index.html

4.2 机器学习
  • MLlib in Apache Spark—Spark中的分布式机器学习程序库

    http://spark.apache.org/docs/latest/mllib-guide.html

  • Mahout —分布式的机器学习库

    https://github.com/apache/mahout

  • Stanford Classifier —斯坦福大学的分类器

    http://nlp.stanford.edu/software/classifier.shtml

  • Weka—Weka是数据挖掘方面的机器学习算法集。

    http://www.cs.waikato.ac.nz/ml/weka/

  • ORYX—提供一个简单的大规模实时机器学习/预测分析基础架构。

    https://github.com/cloudera/oryx

4.3 数据分析/数据可视化
  • Hadoop—大数据分析平台

    https://github.com/apache/hadoop-mapreduce

  • Spark—快速通用的大规模数据处理引擎。

    https://github.com/apache/spark

  • Impala —为Hadoop实现实时查询

    https://github.com/cloudera/impala

5. Java 5.1 自然语言处理
  • Twitter-text-js —Java实现的推特文本处理库

    https://github.com/twitter/twitter-text-js

  • NLP.js —java及coffee编写的NLP工具

    https://github.com/nicktesla/nlpjs

  • natural—Node下的通用NLP工具

    https://github.com/NaturalNode/natural

  • Knwl.js—JS编写的自然语言处理器

    https://github.com/loadfive/Knwl.js

5.2 数据分析/数据可视化
  • D3.js:http://d3js.org/

  • High Charts:http://www.highcharts.com/

  • NVD3.js:http://nvd3.org/

  • dc.js:http://dc-js.github.io/dc.js/

  • chartjs:http://www.chartjs.org/

  • dimple:http://dimplejs.org/

  • amCharts:http://www.amcharts.com/

5.3 机器学习
  • Convnet.js—训练深度学习模型的Java库。

    http://cs.stanford.edu/people/karpathy/convnetjs/

  • Clustering.js—用Java实现的聚类算法,供Node.js及浏览器使用。

    https://github.com/tixz/clustering.js

  • Decision Trees—Node.js实现的决策树,使用ID3算法。

    https://github.com/serendipious/nodejs-decision-tree-id3

  • Node-fann —Node.js下的快速人工神经网络库。

    https://github.com/rlidwka/node-fann

  • Kmeans.js—k-means算法的简单Java实现,供Node.js及浏览器使用。

    https://github.com/tixz/kmeans.js

  • LDA.js —供Node.js用的LDA主题建模工具。

    https://github.com/primaryobjects/lda

  • Learning.js—逻辑回归/c4.5决策树的Java实现

    https://github.com/yandongliu/learningjs

  • Machine Learning—Node.js的机器学习库。

    http://joonku.com/project/machine_learning

  • Node-SVM—Node.js的支持向量机

    https://github.com/nicolaspanel/node-svm

  • Brain —Java实现的神经网络

    https://github.com/harthur/brain

  • Bayesian-Bandit —贝叶斯强盗算法的实现,供Node.js及浏览器使用。

    https://github.com/omphalos/bayesian-bandit.js

6. Julia 6.1 机器学习
  • PGM—Julia实现的概率图模型框架。

    https://github.com/JuliaStats/PGM.jl

  • DA—Julia实现的正则化判别分析包。

    https://github.com/trthatcher/DA.jl

  • Regression—回归分析算法包(如线性回归和逻辑回归)。

    https://github.com/lindahua/Regression.jl

  • Local Regression —局部回归,非常平滑!

    https://github.com/dcjones/Loess.jl

  • Naive Bayes —朴素贝叶斯的简单Julia实现

    https://github.com/nutsiepully/NaiveBayes.jl

  • Mixed Models —(统计)混合效应模型的Julia包

    https://github.com/dmbates/MixedModels.jl

  • Simple MCMC —Julia实现的基本mcmc采样器

    https://github.com/fredo-dedup/SimpleMCMC.jl

  • Distance—Julia实现的距离评估模块

    https://github.com/JuliaStats/Distance.jl

  • Decision Tree —决策树分类器及回归分析器

    https://github.com/bensadeghi/DecisionTree.jl

  • Neural —Julia实现的神经网络

    https://github.com/compressed/neural.jl

  • MCMC —Julia下的MCMC工具

    https://github.com/doobwa/MCMC.jl

  • GLM —Julia写的广义线性模型包

    https://github.com/JuliaStats/GLM.jl

  • Online Learning

    https://github.com/lendle/OnlineLearning.jl

  • GLMNet —GMLNet的Julia包装版,适合套索/弹性网模型。

    https://github.com/simonster/GLMNet.jl

  • Clustering—数据聚类的基本函数:k-means, dp-means等。

    https://github.com/JuliaStats/Clustering.jl

  • SVM—Julia下的支持向量机。

    https://github.com/JuliaStats/SVM.jl

  • Kernal Density—Julia下的核密度估计器

    https://github.com/JuliaStats/KernelDensity.jl

  • Dimensionality Reduction—降维算法

    https://github.com/JuliaStats/DimensionalityReduction.jl

  • NMF —Julia下的非负矩阵分解包

    https://github.com/JuliaStats/NMF.jl

  • ANN—Julia实现的神经网络

    https://github.com/EricChiang/ANN.jl

6.2 自然语言处理
  • Topic Models —Julia下的主题建模

  • https://github.com/slycoder/TopicModels.jl

  • Text Analysis—Julia下的文本分析包

  • https://github.com/johnmyleswhite/TextAnalysis.jl

6.3 数据分析/数据可视化
  • Graph Layout —纯Julia实现的图布局算法。

    https://github.com/IainNZ/GraphLayout.jl

  • Data Frames Meta —DataFrames的元编程工具。

    https://github.com/JuliaStats/DataFramesMeta.jl

  • Julia Data—处理表格数据的Julia库

    https://github.com/nfoti/JuliaData

  • Data Read—从Stata、SAS、SPSS读取文件

    https://github.com/WizardMac/DataRead.jl

  • Hypothesis Tests—Julia中的假设检验包

    https://github.com/JuliaStats/HypothesisTests.jl

  • Gladfly —Julia编写的灵巧的统计绘图系统。

    https://github.com/dcjones/Gadfly.jl

  • Stats—Julia编写的统计测试函数包

    https://github.com/johnmyleswhite/stats.jl

  • RDataSets —读取R语言中众多可用的数据集的Julia函数包。

    https://github.com/johnmyleswhite/RDatasets.jl

  • DataFrames —处理表格数据的Julia库。

    https://github.com/JuliaStats/DataFrames.jl

  • Distributions—概率分布及相关函数的Julia包。

    https://github.com/JuliaStats/Distributions.jl

  • Data Arrays —元素值可以为空的数据结构。

    https://github.com/JuliaStats/DataArrays.jl

  • Time Series—Julia的时间序列数据工具包。

    https://github.com/JuliaStats/TimeSeries.jl

  • Sampling—Julia的基本采样算法包

    https://github.com/JuliaStats/Sampling.jl

6.4 杂项/演示文稿
  • DSP —数字信号处理

    https://github.com/JuliaDSP/DSP

  • JuliaCon Presentations—Julia大会上的演示文稿

    https://github.com/JuliaCon/presentations

  • SignalProcessing—Julia的信号处理工具

    https://github.com/davidavdav/SignalProcessing

  • Images—Julia的图片库

    https://github.com/timholy/Images.jl

7. Lua 7.1 机器学习
  • Torch7:http://torch.ch/

    • cephes —Cephes数学函数库,包装成Torch可用形式。提供并包装了超过180个特殊的数学函数,由Stephen L. Moshier开发,是SciPy的核心,应用于很多场合。

      http://jucor.github.io/torch-cephes

    • graph —供Torch使用的图形包。

      https://github.com/torch/graph

    • randomkit—从Numpy提取的随机数生成包,包装成Torch可用形式。

      http://jucor.github.io/torch-randomkit/

    • signal —Torch-7可用的信号处理工具包,可进行FFT, DCT, Hilbert, cepstrums, stft等变换。

      http://soumith.ch/torch-signal/signal/

    • nn —Torch可用的神经网络包。

      https://github.com/torch/nn

    • nngraph —为nn库提供图形计算能力。

      https://github.com/torch/nngraph

    • nnx—一个不稳定实验性的包,扩展Torch内置的nn库。

      https://github.com/clementfarabet/lua---nnx

    • optim—Torch可用的优化算法库,包括 SGD, Adagrad, 共轭梯度算法, LBFGS, RProp等算法。

      https://github.com/torch/optim

    • unsup—Torch下的非监督学习包。提供的模块与nn(LinearPsd, ConvPsd, AutoEncoder, …)及独立算法 (k-means, PCA)等兼容。

      https://github.com/koraykv/unsup

    • manifold—操作流形的包。

      https://github.com/clementfarabet/manifold

    • svm—Torch的支持向量机库。

      https://github.com/koraykv/torch-svm

    • lbfgs—将liblbfgs包装为FFI接口。

      https://github.com/clementfarabet/lbfgs

    • vowpalwabbit —老版的vowpalwabbit对torch的接口。

      https://github.com/clementfarabet/vowpal_wabbit

    • OpenGM—OpenGM是C++编写的图形建模及推断库,该binding可以用Lua以简单的方式描述图形,然后用OpenGM优化。

      https://github.com/clementfarabet/lua---opengm

    • sphagetti —MichaelMathieu为torch7编写的稀疏线性模块。

      https://github.com/MichaelMathieu/lua---spaghetti

    • LuaSHKit —将局部敏感哈希库SHKit包装成lua可用形式。

      https://github.com/ocallaco/LuaSHkit

    • kernel smoothing —KNN、核权平均以及局部线性回归平滑器

      https://github.com/rlowrance/kernel-smoothers

    • cutorch—torch的CUDA后端实现

      https://github.com/torch/cutorch

    • cunn —torch的CUDA神经网络实现。

      https://github.com/torch/cunn

    • imgraph—torch的图像/图形库,提供从图像创建图形、分割、建立树、又转化回图像的例程

      https://github.com/clementfarabet/lua---imgraph

    • videograph—torch的视频/图形库,提供从视频创建图形、分割、建立树、又转化回视频的例程

      https://github.com/clementfarabet/videograph

    • saliency —积分图像的代码和工具,用来从快速积分直方图中寻找兴趣点。

      https://github.com/marcoscoffier/torch-saliency

    • stitch —使用hugin拼合图像并将其生成视频序列。

      https://github.com/marcoscoffier/lua---stitch

    • sfm—运动场景束调整/结构包

      https://github.com/marcoscoffier/lua---sfm

    • fex —torch的特征提取包,提供SIFT和dSIFT模块。

      https://github.com/koraykv/fex

    • OverFeat—当前最高水准的通用密度特征提取器。

      https://github.com/sermanet/OverFeat

  • Numeric Lua:http://numlua.luaforge.net/

  • Lunatic Python:http://labix.org/lunatic-python

  • SciLua:http://www.scilua.org/

  • Lua – Numerical Algorithms:https://bitbucket.org/lucashnegri/lna

  • Lunum:http://zrake.webfactional.com/projects/lunum

7.2 演示及脚本
  • Core torch7 demos repository.核心torch7演示程序库

    https://github.com/e-lab/torch7-demos

    • 线性回归、逻辑回归

    • 人脸检测(训练和检测是独立的演示)

    • 基于mst的断词器

    • train-a-digit-classifier

    • train-autoencoder

    • optical flow demo

    • train-on-housenumbers

    • train-on-cifar

    • tracking with deep nets

    • kinect demo

    • 滤波可视化

    • saliency-networks

  • Training a Convnet for the Galaxy-Zoo Kaggle challenge(CUDA demo)

    https://github.com/soumith/galaxyzoo

  • Music Tagging—torch7下的音乐标签脚本

    https://github.com/mbhenaff/MusicTagging

  • torch-datasets 读取几个流行的数据集的脚本,包括:

    https://github.com/rosejn/torch-datasets

    • BSR 500

    • CIFAR-10

    • COIL

    • Street View House Numbers

    • MNIST

    • NORB

  • Atari2600 —在Arcade Learning Environment模拟器中用静态帧生成数据集的脚本。

    https://github.com/fidlej/aledatase

8. Matlab 8.1 计算机视觉
  • Contourlets —实现轮廓波变换及其使用函数的MATLAB源代码

    http://www.ifp.illinois.edu/~minhdo/software/contourlet_toolbox.tar

  • Shearlets—剪切波变换的MATLAB源码

    http://www.shearlab.org/index_software.html

  • Curvelets—Curvelet变换的MATLAB源码(Curvelet变换是对小波变换向更高维的推广,用来在不同尺度角度表示图像。)

    http://www.curvelet.org/software.html

  • Bandlets—Bandlets变换的MATLAB源码

    http://www.cmap.polytechnique.fr/~peyre/download/

8.2 自然语言处理
  • NLP —一个Matlab的NLP库

    https://amplab.cs.berkeley.edu/2012/05/05/an-nlp-library-for-matlab/

8.3 机器学习
  • Training a deep autoencoder or a classifier on MNIST digits—在MNIST字符数据集上训练一个深度的autoencoder或分类器[深度学习]。

    http://www.cs.toronto.edu/~hinton/MatlabForSciencePaper.html

  • t-Distributed Stochastic Neighbor Embedding —获奖的降维技术,特别适合于高维数据集的可视化

    http://homepage.tudelft.nl/19j49/t-SNE.html

  • Spider—Matlab机器学习的完整面向对象环境。

    http://people.kyb.tuebingen.mpg.de/spider/

  • LibSVM —支持向量机程序库

    http://www.csie.ntu.edu.tw/~cjlin/libsvm/#matlab

  • LibLinear —大型线性分类程序库

    http://www.csie.ntu.edu.tw/~cjlin/liblinear/#download

  • Machine Learning Module —M. A .Girolami教授的机器学习课程,包括PDF,讲义及代码。

    https://github.com/josephmisiti/machine-learning-module

  • Caffe—考虑了代码清洁、可读性及速度的深度学习框架

    http://caffe.berkeleyvision.org/

  • Pattern Recognition Toolbox —Matlab中的模式识别工具包,完全面向对象

    https://github.com/newfolder/PRT

8.4 数据分析/数据可视化
  • matlab_gbl—处理图像的Matlab包

    https://www.cs.purdue.edu/homes/dgleich/packages/matlab_bgl/

  • gamic—图像算法纯Matlab高效实现,对MatlabBGL的mex函数是个补充。

    http://www.mathworks.com/matlabcentral/fileexchange/24134-gaimc---graph-algorithms-in-matlab-code

9. .NET 9.1 计算机视觉
  • OpenCVDotNet —包装器,使.NET程序能使用OpenCV代码

    https://code.google.com/p/opencvdotnet/

  • Emgu CV—跨平台的包装器,能在Windows, Linus, Mac OS X, iOS, 和Android上编译。

    http://www.emgu.com/wiki/index.php/Main_Page

9.2 自然语言处理
  • Stanford.NLP for .NET —斯坦福大学NLP包在.NET上的完全移植,还可作为NuGet包进行预编译。

9.3 通用机器学习
  • Accord.MachineLearning —支持向量机、决策树、朴素贝叶斯模型、K-means、高斯混合模型和机器学习应用的通用算法,例如:随机抽样一致性算法、交叉验证、网格搜索。这个包是Accord.NET框架的一部分。

  • Vulpes—F#语言实现的Deep belief和深度学习包,它在Alea.cuBase下利用CUDA GPU来执行。

  • Encog —先进的神经网络和机器学习框架,包括用来创建多种网络的类,也支持神经网络需要的数据规则化及处理的类。它的训练采用多线程弹性传播。它也能使用GPU加快处理时间。提供了图形化界面来帮助建模和训练神经网络。

  • Neural Network Designer —这是一个数据库管理系统和神经网络设计器。设计器用WPF开发,也是一个UI,你可以设计你的神经网络、查询网络、创建并配置聊天机器人,它能问问题,并从你的反馈中学习。这些机器人甚至可以从网络搜集信息用来输出,或是用来学习。

9.4 数据分析/数据可视化
  • numl —numl这个机器学习库,目标就是简化预测和聚类的标准建模技术。

  • Math.NET Numerics—Math.NET项目的数值计算基础,着眼提供科学、工程以及日常数值计算的方法和算法。支持 Windows, Linux 和 Mac上的 .Net 4.0, .Net 3.5 和 Mono ,Silverlight 5, WindowsPhone/SL 8, WindowsPhone 8.1 以及装有 PCL Portable Profiles 47 及 344的Windows 8, 装有 Xamarin的Android/iOS 。

  • Sho —Sho是数据分析和科学计算的交互式环境,可以让你将脚本(IronPython语言)和编译的代码(.NET)无缝连接,以快速灵活的建立原型。这个环境包括强大高效的库,如线性代数、数据可视化,可供任何.NET语言使用,还为快速开发提供了功能丰富的交互式shell。

10. Python 10.1 计算机视觉
  • SimpleCV—开源的计算机视觉框架,可以访问如OpenCV等高性能计算机视觉库。使用Python编写,可以在Mac、Windows以及Ubuntu上运行。

    http://simplecv.org/

10.2 自然语言处理
  • NLTK —一个领先的平台,用来编写处理人类语言数据的Python程序

    http://www.nltk.org/

  • Pattern—Python可用的web挖掘模块,包括自然语言处理、机器学习等工具。

    http://www.clips.ua.ac.be/pattern

  • TextBlob—为普通自然语言处理任务提供一致的API,以NLTK和Pattern为基础,并和两者都能很好兼容。

    http://textblob.readthedocs.org/

  • jieba—中文断词工具。

    https://github.com/fxsjy/jieba#jieba-1

  • SnowNLP —中文文本处理库。

    https://github.com/isnowfy/snownlp

  • loso—另一个中文断词库。

    https://github.com/victorlin/loso

  • genius —基于条件随机域的中文断词库。

    https://github.com/duanhongyi/genius

  • nut —自然语言理解工具包。

    https://github.com/pprett/nut

10.3 机器学习
  • Bayesian Methods for Hackers —Python语言概率规划的电子书

    https://github.com/CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers

  • MLlib in Apache Spark—Spark下的分布式机器学习库。

    http://spark.apache.org/docs/latest/mllib-guide.html

  • scikit-learn—基于SciPy的机器学习模块

    http://scikit-learn.org/

  • graphlab-create —包含多种机器学习模块的库(回归,聚类,推荐系统,图分析等),基于可以磁盘存储的DataFrame。

  • http://graphlab.com/products/create/docs/

  • BigML—连接外部服务器的库。

    https://bigml.com/

  • pattern—Python的web挖掘模块

    https://github.com/clips/pattern

  • NuPIC—Numenta公司的智能计算平台。

    https://github.com/numenta/nupic

  • Pylearn2—基于Theano的机器学习库。

    https://github.com/lisa-lab/pylearn2

  • hebel —Python编写的使用GPU加速的深度学习库。

    https://github.com/hannes-brt/hebel

  • gensim—主题建模工具。

    https://github.com/piskvorky/gensim

  • PyBrain—另一个机器学习库。

    https://github.com/pybrain/pybrain

  • Crab —可扩展的、快速推荐引擎。

    https://github.com/muricoca/crab

  • python-recsys —Python实现的推荐系统。

    https://github.com/ocelma/python-recsys

  • thinking bayes—关于贝叶斯分析的书籍

    https://github.com/AllenDowney/ThinkBayes

  • Restricted Boltzmann Machines —Python实现的受限波尔兹曼机。[深度学习]。

    https://github.com/echen/restricted-boltzmann-machines

  • Bolt —在线学习工具箱。

    https://github.com/pprett/bolt

  • CoverTree —cover tree的Python实现,scipy.spatial.kdtree便捷的替代。

    https://github.com/patvarilly/CoverTree

  • nilearn—Python实现的神经影像学机器学习库。

    https://github.com/nilearn/nilearn

  • Shogun—机器学习工具箱。

    https://github.com/shogun-toolbox/shogun

  • Pyevolve —遗传算法框架。

    https://github.com/perone/Pyevolve

  • Caffe —考虑了代码清洁、可读性及速度的深度学习框架

    http://caffe.berkeleyvision.org/

  • breze—深度及递归神经网络的程序库,基于Theano。

    https://github.com/breze-no-salt/breze

10.4 数据分析/数据可视化
  • SciPy —基于Python的数学、科学、工程开源软件生态系统。

    http://www.scipy.org/

  • NumPy—Python科学计算基础包。

    http://www.numpy.org/

  • Numba —Python的低级虚拟机JIT编译器,Cython and NumPy的开发者编写,供科学计算使用

    http://numba.pydata.org/

  • NetworkX —为复杂网络使用的高效软件。

    https://networkx.github.io/

  • Pandas—这个库提供了高性能、易用的数据结构及数据分析工具。

    http://pandas.pydata.org/

  • Open Mining—Python中的商业智能工具(Pandas web接口)。

    https://github.com/avelino/mining

  • PyMC —MCMC采样工具包。

    https://github.com/pymc-devs/pymc

  • zipline—Python的算法交易库。

    https://github.com/quantopian/zipline

  • PyDy—全名Python Dynamics,协助基于NumPy, SciPy, IPython以及 matplotlib的动态建模工作流。

    https://pydy.org/

  • SymPy —符号数学Python库。

    https://github.com/sympy/sympy

  • statsmodels—Python的统计建模及计量经济学库。

    https://github.com/statsmodels/statsmodels

  • astropy —Python天文学程序库,社区协作编写

    http://www.astropy.org/

  • matplotlib —Python的2D绘图库。

    http://matplotlib.org/

  • bokeh—Python的交互式Web绘图库。

    https://github.com/ContinuumIO/bokeh

  • plotly —Python and matplotlib的协作web绘图库。

    https://plot.ly/python

  • vincent—将Python数据结构转换为Vega可视化语法。

    https://github.com/wrobstory/vincent

  • d3py—Python的绘图库,基于D3.js。

    https://github.com/mikedewar/d3py

  • ggplot —和R语言里的ggplot2提供同样的API。

    https://github.com/yhat/ggplot

  • Kartograph.py—Python中渲染SVG图的库,效果漂亮。

    https://github.com/kartograph/kartograph.py

  • pygal—Python下的SVG图表生成器。

    http://pygal.org/

  • pycascading:https://github.com/twitter/pycascading

10.5 杂项脚本/iPython笔记/代码库
  • pattern_classification:https://github.com/rasbt/pattern_classification

  • thinking stats 2:https://github.com/Wavelets/ThinkStats2

  • hyperopt:https://github.com/hyperopt/hyperopt-sklearn

  • numpic:https://github.com/numenta/nupic

  • 2012-paper-diginorm:https://github.com/ged-lab/2012-paper-diginorm

  • ipython-notebooks:https://github.com/ogrisel/notebooks

  • decision-weights:https://github.com/CamDavidsonPilon/decision-weights

  • Sarah Palin LDA —Sarah Palin关于主题建模的电邮。

    https://github.com/Wavelets/sarah-palin-lda

  • Diffusion Segmentation —基于扩散方法的图像分割算法集合。

    https://github.com/Wavelets/diffusion-segmentation

  • Scipy Tutorials —SciPy教程,已过时,请查看scipy-lecture-notes

    https://github.com/Wavelets/scipy-tutorials

  • Crab—Python的推荐引擎库。

    https://github.com/marcelcaraciolo/crab

  • BayesPy—Python中的贝叶斯推断工具。

    https://github.com/maxsklar/BayesPy

  • scikit-learn tutorials—scikit-learn学习笔记系列

    https://github.com/GaelVaroquaux/scikit-learn-tutorial

  • sentiment-analyzer —推特情绪分析器

    https://github.com/madhusudancs/sentiment-analyzer

  • group-lasso—坐标下降算法实验,应用于(稀疏)群套索模型。

    https://github.com/fabianp/group_lasso

  • mne-python-notebooks—使用 mne-python进行EEG/MEG数据处理的IPython笔记

    https://github.com/mne-tools/mne-python-notebooks

  • pandas cookbook—使用Python pandas库的方法书。

    https://github.com/jvns/pandas-cookbook

  • climin—机器学习的优化程序库,用Python实现了梯度下降、LBFGS、rmsprop、adadelta 等算法。

    https://github.com/BRML/climin

10.6 Kaggle竞赛源代码
  • wiki challange —Kaggle上一个维基预测挑战赛 Dell Zhang解法的实现。

    https://github.com/hammer/wikichallenge

  • kaggle insults—Kaggle上”从社交媒体评论中检测辱骂“竞赛提交的代码

    https://github.com/amueller/kaggle_insults

  • kaggle_acquire-valued-shoppers-challenge—Kaggle预测回头客挑战赛的代码

    https://github.com/MLWave/kaggle_acquire-valued-shoppers-challenge

  • kaggle-cifar —Kaggle上CIFAR-10 竞赛的代码,使用cuda-convnet

    https://github.com/zygmuntz/kaggle-cifar

  • kaggle-blackbox —Kaggle上blackbox赛代码,关于深度学习。

    https://github.com/zygmuntz/kaggle-blackbox

  • kaggle-accelerometer —Kaggle上加速度计数据识别用户竞赛的代码

    https://github.com/zygmuntz/kaggle-accelerometer

  • kaggle-advertised-salaries —Kaggle上用广告预测工资竞赛的代码

    https://github.com/zygmuntz/kaggle-advertised-salaries

  • kaggle amazon —Kaggle上给定员工角色预测其访问需求竞赛的代码

    https://github.com/zygmuntz/kaggle-amazon

  • kaggle-bestbuy_big—Kaggle上根据bestbuy用户查询预测点击商品竞赛的代码(大数据版)

    https://github.com/zygmuntz/kaggle-bestbuy_big

  • kaggle-bestbuy_small—Kaggle上根据bestbuy用户查询预测点击商品竞赛的代码(小数据版)

    https://github.com/zygmuntz/kaggle-bestbuy_small

  • Kaggle Dogs vs. Cats —Kaggle上从图片中识别猫和狗竞赛的代码

    https://github.com/kastnerkyle/kaggle-dogs-vs-cats

  • Kaggle Galaxy Challenge —Kaggle上遥远星系形态分类竞赛的优胜代码

    https://github.com/benanne/kaggle-galaxies

  • Kaggle Gender —Kaggle竞赛:从笔迹区分性别

    https://github.com/zygmuntz/kaggle-gender

  • Kaggle Merck—Kaggle上预测药物分子活性竞赛的代码(默克制药赞助)

    https://github.com/zygmuntz/kaggle-merck

  • Kaggle Stackoverflow—Kaggle上 预测Stack Overflow网站问题是否会被关闭竞赛的代码

    https://github.com/zygmuntz/kaggle-stackoverflow

  • wine-quality —预测红酒质量。

    https://github.com/zygmuntz/wine-quality

11. Ruby 11.1 自然语言处理
  • Treat—文本检索与注释工具包,Ruby上我见过的最全面的工具包。

    https://github.com/louismullie/treat

  • Ruby Linguistics—这个框架可以用任何语言为Ruby对象构建语言学工具。包括一个语言无关的通用前端,一个将语言代码映射到语言名的模块,和一个含有很有英文语言工具的模块。

    http://www.deveiate.org/projects/Linguistics/

  • Stemmer—使得Ruby可用 libstemmer_c中的接口。

    https://github.com/aurelian/ruby-stemmer

  • Ruby Wordnet —WordNet的Ruby接口库。

    http://www.deveiate.org/projects/Ruby-WordNet/

  • Raspel —aspell绑定到Ruby的接口

    http://sourceforge.net/projects/raspell/

  • UEA Stemmer—UEALite Stemmer的Ruby移植版,供搜索和检索用的保守的词干分析器

    https://github.com/ealdent/uea-stemmer

  • Twitter-text-rb—该程序库可以将推特中的用户名、列表和话题标签自动连接并提取出来。

    https://github.com/twitter/twitter-text-rb

11.2 机器学习
  • Ruby Machine Learning —Ruby实现的一些机器学习算法。

    https://github.com/tsycho/ruby-machine-learning

  • Machine Learning Ruby

    https://github.com/mizoR/machine-learning-ruby

  • jRuby Mahout —精华!在JRuby世界中释放了Apache Mahout的威力。

    https://github.com/vasinov/jruby_mahout

  • CardMagic-Classifier—可用贝叶斯及其他分类法的通用分类器模块。

    https://github.com/cardmagic/classifier

  • Neural Networks and Deep Learning—《神经网络和深度学习》一书的示例代码。

    https://github.com/mnielsen/neural-networks-and-deep-learning

11.3 数据分析/数据可视化
  • rsruby – Ruby – R bridge

  • https://github.com/alexgutteridge/rsruby

  • data-visualization-ruby—关于数据可视化的Ruby Manor演示的源代码和支持内容

  • https://github.com/chrislo/data_visualisation_ruby

  • ruby-plot —将gnuplot包装为Ruby形式,特别适合将ROC曲线转化为svg文件。

  • https://www.ruby-toolbox.com/projects/ruby-plot

  • plot-rb—基于Vega和D3的ruby绘图库

  • https://github.com/zuhao/plotrb

  • scruffy —Ruby下出色的图形工具包

  • http://www.rubyinside.com/scruffy-a-beautiful-graphing-toolkit-for-ruby-194.html

  • SciRuby:http://sciruby.com/

  • Glean—数据管理工具

    https://github.com/glean/glean

  • Bioruby:https://github.com/bioruby/bioruby

  • Arel:https://github.com/nkallen/arel

12. R 12.1 通用机器学习
  • Clever Algorithms For Machine Learning

    https://github.com/jbrownlee/CleverAlgorithmsMachineLearning

  • Machine Learning For Hackers

    https://github.com/johnmyleswhite/ML_for_Hackers

  • Machine Learning Task View on CRAN—R语言机器学习包列表,按算法类型分组。

    http://cran.r-project.org/web/views/MachineLearning.html

  • caret—R语言150个机器学习算法的统一接口

    http://caret.r-forge.r-project.org/

  • SuperLearner and subsemble—该包集合了多种机器学习算法

    https://github.com/ecpolley/SuperLearner

    http://cran.r-project.org/web/packages/subsemble/index.html

  • Introduction to Statistical Learning

    http://www-bcf.usc.edu/~gareth/ISL/

12.2 数据分析/数据可视化
  • Learning Statistics Using R

    http://health.adelaide.edu.au/psychology/ccs/teaching/lsr/

  • ggplot2—基于图形语法的数据可视化包。

    http://ggplot2.org/

13. Scala 13.1 自然语言处理
  • ScalaNLP—机器学习和数值计算库的套装

    http://www.scalanlp.org/

  • Breeze —Scala用的数值处理库

    https://github.com/scalanlp/breeze

  • Chalk—自然语言处理库。

    https://github.com/scalanlp/chalk

  • FACTORIE—可部署的概率建模工具包,用Scala实现的软件库。为用户提供简洁的语言来创建关系因素图,评估参数并进行推断。

    https://github.com/factorie/factorie

13.2 数据分析/数据可视化
  • MLlib in Apache Spark—Spark下的分布式机器学习库

    http://spark.apache.org/docs/latest/mllib-guide.html

  • Scalding —CAscading的Scala接口

    https://github.com/twitter/scalding

  • Summing Bird—用Scalding 和 Storm进行Streaming MapReduce

    https://github.com/twitter/summingbird

  • Algebird —Scala的抽象代数工具

    https://github.com/twitter/algebird

  • xerial —Scala的数据管理工具

    https://github.com/xerial/xerial

  • simmer —化简你的数据,进行代数聚合的unix过滤器

    https://github.com/avibryant/simmer

  • PredictionIO —供软件开发者和数据工程师用的机器学习服务器。

    https://github.com/PredictionIO/PredictionIO

  • BIDMat—支持大规模探索性数据分析的CPU和GPU加速矩阵库。

    https://github.com/BIDData/BIDMat

13.3 机器学习
  • Conjecture—Scalding下可扩展的机器学习框架

    https://github.com/etsy/Conjecture

  • brushfire—scalding下的决策树工具

    https://github.com/avibryant/brushfire

  • ganitha —基于scalding的机器学习程序库

    https://github.com/tresata/ganitha

  • adam—使用Apache Avro, Apache Spark 和 Parquet的基因组处理引擎,有专用的文件格式,Apache 2软件许可。

    https://github.com/bigdatagenomics/adam

  • bioscala —Scala语言可用的生物信息学程序库

    https://github.com/bioscala/bioscala

  • BIDMach—机器学习CPU和GPU加速库。

    https://github.com/BIDData/BIDMach

原文:http://www.cnblogs.com/maybe2030/p/4585777.html

推荐阅读
  • 电影花絮
  • 电影情报
  • 圈子新闻
  • 电影新闻
  • 电影搜罗
  • 电视剧
  • 影视演员