spark机器学习算法研究和源码分析 本项目对spark ml包中各种算法的原理加以介绍并且对算法的代码实现进行详细分析,旨在加深自己对机器学习算法的理解,熟悉这些算法的分布式实现方式。 本系列文章支持的spark版本 spark1.6.x 本系列的目录结构 本系列目录如下: 数据类型 基本统计 summary statistics(概括统计) correlations(相关性系数) tratified sampling(分层取样) hypothesis testing(假设检验) random data generation(随机数生成) Kernel density estimation(核密度估计) 协同过滤 交换最小二乘 分类和回归 线性模型 SVMs(支持向量机) 逻辑回归 线性回归 朴素贝叶斯 决策树 多种树 随机森林 梯度增强树 保序回归 聚类 k-means算法 GMM(高斯混合模型) PIC(快速迭代聚类) LDA(隐式狄利克雷分布) 二分k-means算法 流式k-means算法 最优化算法 梯度下降算法 L-BFGS(限制内存BFGS) NNLS(非负最小二乘) 降维 SVD(奇异值分解) PCA(主成分分析) 特征抽取和转换 TF-IDF Word2Vec StandardScaler(特征缩放) Normalizer(规则化) ChiSqSelector(卡方选择器) ElementwiseProduct(元素智能乘积) 说明 本专题的大部分内容来自spark源码、spark官方文档,并不用于商业用途。转载请注明本专题地址。 本专题引用他人的内容均列出了参考文献,如有侵权,请务必邮件通知作者。邮箱地址:endymecy@sina.cn License 本文使用的许可见 LICENSE