大数据分析 对数据科学家来说最重要的算法和统计模型
沉沙 2018-10-23 来源 : 阅读 1413 评论 0

摘要:本篇教程介绍了大数据分析 对数据科学家来说最重要的算法和统计模型,希望阅读本篇文章以后大家有所收获,帮助大家对大数据云计算大数据分析的理解更加深入。

本篇教程介绍了大数据分析 对数据科学家来说最重要的算法和统计模型,希望阅读本篇文章以后大家有所收获,帮助大家对大数据云计算大数据分析的理解更加深入。

<




  统计学的方法包括在bootcamps和证书程序中概述的一些更常见的方法,还有一些通常在研究生统计学程序中所教授的不太常见的方法(但在实践中可以有很大的优势)。所有建议的工具都是我经常使用的工具:

  1)广义线性模型,它构成了大多数监督机器学习方法的基础(包括逻辑回归和Tweedie回归,它概括了在工业中遇到的大多数计数或连续结果……)

  2) 时间序列方法(ARIMA, SSA, 基于机器学习的方法)

  3) 结构方程建模 (模拟和测试介导途径)

  4) 因子分析法(调查设计与验证的探索和验证)

  5) 功率分析/试验设计 (特别是基于仿真的试验设计,以免分析过度)

  6) 非参数检验(从零开始的推导, 尤其通过模拟)/MCMC

  7) K均值聚类

  8) 贝叶斯方法(Na?ve Bayes, 贝叶斯模型求平均值, 贝叶斯自适应试验...)

  9) 惩罚回归模型 (elastic net, LASSO, LARS...) ,通常给模型增加惩罚因素(SVM, XGBoost...), 这对于预测值超过观测值的数据集是有用的(常见于基因组学与社会科学研究)

  10) 样条模型(MARS...) 用于灵活性建模过程

  11)马尔可夫链和随机过程 (时间序列建模与预测建模的另一种方法)

  12)缺失数据填补方案及其假设(missForest, MICE...)

  13) 生存分析(非常有助于制造建模和消耗过程)

  14) 混合建模

  15) 统计推断与分组测试(A/B测试和在许多交易活动中实施更复杂的设计)

  机器学习扩展了许多这样框架,特别是K均值聚类和广义线性建模。在许多行业中一些有用的常见技术(还有一些更模糊的算法,在bootcamps或证书程序中出人意料的有用,但学校里很少教) 包括:

  1)回归/分类树(用于高精度、可解释性好、计算费用低的广义线性模型的早期推广)

  2)维数约简(PCA和多样学习方法如MDS和tSNE)

  3)经典前馈神经网络

  4)装袋组合(构成了随机森林和KNN回归整合等算法的基础)

  7)加速整合(这是梯度提升和XGBoost算法的基础)

  8)参数优化或设计项目的优化算法(遗传算法,量子启发进化算法,模拟锻炼,粒子群优化)

  9)拓扑数据分析工具,特别适合于小样本大小的无监督学习(持久同调, Morse-Smale聚类, Mapper...)

  10)深度学习架构(一般的深度架构)

  11) KNN局部建模方法(回归, 分类)

  12)基于梯度的优化方法

  13)网络度量与算法(中央度量法、中间性、多样性、熵、拉普拉斯算子、流行病扩散、谱聚类)

  14)深度体系架构中的卷积和汇聚层(专门适用于计算机视觉和图像分类模型)

  15)层次聚类 (聚类和拓扑数据分析工具相关)

  16)贝叶斯网络(路径挖掘)

  17)复杂性与动态系统(与微分方程有关,但通常用于模拟没有已知驱动程序的系统)

  依靠所选择的行业,可能需要与自然语言处理(NLP)或计算机视觉相关的附加算法。然而,这些是数据科学和机器学习的专门领域,进入这些领域的人通常已经是那个特定领域的专家。

  学术项目之外的一些学习这些方法的资源包括:

  Christopher, M. B. (2016). 《模式识别与机器学习》,施普林格出版社,纽约。

  Friedman, J., Hastie, T., & Tibshirani, R. (2001). 《统计学习的要素》(卷1, 337-387页). 纽约: 统计中的斯普林格级数。

  https://www.coursera.org/learn/machine-learning

  //professional.mit.edu/programs/short-programs/machine-learning-big-data

  https://www.slideshare.net/ColleenFarrelly/machine-learning-by-analogy-59094152      
      
          

本文由职坐标整理并发布,希望对同学们有所帮助。了解更多详情请关注职坐标大数据云计算大数据分析频道!

本文由 @沉沙 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程