大数据分析之数据科学究竟是什么
沉沙 2019-09-19 来源 : 阅读 1040 评论 0

摘要:本篇文章探讨了大数据分析之数据科学究竟是什么,希望阅读本篇文章以后大家有所收获,帮助大家对相关内容的理解更加深入。

本篇文章探讨了大数据分析之数据科学究竟是什么,希望阅读本篇文章以后大家有所收获,帮助大家对相关内容的理解更加深入。

大数据分析之数据科学究竟是什么

<

  数据科学是一门将数据变得有用的学科。它包含三个重要概念:
  统计
  机器学习
  数据挖掘/分析
  数据科学的定义
  如果你回顾一下数据科学这个术语的[早期历史](),会发现有两个主题密切相连:
  大数据意味着计算机的使用频率增加。
  统计学家很难将纸张上所写算法用计算机实现。
  由此,数据科学得以出现。早先,人们将数据科学家视作会编码的统计学家。如今看来,这种说法并不准确,首先让我们回到数据科学本身。
推特给出的定义circa 2014
  2003年,《数据科学杂志》曾提出:“所谓的‘数据科学’,指的是那些任何与数据相关的内容”。对此,我表示赞同,现在一切都无法与数据分割。
  之后,对数据科学的定义便层出不穷,例如Conway的维恩图,以及Mason和Wiggins的经典观点。
Drew Conway对数据科学的定义
  维基百科上对数据科学的定义更接近于我给学生讲授的内容:
  数据科学仅是一种概念,它结合了统计学、数据分析、机器学习及其相关方法,旨在利用数据对实际现象进行“理解和分析”。
  简单来讲:数据科学是一门将数据变得有用的学科。
  现在你也许不禁会问,“这会不会太简单了,‘有用’怎么就能包含所有的术语呢?”
  先看下图,该图内容与维基百科给出的定义十分契合:
  这些都是什么,我们又如何知道处于图中所描述的哪个阶段呢?
  统计学家和机器学习工程师的区别不在于前者使用R,而后者使用Python。由于众多原因,按照SQL、R、Python进行分类是不合理的,其中最重要的原因是软件会更新。目前,已经可以用SQL来处理机器学习问题。
  新手依旧喜欢采用这种方式进行区分,甚至很多大学课程也是如此安排,但这不够合理。并且,最好不要采用直方图、t检验以及神经网络进行分类。如果你足够聪明,并且拥有自己的观点,你可以使用相同的算法解决所有的数学科学问题。
  我建议可按如下方式进行区分:
  None-One-Many
  这究竟指的是什么呢?没错,就是决定!当所有你需要的事实对你可见时,你可以通过描述性分析做出尽可能多的决定。
  我们的行动和决定会影响到我们周围的世界。
  接下来我们将继续探讨如何让数据变得有用。对我来说,有用的概念与影响世界的行动紧密相连。举个形象的例子:如果我们相信圣诞老人的存在,那圣诞老人这个概念就不重要了,除非它可能会以某种方式影响我的行为。然后,取决于这种行为的潜在后果,它可能开始变得非常重要。
  下图是决策导向图,您可以通过以下三步让数据变得有用。
  数据挖掘
  如果你不知道你要作何决定,最好的办法就是去寻找灵感。这就是所谓的数据挖掘、数据分析、描述性分析、探索性数据分析或知识发现。
  分析的黄金准则:只对你所见的下结论。
  除非你知道如何制定你的决策,否则就从寻找灵感开始吧。做法很简单,只需要你将数据集想象为你在黑暗的房间中发现的一堆底片。数据挖掘就是让设备尽可能快地公开所有的图片,这样你就能看到这些图片上是否有什么鼓舞人心的东西。和照片一样,不要把你看到的东西想得太严肃。你没有拍这些照片,所以你对屏幕之外的东西了解不多。数据挖掘的黄金法则是:只对你能看到的做出结论,不对你看不到的做出结论,因为你需要统计数据和更多的专业知识。
  除此之外,你还应尽力做到最好。数据挖掘的专业知识是通过检查数据的速度来判断的,不要迷恋那些看似有趣的东西。
  暗房一开始很吓人,但其实也没什么大不了的。只要学会操作设备就行。这是R语言的教程,这是Python语言的教程。当你开始玩得开心时,你可以称自己为数据分析师,当你能够以闪电般的速度曝光照片以及所有其他类型的数据集时,你就可以称为专家分析师。
  统计推断
  灵感很容易获取,但严谨却很难做到,如果你想掌握数据,则需要专业课程的学习。作为一名统计学专业的本科生和研究生,我认为统计学推论(简称统计学)是这三个领域中最难且最具哲学思想的。想要做好它需要花费不少的时间。
  如果你打算做出高质量且风险可控的决策,由于决策不仅仅依赖你所得到的数据,此时你需要在你的分析团队中加入统计技能。
  在情况不确定的时候,或许统计学能够改变你的想法。
  机器学习
  机器学习从本质上来讲,是使用示例而非指令来实现操作的。我也曾写过一些关于机器学习的文章,包括机器学习与人工智能有何不同、如何入门机器学习、企业运用机器学习的经验教训以及向孩子介绍监督学习等。
  数据工程
  数据工程指的是将数据传递给数据科学团队的工作。它本身就是一个复杂的领域,通常而言,它更接近于软件工程,而不是统计学。
  数据工程与数据科学的差异是前后的区别。
  获取数据之前的大部分技术工作都可以被称为“数据工程”,而获取到数据后我们所做的一切都是“数据科学”。
  决策智能
  决策智能是关于决策的,包括基于数据的大规模决策,这使得它变成了一门工程学科。利用社会和管理学科的观点,增强数据科学的应用。
  决策只能是社会和管理学科的组成部分。换句话说,它是这些数据科学的超集,而不涉及为通用用途创建基本方法之类的研究工作。      
          

      本文由职坐标整理发布,学习更多的相关知识,请关注职坐标IT知识库!

本文由 @沉沙 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程