大数据分析之数据挖掘:聊聊那些年你我踩过的“坑”
沉沙 2019-02-20 来源 : 阅读 1390 评论 0

摘要:本篇文章探讨了大数据分析之数据挖掘:聊聊那些年你我踩过的“坑”,希望阅读本篇文章以后大家有所收获,帮助大家对相关内容的理解更加深入。

本篇文章探讨了大数据分析之数据挖掘:聊聊那些年你我踩过的“坑”,希望阅读本篇文章以后大家有所收获,帮助大家对相关内容的理解更加深入。

大数据分析之数据挖掘:聊聊那些年你我踩过的“坑”


矿工一枚,有太多的故事(眼泪)想要与大家分享。今天就来谈一谈数据挖掘中常常被我们忽略的小问题(踩过的坑)。
咳咳注意,本篇不是八卦文,在这里我们要正经地讨论一些小case。如图所示,我们以左图代表现实世界,右图代表模型世界——对,数据挖掘的世界。从左至右的转换虽合情合理(技术上能够实现),又有微妙的不同——是不是更美啦?合情合理是说我们的空间映射不能脱离实际,美颜也要在一定的框架之下,要有技术能够实现。微妙的不同在于,我们常常习惯于这样的美,习惯于用这种方式来解决现实世界的问题(如果生活在唐代,我们可能有不同的解决问题的方法,哈哈)。可能有同学要问,干嘛大费周章,直接在现实世界解决问题不就OK了吗? 然而现实情况是,大部分情况下这样并不能解决问题,甚至很多时候,我们不能得到如左图那样完整的数据。由于这个原因,我们的模型世界异彩纷呈。这个问题太大,之后再讲吧。本着主旨,我们来看看怎么对现实世界进行分析挖掘。

数据挖掘流程概览首先,数据挖掘遵循着一整套标准开发流程,其中应用较广的是跨行业的CRISP-DM (Cross Industry Standard Process for Data Mining) 标准,以及SAS的SEMMA (Sample,Explore,Modify,Model,Assess) 流程标准。相对来说CRISP-DM应用范围更广一些,如下为CRISP-DM流程图:

图二 CRISP-DM流程图

CRISP-DM的成功之处在于它是面向数据挖掘项目开发的,并且与行业、背景、数据挖掘工具无关。它可以将整个数据挖掘过程同标准的业务过程相结合,把具体的业务目标映射为数据挖掘目标,从而保障数据挖掘的结果能更好地指导业务决策。


接下来,我们会顺着CRISP-DM流程来挖一挖有哪些坑是我们会不小心掉进去的。

数据挖掘小坑集锦


流程之业务理解


在业务理解阶段,我们实现了或者说需要实现现实世界到模型世界的变迁。我想美,这是我的目的。但是注意——坑来了。
在实际情况中,我们常常遇到的坑是"我想美",即只有一个宏大的愿望,却没能从现实世界中提炼出真正能够落地的地方。比如说,我想要"脸"变得好看些,那么,现实中你需要有"脸"才行啊。这一部分往往不被重视,我是有"脸"的人啊,变美就成。


坑一:业务目标不明晰


美有多种,一定要足够具体,明确客户真正想要达到什么目标。如果是多个目标,且存在互斥关系,如何进行排序取舍? 按照什么标准来执行? 只能美"脸"么? "头发" 能不能做一下呢? 这一坑,有时好过,有时真不好过,认真对待总是对的。


坑二:环境评析不深入


环境评析,是对业务目标的执行与展开。美“脸"可以,有工具么? "脸" 能够给提取出来吧? 是否需要美容专家来指导指导? 这个坑,其实并不大,因为在现阶段大部分情况是"脑袋决定屁股"的嘛。往往是人员、数据、工具等齐全了,领导们觉得是不是得做点什么东西出来了呢? 可能这一点表述的不够严谨,欢迎拍砖。这一坑,要求人员能够胜任评析的工作,能够看出脸的哪部分是哪部分; 要求"脸"足够丰富,能够支撑得起后续的整容计划; 要求工具得当,使得顺手。总体来说,此坑必填才能顺利地将项目进行下去。


坑三:实施计划跟不上变化


基于对环境的评估,以及对业务目标的理解,我们终于能够明确一个还算靠谱的挖掘目标——把脸优化为瓜子脸。于是,我们制定了详细的实施计划,准备大干一场。这一坑,现阶段是开挖了,也填不上,需要在以后阶段逐步cover


流程之数据理解


基于业务理解,在数据理解阶段,以初步数据收集开始,检查数据的可访问性和解决具体的业务问题的充分性,接下来进行一些活动,目的是熟悉数据,识别数据质量的问题,从而获得关于数据的第一手信息,发现有趣的子集,形成对隐含的信息的假设。如图一左图所示,是真正开始进行脸的"抽取"了,为了实现目标,需要结合专家人员的知识,抽取相应的组织数据,如脸部分的明细数据,脸表皮层数据,脸真皮层数据,脸皮下层数据等等,甚至为了整体上的协调,会抽取整体轮廓数据等。这一过程,是业务理解中环境评析的深入与综合。


坑一:原始数据收集困难


为了实现美颜的目的,需要非常多的数据支撑。现实中,可能由于种种原因,有一些关键数据不能够收集。这一坑,有着十分现实的硬约束,比如你就是不能收集客户的隐私信息或者不能得到各国CDS证券的历史交易信息等。这一硬约束,除非通过其它变通的方式来解决,要不就是无解的。


坑二:原始数据重叠


与坑一相反,这个坑恰恰是我有更多的原始数据,但是,数据口径并不统一,如何整合它们将是一个新的难题。如果专家人员能更多地参与和梳理,此坑往往是能够解决的,但也是一个需要耗费相当多人力物力的过程。日前,《银行业金融机构数据治理指引》则明确地表明数据是需要精心“呵护”的。


坑三:以抽样代总体


大数据需要抽样么?有人会想,我们国家也就14亿人脸,全量拿来就好了嘛——有时候,还真难以实现。一方面,现实当中存在取数的困难性,存在计算的困难性;另一方面,抽样与总体总是相对的,明确研究的总体很重要,总体确定了,再考虑抽样的问题。这个坑其实不太明显,但往往决定模型的成败。如果我们样本把鼻子高且颜值低的人过多地加入我们样本,则会发现鼻子越高观赏度越低,从而带来抽样偏见,无法对总体做出准确描述。


流程之数据准备


基于对数据的理解与洞察,我们开始了原始数据构造最终数据集(将要输入建模工具的数据)的活动。抽取相应的组织数据,并不能够直接地堆砌,直接堆砌还是现实世界,要达到模型世界,还需要较多步骤的转换才成。看坑。


坑一:重抽样的问题


在风险欺诈领域,坏样本总是非常稀少,为了对坏样本有一个较好的拟合,往往会人为增大坏样本的比重。但是调整完样本之后,能够直接应用么? 这个坑,也不太明显。通常情况下,在关注排名的领域是可以的,而在关注实际发生率,如诊断医学、保险学领域则容易犯错。请看下图。在增加调整项和不增加调整项情况下,模型拟合的结果与实际结果有比较大的差别。具体实例请参考SAS官方链接//support.sas.com/kb/22/601.html。


坑二:变量编码的问题


在进行空间映射时,免不了进行各种变换,其中比较常用的是哑变量转换——dummy coding。而有些软件如SAS会支持进行另一种转换----effect coding。两种转换方式对结果的正确性是没有影响的,但有时候进行数据验证,比方看OR值,使用系数来进行验证,会发现对不上号。这个坑还是比较隐含的,但也需要有清晰的思考。



坑三:目标变量问题  

本文由职坐标整理发布,学习更多的相关知识,请关注职坐标IT知识库!

本文由 @沉沙 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程