数据分析误区总结-职坐标

数据分析误区总结

小职 2020-09-24 来源：阅读 1705 评论 0

摘要：本篇总结了做数据分析的过程中，我们会遇到的误区，包含需求、数据采集、指标等方面，希望对从事数据分析，或者想从事数据分析行业的你有所帮助。

本篇总结了做数据分析的过程中，我们会遇到的误区，包含需求、数据采集、指标等方面，希望对从事数据分析，或者想从事数据分析行业的你有所帮助。

数据分析误区总结

有一个有趣的现象，在全世界任何一个国家的教育体系中，地位最高的永远是2门课程：其一是语言，其二必是数学。语言是表达的工具，数字是精准的智慧。无论文化差异多大，这一个全球各国现象都保持着惊人的统一。

管理大师爱德华兹·戴明曾经说过：“除了上帝，任何人都必须用数据说话。”当时人们仍处在一个数据匮乏的时代，而今天则完全不同。

“用数据说话”，已经成为一种流行语，有时候它更像是一种证明，一个论据，或者是一个真相，在我们的眼里，数据就是事实，那么问题来了，数据真的不会骗人吗？

首先，数据分析是建立在统计学的基础上的。统计学是科学的理论基石，所以数据分析的科学性也显得如此理所当然。

数据分析的流程：

一般可以按“定义需求-设计分析模型-数据采集-数据处理-数据分析-数据展现-报告撰写”这样的步骤来实施一个数据分析项目，整个过程都需要人来参与，有人参与的地方就会有犯错的可能。以下就来讨论下可能会出现“数据骗人”的几个方面。

需求不匹配

数据分析师的需求来源，通常是业务方。

业务方最熟悉业务，了解自己的产品和业务，但是数据分析师最熟悉的是科学的统计分析方法，所以两者在沟通的过程中可能就会产生理解偏差。

数据需求通常是需求方根据自己对业务的理解，针对特定业务场景提出的，是用某种数据来验证或挖掘业务的潜在规律或价值。需求方有自己对业务的理解，TA将需要数据支持的地方，翻译给数据分析师，让数据分析师帮忙拉取相关数据。且不说这个过程中信息传递可能会存在衰减和丢失，拉取的数据能否真正解决需求方的问题，是否是解决问题的最佳方式，都很难说得清楚。

这就很容易造成需求不匹配的情况，由于翻译带来的信息损耗，导致最终提供的数据和原始问题不匹配。

所以就会出现业务方提出多轮数据需求，不断修改，目的只是在探索中解决同一个问题。

建议：需求方将自己要解决的问题或疑惑先梳理一下，列出多种可能相关的因素。然后和数据分析师一起谈论，把各自擅长的东西结合起来进行碰撞，找到最佳的解决思路，用数据帮助业务发展。

采集有偏差

可以说数据采集或提取是最容易出问题的环节了，有些问题很难被发现。

容易出问题的点，主要有以下几个方面：

1. 数据样本量不够

我们在分析某些特定的业务或用户行为时，可能存在相对关注度较小，用户使用很少的情况，或者是在提取数据的过程中，增加了很多的限制条件或者多种用户行为或属性进行交叉后，得到很少的用户样本。

对于这种数量小的数据样本得出的结果很有可能会出错，但是样本量多少才算够多呢？这个没有一个特定的数值，通常只能结合具体的场景进行分析。

建议：可以把时间线拉长，或者把不重要的限定条件去掉，来获得足量的样本。

2. 存在选择性偏见或者幸存者偏见

统计学的另一大理论基石，便是中心极限定理。

简单描述下就是，总体样本中，任意一个群体样本的平均值，都会围绕在这个群体的整体平均值周围。

通常我们会按照这个原理，用随机抽样的方式，通过对样本的分析来估计整体。当然得出的结论会比较接近真实情况的。可是有一个问题是，我们在采集数据的过程中是否是真的随机。

举个实际业务场景的例子，在软件应用升级期间，通过衡量用户的日活、人均播放量、人均播放时长等指标，来判断新版本的欢迎度是否优于老版本。听起来好像没有什么问题，其实这里就隐藏了选择性偏见，因为新版本发布时，第一批升级上来的用户往往就是最活跃的用户。这批用户在这些指标上，本来表现就是优于一般用户的，因此指标数据更高并不能说明更好。

3. 混入脏数据

脏数据是指严重不合理或对于实际业务毫无意义的数据，通常是由程序bug、第三方攻击、网络传输异常等原因造成的。

这种数据的破坏性比较大，可能引发程序报错，对指标的准确度影响也较大。

例如，我们要分析用户对各个类型视频的喜好程度，而用于分析用户播放时长的数据中，如果电影类型混入了较多时长非常大的脏数据，就会造成电影平均播放时长偏高的情况，容易造成对用户喜好的误判。

因此，对脏数据的清洗和处理，也是数据分析师日常工作中非常重要的一部分。

通常我们会采用数据校验的手段，屏蔽掉校验失败的数据。同时，在分析具体业务时，也要针对特定业务，对所使用的数据进行合理性限定，过滤掉异常离群值，来确保拥有比较好的数据质量。

指标不合理

数据分析的结果通常是各种各样的指标，每个指标都有自己的统计逻辑，反映的事物的某些方面的本质，在进行数据分析时，如果不能选择正确的指标，也可能会走入误区，从而得出错误的结论。

例如，很多时候我们会使用平均值来描述一组数据的集中趋势。我们在制定业务阈值时，也经常会参考平均值。但是，有些业务场景不适合使用平均值。比如，变化比较大，存在极端值的数据，或者是对最终结果影响不一致的数据。这种时候，你就要考虑其他指标，如加权平均值、百分位数、小数值合并后再求平均值。

分析有错误

数据分析的过程很复杂，稍微不细心就有可能会出现数据结果偏差较大的情况。

建议：首先，要保持良好的编码习惯，命名和SQL写法都要规范，适当缩进，关键地方要加注释；其次，最好先设计好思路，再开始动手，写SQL时先从内层逻辑写起，再嵌套外层；最后，不论什么数据，在交付之前都要进行验证，可以从其他维度对比或者观察长时间的数据变化趋势等方式来验证数据的合理性和正确性。