沉沙
2019-02-20
来源 :
阅读 2534
评论 0
摘要:本篇文章探讨了大数据分析之数据科学比赛经历分享——风机开裂故障预警比赛,希望阅读本篇文章以后大家有所收获,帮助大家对相关内容的理解更加深入。
本篇文章探讨了大数据分析之数据科学比赛经历分享——风机开裂故障预警比赛,希望阅读本篇文章以后大家有所收获,帮助大家对相关内容的理解更加深入。

首先介绍一下比赛背景。这个比赛是中电投的一个关于风机开裂故障分析的预警的比赛。
训练数据有将近5万个样本,测试数据有将近9万个样本。数据来自于SCADA采集系统。采集了10分钟之内的75个特征值的数据信息,label是一周以内风机是否会发生故障的label。
每个样本10分钟之内大概采集到了450条数据,一共75个特征,也就是差不多75*450个信息。最后三个特征完全没有数据,所以一开始做的时候,我们就把最后三个特征进行删除,实际上我们是对72个特征进行的数据分析。最开始,用的是seaborn画的正常风机和不正常风机的频率分布图,比如说对于轮毂转速这个特征:
1import seaborn as snsimport pandas as pd
2data_file = r"D:\fan_fault\feature1.csv"
3pre_process = pd.read_csv(data_file, encoding = "gbk")
4
5pre_process = pre_process.fillna(0)
6feature1_plot = pre_process["normal(0)"]
7
8feature2_plot2 = pre_process["fault(1)"]
9sns.kdeplot(feature1_plot, shade = True)
10sns.kdeplot(feature2_plot2, shade = True)
大部分特征都是这样,没有很好地区分度。正是因为这样,也一直没有尝试出来非常好的模型。后来我们尝试用MATLAB画图,每个特征出两个图
看起来要比seaborn好一些(后两个图和第一个不是一个特征)。我们在做数据分析这一块一个很大的问题是在于只去查了各个特征的物理含义,做了频率和频数分布图,看看是否有没有好的特征,然后就直接进入了下一步。忘了考虑是否可能会出现因为采集的问题而导致的异常值和空缺值的问题。这一点导致后面我们很多工作推到从来。
我们从统计上来看,并没有找到很好区分度的特征,然后就考虑从物理上来找。在老师的建议下,我们尝试了有轮毂转速,风速为6.5m/s时,y方向振动值的特征:
依旧没有很好的区分度,对于其他风速尝试,也是如此。
我们讨论阈值、记0等方式构造新特征。就在说道记0这个新特征构造办法的时候,突然发现,大气压力这个特征,居然有0的情况。根据物理学的知识来讲,风机的大气压力是不可能为0的。然后我们才想起来,没有对数据的异常值进行处理。删除了有8万多条整行全为0的数据,导致某些文件为空,也就是这个风机没有数据信息。当然,也有某些风机是某几行为0。除了删除空缺值,我们还对其他明显是异常的数据进行了一些数据清洗工作。因为之前我们对于数据特征数统计分析是根据未清洗的数据做的分析,所以分析的可靠性也有点问题,后面我们在做工作的时候,有了一些不必要的麻烦。我们也做了一些相关性分析的工作,大部分特征相关性十分的高。几十个特征两两组合然后进行相关性分析,会有数千个结果,相关性分析没有办法进行下去。后来,我们就没有考虑相关性的事情。
本文由职坐标整理发布,学习更多的相关知识,请关注职坐标IT知识库!
喜欢 | 0
不喜欢 | 0
您输入的评论内容中包含违禁敏感词
我知道了

请输入正确的手机号码
请输入正确的验证码
您今天的短信下发次数太多了,明天再试试吧!
我们会在第一时间安排职业规划师联系您!
您也可以联系我们的职业规划师咨询:
版权所有 职坐标-一站式AI+学习就业服务平台 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
沪公网安备 31011502005948号