大数据分析之企业数据挖掘面临的挑战
沉沙 2018-10-31 来源 : 阅读 1198 评论 0

摘要:本篇教程介绍了大数据分析之企业数据挖掘面临的挑战,希望阅读本篇文章以后大家有所收获,帮助大家对大数据云计算大数据分析的理解更加深入。

本篇教程介绍了大数据分析之企业数据挖掘面临的挑战,希望阅读本篇文章以后大家有所收获,帮助大家对大数据云计算大数据分析的理解更加深入。

<

    随着云时代的到来和SaaS概念的引入,越来越多的企业开始选择由SaaS应用提供商、运营商等通过互联网平台提供SaaS应用服务,SaaS应用的数据量面临着TB级的增长速度;不同的SaaS应用体系,提供的数据结构也不完全相同,数据有文本、图形甚至小型数据库;SaaS应用数据随着云服务平台的分布性特点,有可能分布在不同的服务器上,如何对这些异构异源的数据进行数据挖掘,是云时代的企业面临的难题。

    云时代企业数据挖掘面临的挑战

    挖掘效率:进入云计算时代后,BI的思路发生了转换。以前是基于封闭的企业数据进行挖掘,而面对引入互联网应用后海量的异构数据(据预计到2020年,爆发式增长的数据量将突破35ZB(1ZB=10亿TB))时,目前并行挖掘算法的效率很低。

    多源数据:引入云计算后,企业数据的位置有可能在提供公有云服务的平台上,也可能在企业自建的私有云上,如何面对不同的数据源进行挖掘也是一个挑战。

    异构数据:Web数据的最大特点就是半结构化,如文档、报表、网页、声音、图像、视频等,而云计算带来了大量的基于互联网模式提供的SaaS应用,如何梳理有效数据是一个挑战。

    SaaS应用的数据挖掘希望能够通过海量数据存储平台,引入快速并行的挖掘算法,提高数据挖掘的质量。

    如何选用合理的基础架构

    对于企业而言,如何将各种应用数据进行整合挖掘,提炼出适合其使用的商业信息是企业的一大急迫需求。传统的BI模式大多基于数据仓库,是关系型数据库的模式。面对急剧增长的异构数据,传统的数据仓库和原有的并行计算技术由于挖掘效率低,已经不能解决海量数据挖掘工作,影响着数据的及时提取。

    一直以来,商业智能系统往往基于传统的SMP架构小型机而构建。随着近年来X86平台的性能与日俱增、可用性日渐提升、扩展性飞速增长,X86平台在越来越多的市场领域开始侵蚀小型机份额,商业智能也成为X86架构向RISC小型机发起进攻的另一个战场。例如,Oracle推出的基于英特尔至强平台的Exadata数据库云服务器,通过独有的smartscan技术,以及数据处理过程下移的设计,在X86架构基础上同时提供了较高的OLAP性能(数据仓库应用)和OLTP性能。此外,IBM也推出了基于X86平台的商业智能解决方案,基于IBM独有的EX5架构服务器和XIV网格存储系统提供了不输于小型机的智能信息处理能力。

    选购要点:

    1、高可用性:BI的基础架构层,需要建立起数据挖掘云服务平台,而这个平台,必然是高可用性的。

    从高可用性来看,需要集中解决三个方面的问题:一是数据保护,需要利用CRC、ECC等硬件机制来对传输的数据进行校验、纠错,如果无法纠正,就将损坏的数据进行隔离,以保证不造成更大的数据,避免系统的重启和宕机。

    目前英特尔至强7500或E7合作的方案拥有诸多优势,如成本低、性能高、可靠性(RAS)高、可扩展性好等优势。在可扩展性能上,X86平台横向的向外扩展功能,即由两台以上的机器构成集群。能满足大多数企业关键应用环境的负载需求,包括对内存和CPU要求都较高的数据库、商业应用和虚拟化。进而避免传统UNIX双机方案“成本高昂,备机资源平时严重闲置浪费,主机故障切换期间用户服务被迫停顿”等诸多困境。

    此外,7500一些设计已经将计划宕机时间最小化,这当中包括系统分区管理技术、CPU和内存的热添加和热移除等,将系统维护时间降低到最小。

    2、虚拟化:数据挖掘云服务还是要依赖于虚拟化技术,要计算资源自主分配和调度,也就是说虚拟化技术是数据挖掘云服务技术的支撑。

    千万不要被概念忽悠

    大数据有很多不同的使用情况。因此,企业需要根据自身业务情况采用不同的的数据挖掘平台。对于那些注重应用分析和处理要求的客户来说,有很多专门的解决方案,例如惠普Vertica,此外还有很多高性能NAS或者目标系统。

    同样地,对于注重视频、安防监控、闭路电视、模拟仿真、大带宽或吞吐量的话,可以考虑惠普Ibrix、戴尔Exanet、BlueArc、HDS、NetApp、Data Direct Networks、Oracle 7000、EMC Isilon和VNX等。

    总的来说,用户可能会面对一大堆劝说你迁移到更昂贵系统的市场炒作。可能你现在的系统已经足够好的——如果可以扩展的话,厂商提供给你的并不一定可能很好地运行在你目前的环境下。

    对用户而言,需要警惕各种关于大数据的炒作,他们也许想要缩小你的选择范围。除了大数据所能带来的机遇之外,还有很多不同的方面需要考虑,例如它的特性、应用、使用实例以及部署方案。      
          

本文由职坐标整理并发布,希望对同学们有所帮助。了解更多详情请关注职坐标大数据云计算大数据分析频道!

本文由 @沉沙 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程