大数据分析之用大数据倾听中国未来
沉沙 2018-10-31 来源 : 阅读 1303 评论 0

摘要:本篇教程介绍了大数据分析之用大数据倾听中国未来,希望阅读本篇文章以后大家有所收获,帮助大家对大数据云计算大数据分析的理解更加深入。

本篇教程介绍了大数据分析之用大数据倾听中国未来,希望阅读本篇文章以后大家有所收获,帮助大家对大数据云计算大数据分析的理解更加深入。

<

  2015年,中国年度GDP增长率下降至6.9%,达到了1991年以来的最低水平。代表着经济景气程度的先行指数PMI也一再降低,其中财新制造业PMI已连续12个月低于荣枯线50,这代表制造业的萎缩可能还将继续。
 

 
  传统制造业的衰退,与中国的发展禀赋变动相关。以往的中国,是一个资本不足而劳动力过剩的国家。拥有这样禀赋的国家,对于资本十分渴求,会给予投资高回报,同时可以使用廉价劳动力,发展追赶型制造业。
 
  而现在的中国,在这资本和劳动这两方面已经逆转。根据白重恩、宋国青等学者的研究,投资回报率从2004年的20%以上下降到2014年的2%到6%之间,显示出了过度投资的症状。劳动年龄人口在2011年达到顶峰后,开始以每年500万人的速度逐年减少。由过去的禀赋派生而出的生产逻辑,不再适用。中国需要新的生产逻辑,新的产业可能成为未来的发展动力,他们被称之为「新经济」。
 
  「新经济」不能只是一个停留在纸面上的词语。从一个略微有些酷炫的词语到一个有良好定义的范畴,有太多具体的问题需要人们动手去解决。而其中优先度最靠前的,则有以下几个问题:
 
  什么是「新经济」?哪些行业可能符合新禀赋下的生产逻辑,成为「新经济」?
 
  「新经济」对中国经济的贡献有多大?
 
  应该如何衡量「新经济」的发展?
 
  为了回答这些问题,构建出「新经济」的初步图景,我和另外一些同事一起,设计了「新经济指数」。
 
  
 
  从学界到业界
 
  2014年5月,知乎的第一次盐club,我与知乎线上认识的老友吴桐(@MrToyy )先生第一次见面。吴桐告诉我,他正在和合伙人一起创业,做一个和大数据有关的企业,他是企业的 CFO。我非常感兴趣,问了很多问题,也记下了这家创业企业的名称——数联铭品。
 
  之后一年多时间里,在吴桐的牵线下,我与数联铭品的联系逐渐紧密,有时他们会询问我一些算法问题,有时候我会问他们一些数据资源的情况。他们公司的消息,也越来越多地出现在朋友圈中,就这样,来到了2015年9月。
 
  那时,我拿到了一篇已经修改了N遍的论文的第N+1次修改意见。一遍遍读着这一长串修改意见,我心中充满烦躁,不知道做这些到底是为了什么。我不禁问自己:如果你今后的所有论文都要像这样,花95%甚至是99%的时间,完善这剩下的1%到5%的细节,你还愿意继续做学术吗?
 
  我给出了否定的回答。于是,我跟吴桐说,你们这里有什么好玩的项目?我来干。老子不做学术了。
 
  就这样,我来到数联铭品,看看他们到底在做些什么好玩的事情。而我看到的第一个项目,说来也巧,正是「新经济指数」。
 
  新经济指数是什么?
 
  「新经济指数」这个概念,来源于我的另一名同事,数联铭品的管理合伙人之一陈东。在我到来之前,这个项目就打算要与财新智库合作了,并且草案已经完成。
 
  陈东原本是一名调查记者,但他也是一个对新概念非常敏感的人。他向我描述了「新经济指数」的图景,大概包括哪些范围。最后,陈东强调,这一定是一个用到了大数据的指数。
 
  我很快发现,这是一个非常棒的想法,而且非常重要——不仅是对于数联铭品这家公司,更是对于中国的重要性。主要有两点。
 
  第一,就像在这篇专栏中我一开始提到的,由于禀赋变化,中国需要新的生产逻辑。在新禀赋下,资本回报迅速降低——持有资本不再那么划算;劳动力萎缩,可是新进入劳动力市场人口的人均教育年限平均每年上升0.13年,这意味着更多雇佣高技能劳动力的企业将在要素投入价格上获得优势。
 
  分析到这里,新经济的生产逻辑也就顺理成章了——以高技能劳动力作为主要投入要素,相对轻资产——这属于新经济的最本质标准,没有迅速降低的行业增速和产业政策的方向也是甄选「新经济」的标准之一。
 
  第二,量化变革中的中国的指数,需要使用大数据。
 
  道理很简单。就以我们耳熟能详的采购经理人指数PMI来举例。我们知道,PMI与股市高度相关,看到PMI的变动,有经验的分析人员往往可以提前预判政府的刺激政策或者紧缩政策。可是,当一个普通人看到《2016年2月中国制造业采购经理指数为49.0%》或是《2016年2月中国非制造业商务活动指数为52.7%》这样的新闻时,有没有思考过,这个数字背后代表了什么?又会有什么问题?
 
  1,PMI这个数字来自3000-4000家固定样本框中的企业。但是,在国家的经济禀赋发生根本变化时,固定样本框对我们了解真实情况会有阻碍作用。想象一下,如果一个传统行业普遍衰退,新企业快速生长,出现了「创造性破坏」,而固定样本框调查始终只统计了增速下降的传统部门,无法囊括快速成长的新增企业,又如何用来评价整个中国的发展状况?
 
  2,PMI指数的计算不需要企业给予每个问题量化的回答,只需要回答“改善”、“持平”、“恶化”三项之一即可,由调查者根据三个回答的分布来决定指数数值。但是,这种方案实际上假定了不同回答企业的同质性,当不同回答的企业的各种真实财务指标来自不同的分布时,PMI的数值和整个经济量化的繁荣或衰退会产生一定的偏差。
 
  3,PMI询问的问题包括产量、订单、存货、出口、库存等12个方面。但是,这些问题大部分为了制造业企业的生产情况而设计,服务业企业对这一系列问题存在着大量漏报的现象。无效的指标被纳入统计,其他有效的指标却不被考虑,这意味着PMI也许并不适合度量制造业行业以外的发展情况。
 
  然而,当我们使用网络大数据作为数据来源时,上述问题恰好可以被解决。在海量大数据中,我们不仅能看到旧企业的情况,更能发掘新企业的状况;根据网络行为汇总的数据,在信息量上远远优于“改善”、“持平”、“恶化”这三个词语的组合;同时,我们也可以采取更加丰富的指标,来设计不仅适用于制造业,也适合全行业的指标体系。比如,为了计算科技投入,我们引入了专利情况和专利转移情况;为了计算每个城市的人口流动,我们使用了所有城市通过火车和飞机的净流入、净流出数据,这都是在传统调查中不可能拥有的指标。
 
  使用网络大数据设计的指数,比起传统指数,有着得天独厚的优势。
 
  需要解决哪些问题?
 
  用大数据做指数,优势明显,劣势也同样。
 
  第一个问题,是代表性。人们常常说,你使用网络大数据吧,那这些数据肯定来源于某个网站,这个网站有没有对全样本的代表性呢?比如招聘,会不会有些企业倾向于在网络上招聘,另外一些企业永远不会在网上招聘?这会不会减弱指数的有效性呢?
 
  这个问题当然存在。比起传统调查,大数据一定会在代表性上有所缺失。一个优秀的抽样调查,可以做到地市的代表性,行业上的代表性,而大数据不行。但好在这个问题近些年来已经有所好转,越来越广泛的企业的数据在网络上有迹可循。
 
  同时,我们对于同一个指标,会使用多个数据来源,相互补足代表性的缺失。这个方法在传统调查中也经常被用到,比如美国的SCF家庭金融调查,就在入户调查同时,利用一些税务数据、持股数据来修正极端值的覆盖不足。我们在计算新经济的劳动力指标时,就使用类似的方法,使用了不同层次的多个招聘网站。
 
  第二个问题,是可供交叉对比的信息缺失。一个抽样调查,会将被调查企业的各类情况详细地记录下来,但我们很难想象一个企业会在招聘时、购买专利时或者是招投标时将自己的情况完全说清楚。一般的网络大数据,往往只有一个企业名称,一个粗分类行业,以及一个企业行为,对于这些企业的其他情况,我们一无所知。在阅读一些使用大数据完成的报告时也会有这样的感觉,好像有了很大的数据,分析来分析去却都没什么内容。这就是因为整套数据在源头上就缺少足够的信息。
 
  这时,我们就要用到大数据的另一项优势,就是不同来源数据的交叉。比如,你有招聘数据,知道某个企业招聘了哪些职位,多少人,却不知道这个企业的具体行业,不知道这个企业的具体位置?没关系,我们还有工商局登记注册数据,两者一匹配,同一个企业的信息量就加倍了。就算数据无法全部匹配,我们也能用其中一部分已知信息当做训练样本,计算出未知信息的分布。拥有的原始数据资源越多,交叉匹配越是画出接近真实的图像。而数据资源的拥有量,恰好也是数联铭品的优势。
 
  新经济指数的出炉
 
  技术上的问题得到解决,但从每个月上百G的经济大数据中,算出一个新经济指数,仍然不是一个简单的过程。
 
  从2015年9月开始,我一直在与财新智库的首席经济学家沈明高博士合作,打磨新经济指数的算法、权重等模型关键内容。北京大学国家发展研究院的沈艳教授在2015年12月开始也加入了我们的团队。两位老师在整个指数体系设计过程中起到了非常大的作用。一开始,新经济指数被设置为一个能反映繁荣和衰退的环比指数,但在多次讨论后,我们将指数设置为一个简单的比例指数,解释为「一个经济体中的新经济占比」。这个指数形式,即避免了大数据在对总量估计上的不足;又能让人一目了然,知道新经济在中国整体中的贡献到底有多大;同时也能容易地看到新经济发展在趋势上的变动。
 
  一个月又一个月过去,算法一次又一次迭代,我们对整个「新经济指数」的可靠性越来越自信。如果将新经济指数和统计局制造业PMI放在一起,可得下图:
 
  
 
  统计局和制造业PMI,和我们的新经济指数存在明显的此消彼长。这恰好反映了传统制造业的萎缩和新经济部门占比的扩张同时进行,这张图也同时说明,经济衰退并没有遍及所有行业,一些行业不仅没有萎缩,反而可能在扩张,这一根上升的橙色曲线,正是我们想要捕捉到的「新经济」。
 
  万事俱备,2016年3月2日,财新智库、数联铭品决定正式对外发布「新经济指数」。今后,每个月的2日上午9:00,就是上个月的新经济指数的发布时间。当然,诞生仅仅半年的「新经济指数」仍然没有最终完善,还需要更多的深化和调整,现在的指数仍然是试行版本。接下来,我们仍然会逐月修订指数的计算方法,一年后调整评估全部完毕,发布正式版本。
 
  越来越重要的「新经济」
 
  发布会结束后3天,在刚刚开幕的「两会」中,「新经济」作为一个概念首次被写入了政府工作报告。李克强总理提到,「当前我国发展正处于这样一个关键时期,必须培育壮大新动能,加快发展新经济」。各大媒体广泛报道了这一事件。
 
  看到这个新闻时,我有一种奇妙的感觉。在学术研究中,我虽然常常会因在数据中发现了某一桩事实而快乐,但像这样,感到自己的工作正与当前正在发生的变革深刻联系在一起,可以真切地为现实提供参考依据,还是第一次。
 
  「新经济」不是一个抽象的词汇,这部分经济已经占总经济投入的三分之一左右,这个比例未来还会越来越高,并最终取代传统行业,成为中国经济发展的新动力,新脉搏。
 
  而我们的工作,「新经济指数」,就是要成为一架准确的听诊器,让人们能够通过我们的指数,提前发现新经济的问题与趋势,让投资者看到投资的机会,让政府修正产业政策的目标。能够暂离象牙塔,参与到这一项对现实有直接意义的工作中来,成为主要的一员,我感到很高兴。
          

本文由职坐标整理并发布,希望对同学们有所帮助。了解更多详情请关注职坐标大数据云计算大数据分析频道!

本文由 @沉沙 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程