对于老百姓而言,大数据还是个新词汇,能否介绍一下大数据产生的时代背景以及目前国内外研究、应用的状况?
袁卫:在上世纪80年代初,就已经有了大数据的概念和相关应用,但是它深入社会和百姓的视野,则是最近几年的事情。2012年,美国政府由白宫牵头,启动了一个“大数据发展计划”,这个计划的推出被视为进入大数据时代的标志性事件,其重要性堪比1992年美国政府推出的“信息高速公路计划”(被视为进入网络时代的标志)。在相似的时间,欧盟各国陆续开放了很多政府数据,日本也启动了一个大数据项目,联合国2012年发布大数据报告,全球掀起了大数据研究和应用的热潮。
大数据的发展,是以网络和计算机技术的高速发展为依托的。1965年英特尔创始人之一的摩尔先生提出,未来的网络计算机发展,大体上每隔1年到2年,等面积集成电路中的晶体管数量将会增加一倍,即计算速度会提高一倍,同等的计算,成本会降低一半。经过近50年的实践,验证了摩尔先生的预测,也就是人们常说的“摩尔定律”。计算机和网络科技的高速发展,使得大量网络数据,包括音频的、视频的、图片的、文本的各种各样的数据,得以保存,并转化为我们可以深入分析的数据。于是,大数据的研究和应用也就水到渠成了。
记者:在大数据这个领域,我们和发达国家的差距大吗?
袁卫:上世纪八九十年代,我们在很多科技领域和国外差距很大,但是进入互联网时代以后,这种状况逐渐改观。进入大数据时代,我们可进一步缩小与美国等科技发达国家的差距,甚至具有后发优势,原因有三个方面:其一,在互联网时代,各种最先进的技术可以快速传播,基本上可以做到全球同步;其二,和微软的操作系统等软件不同,大数据绝大多数软件是开源的,很多网络技术也是公开的,中国的科学技术与教育工作者,只要具有足够的智慧和能力,完全可以追赶甚至在某个领域超过美国;其三,我们在数据资源上具有优势。中国有13.5亿人,13.5亿个活动主体组织了各种社会经济关系,建立起各种社会、网络联系,在各种社会经济活动中产生大量的数据,这些数据是可以充分挖掘的资源。我们起步稍晚,但是具有后发优势,在某些领域甚至可以达到国际先进水平,比如中国推进的智慧城市建设就很不错,还有微信社交平台、阿里小贷等,体现了中国的特色。
统计学科迎来“最好的时期”
记者:您是统计学方面的权威专家。在您看来,大数据对于统计学的发展有何影响?
袁卫:统计学就是数据科学,大数据对统计学的发展影响巨大。我个人认为,大数据对于统计学的发展,既是机遇又是挑战。
说它是机遇,是因为大数据研究和应用会带来大量人才需求,这对统计学的发展是一个巨大的利好,可以说,目前统计学发展正处于历史上最好的时期。这几年,从全国范围看,统计学专业毕业生就业状况都不错,今后会更好。
说它是挑战,是因为大数据可能部分颠覆传统的统计方法。比如有人认为,传统的统计方法讲究抽样,但是大数据使得我们可以对接近总量的数据进行分析,这样进行抽样调查的需求就会减少;还有人认为,传统的统计分析注重因果关系,但大数据情况下,只需明确两者之间有关系即可。另外,过去强调分析的准确性,而在大数据情况下,允许存在一定的误差,等等。
我认为,大数据对统计学带来的上述挑战确实存在,但是不会导致传统抽样调查的需求减少。因为大数据虽然数据量很大,但绝大多数情况下这些大样本都不是随机的,推断总体都有系统偏差,因而抽样调查等统计方法仍然是不可取代的。此外,在很多时候,科研和商业应用、科学决策还是需要进行准确的统计分析的。
从人才培养的角度看,统计学在教学内容、教学方法、人才培养模式等方面需要进行变革,以适应大数据时代的人才素质要求,这是统计学科发展面临的另一挑战。
大数据应用是把双刃利剑
记者:大数据在商业以及城市安全防范等领域已经有很多应用的成功案例,大数据将会给教育领域带来怎样的变革?
袁卫:大数据将对教育产生非常深远的影响。目前可以预见的,我想主要有两个方面:一是通过大数据,分析学生成长环境、兴趣爱好、能力特长等,有利于教育者对学生加深了解,有利于因材施教,使得根据学生个人兴趣、特长、能力进行个性化教育成为可能;二是带来教学内容、教学方式方法上的改变,立体化教学、案例教学、互动教学等方式的运用使得教学更加生动,MOOCs(慕课)就是大数据时代教学变革的一个例子。大数据可以促进全世界优质教育资源共享,发挥每个教师的优势特长。大数据将对教育产生一系列的深远影响,不可低估。
记者:但是,大数据的广泛应用,可能会导致侵犯他人隐私的情况发生,对此您怎么看?
袁卫:在大数据时代,个人的相关数据信息轻易可得,个人隐私越来越不安全。其实不仅仅是个人隐私,包括国家安全和企业的商业机密,也受到很大的威胁。怎么办?我认为对于国家而言,一方面要积极推进数据对外开放,凡是不涉及个人隐私、国家安全和商业机密的数据,都应该公开,这样才能避免形成数据孤岛,充分发掘和利用数据资源;另一方面,在开放数据的同时要加强相关立法,这两个方面是互相补充的,只有这样,才能赶上时代发展的步伐,充分发挥我们这个人口大国、经济大国的数据资源优势。
从个人的角度讲,要加强个人信息防护意识,在上网发布相关信息时,要了解哪些是可以发的,哪些是不能发的,以免给自己带来困扰。
两个“交叉”探索人才培养之道
记者:据了解,中国人民大学、北京大学、中国科学院大学、中央财经大学和首都经贸大学5所高校组建了一个协同创新平台,以“应用统计专业硕士”为载体培养大数据分析方面的人才。为何要采取这种多校合作的培养模式?
袁卫:之所以采用这种协同创新、5校合作的培养模式,完全是由大数据人才的特点决定的。第一个特点,大数据人才是多学科交叉型人才,不是某一个学科可以单独培养的。大家知道,现在进行数据分析,要有数据库和软件等计算机方面的知识,还要有数学和统计方面的知识和能力。这就涉及到中国学科体系中“统计学”和“计算机科学与技术”两个一级学科。培养出的毕业生到了单位,可能还需要财经、新闻、生物医学和管理等方面的知识。所以,大数据人才的培养,也需要计算机、统计学、数学等多学科共同参与。
第二个特点,这是一类应用型人才,必须重视实践环节。他们毕业后不是去做研究,而是投身业界,要能很快上手。这样的人才培养,不是仅在学校、在实验室、研究室里就能够培养出来的,而是要到实践中去,解决实际问题。