
1.1 大数据时代及其内涵
1.1.1 大数据时代
“庞大、万能和完美无缺是数字的力量所在,它是人类生活的开始和主宰者,是一切事物的参与者。没有数字,一切都是混乱和黑暗的。”[2]这是古希腊思想家菲洛劳斯对于数字的解读。而数据,则是数字世界的主要组成部分。
如今,我们生活在数据无处不在的数字时代,每时每刻都有大量的数据通过不同的渠道,如微信聊天、网上购物、地铁安检、进出校园刷卡等产生和流动。正如全球知名咨询公司麦肯锡所称:“数据已经渗透到当今每个行业和业务职能领域,成为重要的生产因素。”[3]
2008年9月,Nature杂志推出Big Data专刊,“大数据”一词开始广泛传播。2011年5月,麦肯锡全球研究所在报告《大数据:下一个创新、竞争和生产率的前沿》中最早提出“大数据”时代到来,“大数据”一词也成为热门词汇。2012年5月,联合国发布的政务白皮书《大数据促发展:挑战与机遇》指出,“大数据时代已经到来,大数据的出现将会对社会各个领域产生深刻影响。”[4]《大数据时代:生活、工作与思维的大变革》一书则真正把大数据推向了公众视野。维克托教授指出,大数据时代的来临使人类第一次有机会和条件在多个领域得以深度获得、使用数据,并深入探索世界规律,从而能够以更有效率的方式改变我们的生活[5]。可以说,大数据开启了一次重大的时代转型,全世界正在经历一场数据革命。
信息化发展如此迅猛,大数据已经成为我国重要的基础性战略资源,也是具有国家战略意义的新兴产业。自2012年以来,我国中央与地方政府相继出台了一系列大数据相关政策推进大数据快速发展。总的来看,这些政策主要涉及以下五个方面:一是制定大数据相关行动计划与行动纲要;二是制定大数据发展规划;三是制定促进大数据发展的相关指导意见;四是出台大数据相关法律法规;五是成立大数据专业研究机构和社会组织[6]。可见发展大数据已成为我国国家发展的重要需求。2015年8月,国务院发布了《促进大数据发展行动纲要》,这是我国促进大数据发展的第一份权威性、系统性文件,从国家大数据发展战略全局的高度,提出了我国大数据发展的顶层设计[7],启动了十大大数据工程,以加快建设数据强国[8]。此外,2020年,大数据产业生态联盟调研发现,近五年高校新增数量最多的专业是数据科学与大数据技术[9]。可见,社会对大数据人才的需求随着数字时代的发展愈发突出,同时也对大数据人才提出了更高的要求,如需要掌握数据分析、算法设计等技能。
大数据的出现与发展改变了人们的思维方式,让人们从因果关系的串联思维变成了相关关系的并联思维;改变了人们的生产方式,信息产品的加工正在成为主要的生产活动;改变了人们的生活方式,人们的精神世界和物质世界都将构建在大数据之上。更重要的是,大数据的“威力”正强烈冲击整个教育系统,已经成为推动教育系统创新与变革的颠覆性力量[10]。
1.1.2 大数据的概念
大数据本身是一个比较抽象的、相对的概念,目前学界对此尚无统一的界定。不同群体站在不同的视角,对大数据有不同的理解与诠释。例如,IT界普遍认为,大数据是指体量在TB级别以上,或者条目在百万级别以上的数据;美国咨询公司麦肯锡认为,大数据指的是大小超出常规数据库工具获取、存储、管理和分析能力的数据集,并强调,并不是只有超过特定TB级的数据集才算大数据[11];《大数据时代:生活、工作与思维的大变革》的作者指出,大数据是指不用随机分析法,而是采用所有数据进行分析的方法[12];我国国务院的文件指出,大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合[13]。总的来说,对大数据的不同定义多是依据大数据的特征提出的。
大数据的特征最初被美国Gartner咨询公司概括为“3V”,即Volume、Velocity和Variety;后来,国际数据公司(IDC)在已有关于大数据“3V”特征的基础上,增加了第4个V,即Value;2014年,IBM公司又归纳了大数据的又一特征,即Veracity[14]。
1.规模性
规模性(Volume)主要是指大数据的数据量大,人们可以很直观地感受到这一特征。国际数据公司预测,2025年全球数据总量会达到175ZB[15](注:ZB是一个计算机的存储单位,表示数据的大小。bit、B、KB、MB、GB、TB、PB、EB、ZB、YB等都是计算机的存储单位。其中,1MB=1024KB;1GB=1024MB;1TB=1024GB;1PB=1024TB;1EB=1024PB;1ZB=1024EB……)。
2.高速性
高速性(Velocity)主要是指大数据的输入和处理速度快。大数据的产生非常迅速,且主要通过互联网进行传输。在数据持续、高速产生的数据时代,前几秒产生的数据,现在可能已经失去了时效性,数据中蕴藏的价值势必会受到影响。而大数据技术有别于传统数据技术的一点是,它对数据的分析是实时的,而不是延迟性的,一般会在秒级时间范围内给出分析结果。
3.多样性
多样性(Variety)也是大数据的一个重要特征,指其数据类型、数据来源丰富。相比传统IT时期的结构化数据,现在的大数据中还充满了半结构化数据和非结构化数据。常规的结构化数据依旧重要,但非结构化数据越来越占主导地位[16]。日常生活中常见的非结构化数据包括声音、图片、视频等。以教育大数据为例,数据的来源包括教学活动过程、教育管理过程、科学研究活动过程和校园生活过程。
4.价值性
价值性(Value)主要是指大数据的价值密度相对较低。大数据中包含大量不相关的信息,即数据量在增长时,隐藏在数据中的有用信息并没有呈现同比例的增长。只有合理运用大数据技术对数据进行挖掘和分析,才能以较低的成本创造相对较高的价值。
5.精确性
精确性(Veracity)表现为数据的准确性和可信度,即数据的质量。只有真实且准确的数据才能让数据真正有价值。随着数据集规模的增加,数据分析的准确性与可预测性得到提高。
1.1.3 教育大数据的概念
随着大数据的迅猛发展,《促进大数据发展行动纲要》指出要“探索发挥大数据对变革教育方式、促进教育公平、提升教育质量的支撑作用”[17]。将大数据应用于教育领域,有助于解决教育教学中的诸多问题。大数据对教育的影响主要表现为:改善教育决策,如使教育资源公平分配;变革教育模式,如进行专题教学;丰富评估体系,如使教育管理更加精细化[18]。
云计算、物联网等信息技术的快速发展,为教育数据的涌现提供了源源不断的动力。教学管理系统的应用及在线学习系统的激增为教育数据的爆发式增长助力[19]。大数据时代的到来,促使教育大数据的战略地位逐渐被认可和重视。
教育大数据来源于各种教育实践活动,包括教学活动过程、教育管理过程、科学研究活动过程和校园生活过程。其中,教学活动过程产生的数据是教学评价的基础,包括过程性数据和结果性数据。过程性数据即在教学活动过程中采集到的、难以直接量化的数据(如线上讨论、学习浏览记录等);而结果性数据则表现为某种可量化的结果(如考试成绩、成绩等级等)。通过采集、存储、管理和分析教育大数据,教师可以更好地发现学生在学习过程中现存的问题,有针对性地优化学生的学习进程,从而提高学生的学习质量,并对学生未来的学习趋势进行科学预测。
然而,对于教育大数据(big data in education)的定义,要达成共识很难,目前还没有形成明确的概念界定。下面列举一些研究者提出的教育大数据的定义,如表1-1所示。
表1-1 教育大数据的定义

[1]徐鹏,王以宁,刘艳华,等.大数据视角分析学习变革——美国《通过教育数据挖掘和学习分析促进教与学》报告解读及启示[J].远程教育杂志,2013,31(6):11-17.
[2]杨现民,王榴卉,唐斯斯.教育大数据的应用模式与政策建议[J].电化教育研究,2015,36(9):54-61,69.
[3]孙洪涛,郑勤华.教育大数据的核心技术、应用现状与发展趋势[J].远程教育杂志,2016,34(5):41-49.
[4]裴莹.我国教育大数据研究面临的问题与挑战[J].现代商贸工业,2018,39(18):58-59.
相比传统的教育数据,教育大数据具有明显的可区分特征。不同的研究者对其特征有不同的见解和阐述。例如,美国教育部发布的报告《通过教育数据挖掘和学习分析促进教与学》提出,教育大数据具有层级性、时序性和情境性的特征[20];杨现民等指出,教育大数据具有更强的实时性、连贯性、全面性和自然性特征[21];陈德鑫等指出,教育大数据具有数据量大、类型多、连续性强、价值密度低等特点[22];郑娅峰等在总结前人研究的基础上,指出教育大数据除了具有大数据典型的4V特征(规模性、价值性、高速性及多样性),还具有多维性、时序性、异构性三种显著特征[23]。综合上述定义,本书作者认为,教育大数据不仅指数据“大”(海量数据)、“多”(包括结构化数据、半结构化数据及非结构化数据),还指数据采集更自然、连贯和全面,以及数据处理更实时。