数字经济要素之一:大数据
2013 年,第 462 次香山科学会议给出了大数据的中国定义:大数据是来源众多、类型多样、大而复杂、具有潜在价值但难以在期望时间内处理和分析的数据集;大数据是数字化时代的新型战略资源,是驱动创新的重要因素,正在改变人类的生产和生活方式。从类别上看,大数据的种类十分多样,几乎涵盖了社会生活的方方面面,如健康、基因、通信、气象、信用、社交大数据等;从来源上看,大数据主要有政府、企业、开源共 3 个来源。
大数据的出现与普及深刻地影响和改变了各行各业:运用大数据开展科学分析不仅可以为决策活动提供有效的支持,也在创新性地改变着人们的生产生活方式。2020 年初新冠肺炎疫情暴发时,中国科学院、中国疾病预防控制中心、香港浸会大学团队以 7 个年龄组的人群、4 类场所的社交场合为基础,构建了基于社交接触的异构数据分析模型,对武汉等 6 座城市的疫情病例数据展开了科学分析,揭示了疫情传播的潜在模式与不确定性风险;并根据这些城市对当年国内生产总值(GDP)的预期增幅,计算出了多种复工复产方案。这些分析成果迅速以政策建议的形式上报,为日后复工复产的科学决策提供了支持,这是基于健康和社交大数据开展科学分析并辅助政府决策的典型成功案例。
对大数据开展科学分析的历史可以追溯到 1783年——英国统计学家理查德 · 普莱斯(Richard Price)通过收集和分析遗产税务数据,建立了人寿保险和国债的预测模型。纵观大数据分析的发展历史,大致可分为 3 个重叠的时期:
1. 300 年前至今,主要是运用统计学方法分析数据并得到描述性的结论;
2. 1956年达特茅斯会议首次提出“人工智能”概念至今,通过机器学习方法对数据进行处理、挖掘并发现知识,逐渐成为主流;
3. 近 20 年来,面向文本、图像等非结构化数据的方法研究层出不穷,进一步丰富了大数据分析的方法体系、推动了相关学科的进步与发展。
不论历史阶段如何演变,大数据分析始终遵循三大基本原理:
1.决策过程,即给定某个数据分析问题的目标,通过对数据的归一化处理,运用智能算法从中发现知识并应用于决策支持。
2.机器学习原理,即通过训练集建立数学模型,通过测试集验证最优的数学模型,进而应用到新数据的判定;根据不同的具体场景,模型需要反复训练学习以保持其精确度。
3.智能知识发现,即数据分析的“一阶问题”是通过数据挖掘获取粗糙知识,其“二阶问题”是通过决策者主观知识辨认粗糙知识并由此产生智能知识,进而作为决策支持。
然而,大数据分析的发展过程中仍面临三大挑战:
1.非结构化数据的结构化,即如何通过数据融合将文本、图像等非结构化数据转化成结构化数据,然后运用已有的结构化数据挖掘方法进行分析;
2.数据的复杂性与不确定性,即如何从不同的场景角度全方位地复原、展现大数据的整体复杂性与不确定性;
3.数据异构与决策异构的关系,即数据的异构性导致了决策的异构性,以及如何“因地制宜”地用数据异构与决策异构的关系寻找有效的决策支持。
对于大数据分析应有这样的科学认识:大数据并不代表总体而是大样本,大样本比小样本更具有普适性;大数据分析应当从粗糙中寻求精确,需要从相关关系中把握因果关系并预测未来。
数字经济要素之二:智能算法
智能算法是开展大数据分析的数学工具,正广泛应用到各行各业。例如,智能围棋程序 AlphaGo 多次击败职业选手,展示了智能算法超强的学习能力;又如,将哈希函数置入区块链结构并由此诞生的数字货币,深刻地震动了金融市场。智能算法根据人为设定的规则或启发式的方式,通过对个体的学习探索群体的模式,其大致可分为 2 类:
1. 通过逻辑学习产生;
2. 通过模拟人与生物的意识及行为产生。
通常使用的智能算法包括统计分析、关联规则、聚类方法、深度学习、数学规划、模糊逻辑等。智能算法的数学思想因算法而异。以数学规划中的优化算法为例,其基本思想是:给定二分类问题的数据集;其目标是:降低“你中有我”与“我中有你”的数据,提高数据分类的精度。
数字经济要素之三:算力平台
算力是进行大数据储存分析的计算资源,具体形式主要表现为 2 种:1. 集中式算力,如超级计算、云计算;2. 分布式算力,如电脑、手机。
一般来说,算力平台都是由整机、芯片、操作系统、应用软件 4 个部分组成。我国的算力平台建设,一方面发展迅猛,另一方面受到碳中和、碳达峰(“双碳”)目标的制约。据统计,2020 年我国数据中心用电量约占全社会用电总量的 2%,并连续 8 年以 12% 的速度增长。算力设施整体电耗的 70% 来自传统能源,由此产生的碳排放问题异常突出。因此,在部署新的互联网数据中心等算力平台建设时,必须考虑高能耗带来的碳排放问题。
值得警惕的是,虚拟货币的“挖矿”活动会导致超高能耗:据剑桥大学统计,全球比特币“挖矿”年耗电量约为 149.4 太瓦时。对此,2021 年 9 月国家发展和改革委员会等 11 部门联合开展虚拟货币“挖矿”活动的整治工作:目前,我国在全球比特币算力中所占份额已从 44% 降至 0,有效制止了算力资源的滥用和误用,维护了正常的金融秩序。
不看此公众号