“数据就是新能源,能够把人类从工业文明带到数字时代,也是生产的第五要素,是新基建的核心。”

2022年7月27日,在2022开放原子全球开源峰会数据库分论坛上,华东师范大学副校长、教授周傲英带来了《数据赋能:从数据库到数据中台》的主题分享。


【资料图】

数据是新能源

时下,互联网已经在潜移默化中改变着人和人之间的关系,改变着世界。互联网能建立起人与人之间的联系,再通过行为数据在线收集和使用来加强用户的体验。

从1996年提出数字化转型的概念开始,已经经历了20多年的探索。在互联网推动下,如今许多企业已经迈入数字化转型的阶段。数字化融入了互联网思维和数据思维的信息化,这一切的改变不是变轨换道,而是数字化迁徙,是自我革命,是创新。

因此,从新的数据观来看,我认为:

数据是人们对于世界认识结果在计算机中的表示;数据是万物互联的桥梁和媒介;信息技术的发展,从“以计算为中心”转变为“以数据为中心”;同时,借用李飞飞的话——“改变AI和世界的数据”。

如果说“蒸汽能”促成了第一次科技革命,“电能”促成了第二次科技革命,“数据”则促成了第三次科技革命。数据能把人类带入数字文明时代,人们站在一个崭新的时代下,未来已来,一切重构。

数字经济的基本特征跟传统经济不一样,数字经济会带来重大的时代转型。其核心改变就是生产关系再造,这实际上是一场革命。数字经济以数据资源为重要生产要素,以现代信息网络为主要载体,以信息通信技术融合应用,全要素数字化转型为助推力,促进公平和效率更加统一。在数字经济的背景下,数据成为第五大生产要素。

数据库是基础设施

数据库是信息社会的基础设施。在20世纪80年代,当时人们想象的信息社会的基础设施就是数据库。数据库也是计算机科学领域的重要分支。

作为硬核科技,数据库拥有成功的应用与成体系的技术和理论,关系模型、事务处理、查询优化都是数据库永恒的话题。数据库支撑着核心业务Mission-Critical的应用,以及精确化的管理。它的历史可以分为史前、开端、巅峰三个阶段。

史前,从1960年代COBOL(Common Business Oriented Language)开始,COBOL是把计算机用来做数字计算情况下的独特的语言,例如商业应用、管理社保基金、管理医保基金。开端,在CODASYL(Conference On Data System Language)上,通过DBTG报告,使得很多数据概念已经明确。巅峰,在20世纪的70、80年代,尤其在80年代诞生了两个图灵奖的获得者:一个是关系模型,另外一个是事务处理。

数据库的发展史实际上是IT技术创新史的缩影,它是典型的应用驱动创新的案例,应用创新与技术创新相辅相成,互为促进。在过去,数据库变成大家公认的信息社会的基础设施。

但事物发展总会遭遇瓶颈,在大数据出现、互联网大行其道后,旧的数据库没有办法管理,也解决不了任何问题,对数据库形成极大冲击。但也由于过去关系数据库的一家独大,推动着大数据的概念应运而生。在大数据的背景下回顾数据系统的成长,便发现应用驱动创新,开源成就创新,硬件加速创新,一切从垂直类型的应用到相对通用。

数据中台理念

在新的时代,诞生了数据中台。数据中台以打通部门或数据孤岛统一的数据平台为基础,构建统一的数据资产体系,并以API服务方式为全渠道业务(分析+应用)提供即时交付能力的企业级数据架构。

数据中台(Data Power Platform)是一个数据赋能的平台,这是中国企业家提出的一个概念,它是数字化转型的基础设施,也是数字化创新的平台。所有的行业、企业、机构在做数字化转型时,都需要建立数据中台。

回溯到2020年4月,Microsoft在中国发布了名为Microsoft Power Platform的产品。当时,大家不知道怎么来翻译这个“Power”,而我认为Power代表的就是Data。

按Satya Nadella的说法,Microsoft Power Platform是助力企业化数字转型的低代码平台,通过数据大众化让每一个人都用上数据,数据不再是某一家企业和公司独占的产品通过开发大众化,让全民低代码开发,给企业强大的创新力。

数据中台(Data Power Platform)中的“Power”跟当年电的Power一样,不仅需要研究发电机、电动机和电本身,电阻电容、变压原理、电的传输等都需要研究。

数据中台的根本目的,在于帮助企业提高数据能力,包括两个含义:一是打通数据,就像建电网,建了电网才能做电气化;二是让数据好用,把数据的技术装备化、傻瓜化,便于业务人员能够使用数据,充分发挥数据的威力。

数据技术的发展

在数据库跟互联网相遇后,问题开始频频出现,冲击着数据库。数据库原本是解决封闭环境下Mission-Critical应用的,而互联网时代却是开放的。

开放改变了传统数据库的两大假设前提:一是同时在线的使用数据库的并发用户数不可控,现象级的应用就如双十一和以前的12306带来的对数据库系统的冲击;二是数据库系统中产生的用户群体不可控,并非所有人都可信。

因此,未来的数据系统会是怎么样的呢?

重新定义分布式数据库、并行数据库、高可用数据库、实时数据库的概念。近年来,包括Lesile Lamport和Eric Brewer提出很多理论,对数据库的开发甚至区块链有很多的帮助。互联网催生出了很多Mission-Critical+Trust-Critical。数据库管的是Mission-Critical,区块链管的是Trust-Critical,在信任作为关键要素的场景中,用区块链新的数据库技术可以建立人和人之间的信任,同时也支持了分享经济和数字经济的发展。

拜占庭将军问题和CAP定理,使得更多的人重新来审视数据库的假设前提,并重新理解数据库里面特别关键的概念。GFS(Google File System)就是分布并行数据库,Google通过副本的方式来实现数据的冗余,实现高性能和高可用。

区块链和分享经济将会是互联网下半场的重要内容,分享经济需要信任机制,而区块链能用数据重塑人的信任,建立新的信任体系。由于我国市场经济的发展时间较短,信用体系不太健全,在这样的情况下,区块链对中国非常重要。

云数据库是一种新的理念,将数据库变成一种服务,以此降低数据库的使用门槛。通过云计算来提供服务,使得数据库更易使用,促进数据库的普及。云原生(Cloud Native)概念的诞生实际上由Pivotal公司的Matt Stine在2013年首次提出,云原生的四个要点就是DevOps、持续交互、微服务和容器,根本目的是解耦应用和基础设施之间的关系,使得基础设施变成容易掌控的东西。

云原生数据库可以提供更大的伸缩性、更高的可靠性和更好的访问性,以便数据库易于扩展和分布。TiDB和CockroachDB都是成功案例。

开源数据库,从解决了自家的问题到解决一个领域的问题,最后推广到更大的领域,因此开源是数据库创新的人民战争,在扫一屋中实现解决扫天下的问题,一切为了更大范围内推广数据技术。

数据技术未来将在中国有特别好的发展机会,可以从三个方面看出:

我国互联网企业探索和示范了应用驱动的创新之路;我们处在一个大变局的时代,实现“替代工程”和“转型升级”并举的创新;开源软件和开源社区提供了创新和可持续性的发展生态。开源从最初的自发行为,逐渐演变成企业的商业行为,开源也是一种文化、能力、竞争力。

在未来,促成数据库的发展主要是四个Open:Open Problem(解决问题);Open Architecture(开放架构);Open Source(开源文化);Open Minded(解放思想)。而如何把握中国数据库的机遇?

首先,需要重视对IT领域应用驱动创新的认识和研讨。丰富应用是创新的驱动力,应用是一切的出发点和落脚点。在解决问题中发现问题的本质,形成技术,建立基础理论。其次,做好顶层设计,营造健康生态,打造开源文化。健康生态的营造首先需要开放,这是开源的必由之路。基础软件和系统软件的模块化、栈化能够促进万众创新。基础研究和原始创新需要攻关,需要久久为功。

未来,数据作为第五要素,也是新基建的核心。我们处于一个开源开放的时代,中国数据库处在一个发展的最佳时机,我们拥有创新的商业模式和丰富的应用场景,数据中台和数据库的未来一定能实现数据赋能,让数据大众化、平民化,把数据库和数据变成一种服务。

这一切不仅是靠科学来指导技术开发、部署应用,还可以从应用中研发出新的技术、提炼新的科学,使它们促成联动,就是我们创新的道路。

推荐内容