阿里研究院 潜水
  • 1发帖数
  • 1主题数
  • 0关注数
  • 0粉丝
开启左侧

云原生时代的数据库:过去、现在和未来|云端思享汇(第5期)

[复制链接]
阿里研究院 发表于 2021-9-20 04:59:00 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
本期高朋:
李飞飞 阿里巴巴团体副总裁、达摩院数据库与存储实验室负责人
王建民 清华大学软件学院院长
安筱鹏 阿里研究院副院长


螺旋式上升:数据库的发展历史





李飞飞

阿里达摩院数据库与存储实验室负责人

现代数据库系统发展有三个里程碑。


第一个里程碑就是IBM科德(E. F. Codd)提出大型共享数据库的关系模型,科德因此获得图灵奖,这一希望也与华人陈品山提出的关系代数Er模型(Entity relationship model)有关。在这些理论基础上,衍生出关系代数,成为现代数据库系统的核心和基础。


第二里程碑是事务处理(transaction processing)范畴的突破。事务处理最关键的是ACID(atomicity,consistency,isolation,durability),就是原子性、同等性、公道性和持久性。ACID包管了使用数据库时可以极大简化应用开发逻辑。


第三个里程碑是在数据分析、数据仓库范畴,衍生出像数据块以及数据数仓、交互式分析等技术。


数据库系统关系模型、事务处理、数据仓库,这是早期数据库系统发展的三大基石。


2000年以后,随着美国互联网产业蓬勃发展,数据库出现了新变化。第一,以谷歌为代表的互联网公司须要处理的数据规模越来越大。第二,这些数据是半结构化、非结构化数据,处理这些数据衍生出今天耳熟能详的所谓大数据。


大数据范畴的核心技术基本上都是从数据库系统和分布式系统衍生出来的。


在数据库范畴谷歌三个经典的贡献非常重要。一是谷歌的MapReduce,对应后来的第一代开源大数据系统Hadoop;二是谷歌的分布式文件系统;三是针对半结构化、非结构化的分布式存储:谷歌Bigtable。


这三驾马车是今天数据库系统、大数据系统的毗连纽带,也是早期大数据系统的基石。


随着云计算技术演进,传统大数据的离线计算和数据库范畴所擅长的在线处理和分析又在发生融合。站在业务角度、用户角度,须要一个一站式数据处理平台。


这一范畴的希望除了之前提到了Snowflake,2021年Oracle发布了最新产品Oracle 21c。在举行发布会时,Oracle提到两个关键词:一个叫做“Any Data”,也就是任何数据;一个叫做“Any Workload”,也就是任何负载。


在数据库系统内里,除了传统事务处理、分析处理,Oracle提出要开发数据库内的机器学习,乃至在数据库中支持区块链来验证数据不可篡改等一系列新技术。Oracle 21c希望提供一个一站式的数据管理服务平台。


从历史演进视角看,就像古人说的,天下大事分久必合、合久必分。技术发展是一个螺旋式上升过程,这是事物发展的客观规律。




王建民

清华大学软件学院院长

我补充一点对理论的认识,理论、技术、工程之间是什么关系?什么是理论、技术、工程?


理论要简化问题,要易于传播。


第一个数据库的理论真正流行的是什么?是关系模型。关系模型在大学计算机学科中,是大一大二的课程,也就是离散数学,是一个集合论。集合论特别基础,但为什么这个模型一下子统治了数据库天下?由于我们这个天下各行各业都在数据库上面,它构造一个数字孪生天下的底座。


我研究了关系模型发明人科德(E. F. Codd)的经历。他是英国人,二战时当空军飞行员,所以他读书很晚,第一个学位是数学,后来又到 IBM去工作。他其着实工程范畴中做数据库开发,给银行开发数据库应用。他最痛楚的是工作量不可预期,经常不能按时交付数据库应用。他当时就在反思能不能有更简单的办法来办理问题?


据说,他们有一天中午吃饭时忽然想到,如果用关系模型来表达,大概把一个须要一页半纸的查询变成半页乃至两行。


所以,我认为在大数据期间,缺一个类似当年关系模型的理论突破,大数据智能期间须要一种能简化问题的关系模型。




安筱鹏

阿里研究院副院长

从经济学来说什么叫理论?理论是一种节约信息的工具。


在一个纷繁复杂的经济现象中间,有各种各样的投入和产出,这种投入产出黑白常复杂,但在各种纷繁复杂的投入产出中间,能够找出几个最核心的变量,这个变量就构建起了理论的一个基础。事务发展的影响因素许多,但是我知道出现“果”的时间有两三个最核心的影响变量,决定了这个“果”,这可以称之为经典的理论。理论中涉及因素越少,同时越能形貌事物的运行规律,大概越经典,越有生命力。


物联网期间,数据库技术的趋势和寻衅





安筱鹏

阿里研究院副院长

分析过去的三四十年工业软件的发展进程可以看到,工业软件的发展是与工业技术本身的进步、与一个复杂产品的开发密切相关。只有一个复杂的场景需求才能动员工业软件的发展。


比如说像洛克希德·马丁、通用、波音、NASA、麦道、达索、福特等公司,在面对复杂的工业场景中间,催生孵化出了各类工业软件,之后进行各种兼并重组融合,企业不断发展壮大。在某种程度上反映了工业软件产业发展的规律,在观察数据库产业时,它有没有类似规律?




王建民

清华大学软件学院院长

时序数据库历史很长,它是陪同着统计应用发展起来的。最早期的应用场景是美国的人口普查,后来又用到股票交易。但物联网数据库还不仅是时序数据库,数据库应用场景和运行平台变了。


第一个变化是,比年来随着工业场景数字化步调加快,“边”“端”出现,不仅后台在存储数据,“端”和“边”也在处理数据。原来人们在建数据库的时间,肯定先要创建表格,然后往表格中填数据。但是在物联网场景中,数据是“端”说了算的,不是后台云说了算,“端”决定了物联网数据库的元数据及模型。元数据如果再按数据库传统逻辑先建“表”,“端”就来不及。前端增加了一个传感器,要改变传感器的度量,传统方式要到后台去操作,会比较麻烦。


第二个变化,从工业角度来讲,就是OT和IT的融合。OT和IT的融合核心是“端边云”融合问题。在“端”的方面,人们关注的是保序、守时、可靠;在“云”的方面,关注的是海量、有用、深入。IoT数据库就是“端边云”融合。


第三个变化,物联网数据来自传感器,原来信号处理变成数据库的一等公民。传统数据处理就是最大值、最小值、平均值,现在不够了,时域分析、频率分析成为数据库的标准操作。


安筱鹏

阿里研究院副院长

传统数据库有一套规则、体系、方法,今天当传感器数据输进来之后,当OT数据输进来之后,数据库底层的功能、技术路线、模式正在发生变化。


事实上工业互联网、IT跟OT的融合,有两条路线:


一条路线,原有的技术架构体系没有发生根本性变化,它通过数据、网络、模型标准的统一,推动了数据跨系统的融合。现在大部分融合是在这个层面上。


另一条路线,叫做原生式融合,这种融合须要最底层“云边端”数据的存储、分发模式的融合,是底层数据处理方式的变革。


现在的融合方案是在多个系统、装备之间做各种翻译,你讲英语,他讲法语,有人讲中文,然后大家在装备之间、网络之间、标准之间进行翻译。而所谓的原生概念则是人出生的时间都说天下语,不须要翻译了。


李飞飞

阿里达摩院数据库与存储实验室负责人

物联网带来的不仅仅是数据从传感器产生这么一个事实,而是须要以智能化的方式进行云边端的协调、协同。哪些数据在云上处理,哪些在边,哪些在端?须要更多的智能方案。


物联网数据库是一个多模数据库,时序是此中很重要的一个类型,但不只是时序,它须要支持各种各样类型的传感器数据。


由于在物联网的应用中不仅有装备传感器的时序数值,还有日志数据。机器产生的或者人产生的日志数据,须要一个云边端协同处理机制。


数字技术为什么要开源?



李飞飞

阿里达摩院数据库与存储实验室负责人
数据库等数字技术发展到今天,开源功不可没。开源是技术创新的新载体和新模式,让产学研用等各个群体一起合作推进技术演进。开源带来两大利益。


第一,开源动员数字技术能够更快的进入应用场景,在应用场景中加速闭环迭代,在系统应用中发现问题、办理问题。


第二,开源推动技术生态的形成与演进。今天的数字生态有许多种,如应用生态、开发者生态等。这些生态的发展会加速系统迭代的速率。一个封闭的系统如同温室中的花朵,无法和草原上风吹日晒的花朵一样快速进化与迭代,开源带来了系统的高速迭代。


今天在数据库系统范畴有许多开源系统,如MySQL等美国主导的主流开源数据库。


国内过去几年也产生出了许多的优秀的开源数据库系统。如TiDB、面向物联网的IoTdb,阿里决定把云原生数据库的一部分的组件拿出来开源,蚂蚁金服OceanBase也在开源。


这些实践阐明在数据库范畴产业界和学术界对开源这件事越来越器重。但开源带来的寻衅是,技术公司的商业模式怎样构建?传统模式是通过数据库技术上风和能力,提高服从、降本增效,并分享一部分价值。企业帮客户节省了20%的成本,或者提升了20%的服从,分享一些增量价值也是合情公道的。


但是今天数据库开源了,客户通过开源版本可以直接获取这些差异化能力,为什么还要去付费?它商业模式到底是什么?


怎样思索开源数据库的商业模式?


第一种模式是,开源版本和企业版本存在一些能力化差异。把一些常见的功能放在开源社区,但有一些核心能力是闭源的。用户或者开发者,通过开源版本,喜欢或者觉得有须要用这个产品时,特别是须要获得更高阶的能力时,会主动升级到企业版。


第二种模式是SaaS(software as a service )。开源以后SaaS商业模式不肯定建立了,由于软件开源了。但把这个词再反过来,service as a software,也就是使用了开源产品后,肯定会产生运维管控等一系列服务新需求,这是企业商业价值的来源。


今天特斯拉越来越自制,但是车上服务的相关功能打包成软件,在升级软件版本时要付费。升级特斯拉车控软件时,其实不是在为这个软件付费,而是在为服务付费,这是数字期间的一个核心商业逻辑。


王建民

清华大学软件学院院长

对开源的认识是一个逐步深化的过程。


2000年前后,我们开始关注开源。2003年,我们把中国开源范畴的权势巨子专家请到清华软件学院做报告,但当时反响并不强烈。2013年清华提出跻身天下一流大学,天下一流大学软件学院不仅看研究成果,也看在环球开源社区中的贡献。清华大学过去几年在开源社区也做出了自己的贡献,这种贡献价值在于4个方面:


一是高端人才造就,特别是国际化的人才造就。在造就引领将来软件发展的人才过程中,这些人应该有开源的知识、开源的经历,这是天下一流软件人才造就的须要。


二是科技成果传播。每个老师都做了许多成果,但随着学生毕业,许多研究中断了,如果这些研究放到开源社区中,就更多的人会把知识传承下去。


三是吸引用户参与。通过开源成果可以让有兴趣的用户参与进来,加速技术的应用普及及协同创新。


四是提升国际影响力。我们在享用开源的利益,也须要为开源做出贡献。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

猜你喜欢
在线客服邮箱
wxcy#wkgb.net

邮箱地址#换为@

Powered by 创意电子 ©2018-现在 专注资源实战分享源码下载站联盟商城