未来已来!分布式数据库的“星辰大海”绝不仅限于替换!?
记得两三年前,当人们谈论分布式数据库等技术时,他们经常用未来等词来描述新技术的应用前景。在过去的2020年,新一代数据库领导人Snowflake成功上市,成为历史上最大的软件企业IPO。我们回头看,发现未来来来了!
但分布式数据库应如何在企业中精准落地,一直是行业讨论的焦点。在中国,当大多数读者第一次了解分布式数据库时,第一个问题是分布式数据库是否可以替换Oracle?但是,从全球数据量发展的方向来看,其爆炸性增长主要集中在数字创新的多样化业务场景上。因此,单纯替代传统Oracle占据核心优势的固有领域,并非是数据库未来的增长方向。以Snowflake为例,其业务没有更换Oracle的核心应用领域,但以4亿美元的收益回收了700亿美元的市场价格,动摇了Oracle在数据市场的领先地位,其背后的原因值得深思。
基于替换的思维永远无法超越
实际上,在替换Oracle的问题上,没有能力或不能这样做的答案。分布式数据库设计的初衷是解决新的实际业务问题,在Oracle不能满足的场景下,与企业客户一起迎来数字转型的机会,不仅仅是为了更换原来的系统。
传统关系型数据库在核心交易等领域深耕40余年,截至目前,绝大多数纯交易场景无论是数据量还是商业模式都没有本质变化,其业务拓展空间也十分有限。在企业数字转型过程中,数据量随着业务发展迅速膨胀,形成新的业务需求和数据增加,给数据库带来新的市场机会。
与传统的关系数据库相比,分布式数据库在提供ACID事务一致性的同时,具有更灵活的扩展能力和多数据模型的处理能力。面向大量数据弹性扩展的新兴业务需求,不使用Oracle选择分布式数据库是我们在业界应用分布式结构的最佳实践。也就是说,使用分布式数据库逐渐重复,随着新的数字业务渗透到传统业务中,成为新的数据核心场景,分布式数据库技术是企业中最好的落地方案。因此,分布式数据库的星海决不仅仅是传统关系型数据库的简单替换。如果只是为了使用和推广新技术而更换固有结构,将面临巨大的技术风险和挑战。站在企业客户的角度,与客户共同挖掘数字转型中的新数据价值,突破固有框架,构建新的分布技术课程,超越传统的框架界限。
如何选择最佳落地场景
从业务场景的角度出发,自上世纪70年代末关系型数据库诞生以来,Oracle、DB2等数据库已经经经历了40多年的发展历史,对于其固有的业务场景来说,基本上是业界的终极。面对新数据中台在线湖仓、微服务数据融合管理、大量数据实时访问、非结构化在线处理等方面,传统交易性数据库显然无法实现。企业客户在选择分布式数据库落地场景时,应选择合适的应用场景,真正发挥其优势能力,不断磨练技术团队的运输能力,逐渐推向核心。
1) 数据中台联机湖仓
在不少的企业IT架构规划中,数据中台已经成为整个IT战略的一部分,包含了历史数据平台甚至非结构化数据处理等多数据模型领域,几乎覆盖了企业中除了业务应用系统之外的全部数据处理及服务能力。
在此场景下Oracle无法满足扩展能力,而Hadoop又无法支持实时并发业务。国际上也没有直接与其对标的技术体系,最为贴近的则是Lakehouse(湖仓一体化)。Lakehouse的行业主要厂商包括像Snowflake及Databricks等分布式数据库厂商,其产品可以分为数据湖与计算引擎两大核心模块。2020年Gartner进一步引入了Augmented Transactions Processing处理场景,强调事务一致性,要求数据库在分析处理过程中同时保持低延迟,以提升实时联机处理能力。
可以预见,支持Augmented Transactions Processing能力的联机湖仓,将为数据中台提升实时联机处理能力,数据实现一次存储多业务多数据模型同时使用,加速数据的处理效率,减少数据冗余,提供更绿色环保的数据基础设施。
2) 微服务数据融合管理
微服务应用开发架构逐渐成为主流的今天,传统一个应用对接一个数据库的架构被拆散成几十上百个微服务,每个微服务都可能需要使用独立的数据库实例,因此在企业内部数据库实例数量近年来呈井喷态势发展。
分布式数据库的出现可以很好地解决数据库实例批量管理中,扩展困难以及维护困难的问题。同时,基于引擎级多模式技术,分布式数据库可以基于同一数据,支持多个数据库引擎的在线交易,通过跨引擎事务的一致性能,为客户打通微服务结构下异构数据源的ACID一致性。因此,分布式数据库技术比传统的Oracle等数据库更有利于微服务化,为企业开设基础数据,降低数据的存储和管理成本。帮助开发团队继续交付DevOps,提高产品开发效率。
3)海量数据实时访问
大量数据的存储和计算通常由数仓(MPP数据库)或大型数据平台(Hadoop)完成,数据在传统应用中,数据仓库需要事先完成数据清洗入库,数据仓库和大数据平台不能支持实时并发数据访问,限于现有平台的处理模型,因此很难进行在线业务的创新。但是,在数据化变革的过程中,在客户在线交易、历史数据服务平台和IoT物联网系统中,会产生要求在线实时处理大量数据的解决方案。
分布式数据库可以帮助企业客户获得更好的使用体验。首先,分布式数据库与Hadoop及数据仓库一样具有很好的弹性扩展能力。其次,分布式数据库可以提供与传统相关的数据库相同的ACID支持,以确保其关键业务的一致性。最重要的是,分布式数据库可以更好地支持高并发的业务访问,可以像使用单机数据库一样,在包含几千亿甚至万亿级记录的优艾设计网_PS百科表中实现毫秒级数据检索。
<非结构化数据管理
非结构化数据包括图像、文档、声音视频等对象文件,以前只是简单地存储在存储系统中,提供单一的存储和调整功能。因此,除了直接操作这些文件的业务系统外,非结构化数据对企业的其他系统是黑盒子,无法发挥数据的潜在价值。
现在的业务系统开始大规模在线使用这样的非结构化数据。例如,在业务中收集各种文件,保留交易过程的头像、指纹、声纹监督要求的原始文件,保留各种业务的360客户图像系统,处理过程需要与非结构化数据高频比较,并发处理和取样修正,这些场景需要非结构化数据的在线实时管理简单地使用NAS和网盘存储大量的非结构化数据,已经不能满足这种实时在线处理能力的需求。
同时,数字转型中的非结构数据不再是静态文件。通过AI机械的学习和比较分析,非结构化数据包括更多的业务属性,为各种业务系统提供信息输入。因此,有必要进行有效的分类管理,激活非结构化数据资产的潜在价值。
分布式数据库可有效提高非结构化数据的实时处理能力,结合引擎级多模型能力统一存储结构化和对象数据,有效实现基于标签特征数据的分类管理,成为企业非结构化数据管理的坚实基础。
分布式技术发展趋势
从技术角度来看,各行业对大量数据、互联网类应用的快速发展需求,弹性扩张、多模式等功能是传统的Oracle数据库在这样的技术背景下,不使用Oracle选择分布式数据库是最正确的答案。分布式数据库的最佳落地和使用方式是从大量数据业务到核心的逐步反复过程。首先,从大量数据弹性扩大的新兴业务需求开始,随着业务创新的深入,渗透到传统业务和应用中。
1) 弹性:存算分离实现灵活扩展
作为分布式数据库,弹性扩展能力是其存在的核心意义与价值。与传统的MPP数据仓库相比,新的分布式数据仓库基于存算分离的配置模置模型,实现存储和计算资源独立扩展的能力,实现应用水平无感知的按需弹性扩展。
2)事务:本地分布式强一致性
在分布式技术接近业务核心的过程中,客户对ACID事务一致性的要求也在持续提高。例如,在在线交易业务中,通常需要RR级事务隔离能力。在这种需求中,基于分库分表技术的解决方案,由于数据库本身不能提供这种支持(有些产品不能提供事务支持或通过1PC提交弱化)。因此,为了达到最终一致性的效果,需要利用大量周边应用程序的逻辑合作,大量消耗开发人员的设计能力。原始分布式数据库由于核心的分布式设计,客户可以安心地将事务一致性逻辑交给数据库层处理,开发人员返回纯粹的业务设计,为业务提供直接有效的研业的开发效率。
3)融合:发动机级多模型、湖仓一体化新课程
传统关系型数据库经过40多年的发展,其主要核心交易领域几乎达到了极限。多带带以核心交易场景对标新的分布式数据库,就像用传统的马车标准测量新的汽车技术一样,不能合理评价新的技术。
分布式数据库的诞生首先是为了解决传统数据库不擅长的场景,在关系型数据库做到极致的领域同样需要很长的时间才能完善。得益于高弹性、强事务一致、多模融合等特点,近年来不少企业已经在:数据中台联机湖仓、微服务数据融合管理、海量数据实时访问、非结构化在线处理等领域,实现原生分布式数据库规模化的生产落地。我们高兴地看到,分布式数据库的应用领域几乎每年都有很大的扩展,成为支持企业数字改革升级不可或缺的弹性数据基础设施。
巨杉数据库从2014年开始发表了基于多模型引擎的支持,为客户提供了可以同时管理多种数据结构的分布式数据基础设施。已协助100多家金融银行客户和1000多家企业用户,提供分布式数据库技术。利用自主专利的STP分布式序列钟协议,实现RR级事务隔离和引擎交叉事务一致性能,为数据中心提供在线湖仓生产落地的最佳实践,成功协助客户在最高1.2兆元的数据量生产环境下,提供安全稳定、灵活扩展、高性能、高并发的数据基础
回顾过去10年,分布式数据库经历了行业质疑、小规模试水、到目前为止在一些行业的规模化应用。我们坚信,在新的一年中,我国的分布式数据库产业必将更加蓬勃发展,未来三到五年分布式数据库的应用规模有望超越Oracle成为核心交易业务的重要组成部分。
未来,利用100%自主开发的原始分布式数据库引擎和引擎级多模型,巨杉数据库以客户为中心的价值观,与客户和上下游合作伙伴一起,为金融、能源、运营商和政治企业客户提供优质的产品、技术服务和生态支持
精彩评论