国产数据库厂商的路径选择:开源、替代还有技术领先

小青爱吃草2021-06-10 10:31:19  133

作者 | 王德清

出品 | 雷锋网产业组

国产数据库行业,从未像今天这样热闹。

6月1日,蚂蚁集团自主研发的分布式数据库OceanBase宣布正式开源,并成立OceanBase开源社区,社区官网同步上线,300万行核心代码向社区开放。就在几天前,阿里云也对外宣布开源了PolarDB for PostgreSQL。

而在之前,腾讯云发布首款全自研分布式分析型数据库TDSQL-A;国产数据库厂商PingCAP也发布了TiDB 5.0 版本……

成型于上个世纪80年代,数据库是计算机领域三大基础软件系统之一。早期的关系型数据库以甲骨文数据库为代表,取得了巨大的商业成功。后来出现了MySQL、PostgreSQL等开源的关系型数据库。

作为基础性软件以及企业IT系统的关键支撑产品,数据库具有牵一发而动全身的特性。

你可能想不到的是,就是这样一个重要的技术,在2014年以前,全球数据库市场份额名单中,几乎找不到中国厂商的身影。

如今,随着众多企业入局,国产数据库正在打着一场激烈的翻身仗,在此背景下,国产数据库如何崛起?❓❓如何抓住历史的机遇,掌握自己的命脉?❓❓成为当前数据库从业者所要思考的问题。

✅️国产数据库不应该只想着替代

最近几年,国产数据库在替代潮流中看到了机遇,无论是互联网阵营的阿里、腾讯,通信厂商华为、中兴,还是达梦、人大金仓等老牌国产数据库,都把主战场放在了“去O”的存量替代领域,几乎所有的国产数据库都把金融行业的国产化作为最重要的战场,从大型银行、中小城商行、保险公司、证券基金公司,过去几年国产数据库掀起了一个“替代”潮。

这也让雷锋网笔者想到了刚接触数据库行业时的一个困惑:为什么数据库厂商都喜欢分享自己的数据库产品如何通过测试,最终替换Oracle等传统数据库的故事。

后来一些行业从业者对笔者答疑表示,金融行业对于数据库的要求是最高的,可用性要达到99.999%,这意味着,全年数据库发生故障的时间不可以超过5分钟。

而这个要求说白了就是数据库产品要具有高稳定性、强容错性和高安全性。

也正是由于这个原因,取代Oracle(去O)⭐等传统数据库成为了多数国产数据库时至今日的奋斗目标。

对此,我们不禁提出了疑问,国产数据库的目标难道只是要替代Oracle等传统数据库,换句话来说,我们取代了Oracle等传统数据,就代表着我们的数据库产品就已经超越了他们了嘛?❓❓

答案当然是否定的。

从Gartner、DB-Engines等研究机构最新的报告中不难发现,数据库市场正在出现一个新的趋势:以Oracle、DB2和Microsoft SQL Server三大巨头为代表的传统商业数据库的市场份额不断下降,而开源数据库和云第三方数据库市场在持续增长。

在这个背后,是数字化转型的浪潮向前涌进。据知名咨询机构统计,到2025年全球数据总量将超过160ZB,全球数据总量的近 20% 将成为影响日常生活的关键数据,近 10% 将变为超关键数据。

伴随这个而来的,除了对数据库有不变的高稳定性、强容错性和高安全性之外,企业在数字化时代又提出了海量,实时、在线的数据分析的能力,这些反而是传统数据库不擅长的。

数字化暴涨的海量、实时、在线需求,最终落在了分布式数据库和大数据技术栈的肩头上。

因此,这对于那些只将目标瞄在替代Oracle等传统数据库的国产数据库厂商来说,面对当前数字化转型浪潮下的海量、实时、在线的数据分析的能力则有所欠缺。

数字化暴涨的海量、实时、在线需求,最终落在了分布式数据库和大数据技术栈的肩头上,中长期看又以各种云服务模式的部署为主流。“开源、融合、云化”成为破解数字化时代数据需求的三大法宝。

因此,以后当企业用户提出:你的产品是否有应用在大型互联网公司核心交易系统中嘛?❓❓又该如何做解?❓❓

✅️开源将成国产数据库重头戏

就在最近几天,阿里云的PolarDB和蚂蚁的OceanBase相继宣布开源,加上作为先行者的TiDB,中国数据库第一集团的TOP ( TiDB,Oceanbase, PolarDB) 都将开源作为战略选择,在业内引发了巨大的讨论。“开源的拐点到了”、“开源成为新一代数据库的主流选择”,有的人甚至因此发问:开源会改变世界吗?❓❓

对于这个问题,实在难以找到答案。

但我们可以预见的是,开源将加速成为中国未来发展基础软硬件技术的关键路径。

就在今年3月,开源正式被列入十四五规划发展纲要,在数字经济加速发展的大背景下,中国未来五年会“支持数字技术开源社区等创新联合体发展,完善开源知识产权和法律体系,鼓励企业开放软件源代码,硬件设计与应用服务”。

而从全球范围来看,开源也正在成为引领基础软件发展的决定性力量,以全球数据库产品为例,2021年1月,开源数据库首次超过商业数据库,代表着开源数据库已经成为支持数字技术创新和数字经济发展的重要支撑力量。

除此之外,开源也正从互联网公司逐步扩展到了大型企业其他企业中,如戴姆勒集团CIO坚定把“开源优先”作为推动创新变革五大举措中的首要举措,可以预见,“开源优先”未来十年不只是互联网公司的专利,也将成为所有企业,所有公共机构未来十年的重要趋势。

在全球科技领域,开源软件成为吸引最牛开发者的法宝,开源软件更酷、更快、更领先的特质吸引着新一代开发者,成为企业获取”工程师红利“的关键。在软件定义世界的时代,得开发者得天下,只有依靠开源的“群众路线”。

但在此前,行业内外对于开源软件是有争议的。

首先是关于开源软件知识产权的纠纷。譬如在国内,个别企业会根据相关规则对开源软件进行修改、衍生,然后发行自己的版本,并把它变成闭源软件。这不但可以看成是具有负面影响的道德问题,还可能面临侵犯知识产权遭受法律追诉的风险。

其次是安全隐患。虽然很多开源项目都由企业或资深专家开发维护,但由于不完全是自己使用,导致贡献者容易对安全性造成疏忽。譬如,知名开源项目爆出安全漏洞的例子多不胜数:OpenSSL Heartbleed、Fastjson 远程代码漏洞、Antd 圣诞彩蛋等等。

最后在商业化方面,有些公司会先行开源,而在产品完成之后又进行闭源进行商业化。同时也因为中国开源文化的不规范,小型技术公司会把开源的东西拿过来加一层界面,然后就说这是自主研发的产品。

此前,虽有不尽人意的地方,但一些基础软件厂商也在一直坚持开源,并取得了一些成绩。

就在今年4月,PingCAP联合创始人兼CEO黄东旭就曾对雷锋网表示到,他们自主研发并在研发支出就进行开源的分布式数据库TiDB经过几年的努力,已经跨越了开源软件的鸿沟。并且高度活跃的开源社区为 TiDB 产品发展带来了飞轮效应。

而之所以会从研发之初,就选择将源代码进行国际开源,因为在其看来,基础软件太过于通用又非常重要,因此获取用户的信任成本非常高。如果选择不开源,一来传播速度会很慢,二来对方的信任成本会很高。第三个最致命的是用户的增长并不会是一种病毒传播式的增长,进而导致产品的迭代速度会变得很慢。

而基于开源的数据库研发迭代版本更快,极端场景的打磨客户更多,社区反馈和贡献更及时,今天全球数据技术的顶级公司都基本以国际开源开发为主。

✅️开源可以为数据库带来了什么?❓❓

在探讨这个问题之前我们不妨了解一下数据库的未来发展趋势。

随着数字经济的不断发展,在Gartner看来未来数据库发展有着四个趋势:开源、HTAP、云原生以及和大数据技术融合。

面对这样的未来发展趋势,开源则可以完全可以帮助数据库向前发展,我们不妨还以TiDB为例。

就在今年4月,TiDB发布了5.0版本,而最新发布的5.0 版本在原有 HTAP 引擎 TiFlash 的基础上引入 MPP 架构,可以为其提供与存储匹配的分布式计算引擎,进一步提升海量数据下的并行计算与分析能力。

同时,TiDB 5.0 基于分布式架构,支持云原生与多云,可以弹性扩展吞吐或存储,轻松应对高并发、海量数据场景,实现一栈式数据服务。企业级用户和互联网用户都可以通过一套 TiDB 系统构建数字场景应用,而不必关注底层架构。

此外,目前市面上大部分的大数据技术也都是基于开源来进行研发的。如Hadoop、Spark、Flink……而由于TiDB一直坚持国际开源,这也让TiDB为代表的数据库可以融合当前大数据技术栈。

而这也让企业用户,只需要通过在数据库之上采用增加大数据“外挂”的方式,就可以应对未来企业所需要进行的结构化数据、半结构化数据、以及非结构化数据的融合分析处理。只需要一个接口,就可以解决未来企业面临的数据问题。

转载请注明原文地址: http://www.zuimeila.com/tech/478565
00