在今年的第七届中国开源年会上,StoneDB 团队在大数据分论坛发表了《HTAP 的下一步?SoTP 初探》主题演讲,在本次演讲中,我们首次正式对外阐释了“SoTP 数据库”的技术理念,本系列是演讲实录+小编补充版,权当抛砖引玉,供大家批评指正。由于内容比较多,本文为第一章节,主要讲讲我们提 SoTP 的背景:From Big to Small and Wide Data。
Gartner’s definition in 2014: utilizes in-memory computing technologies to enable concurrent analytical and transaction processing on the same in-memory data store.
Gartner’s new definition in 2018: supports weaving analytical and transaction processing techniques together as needed to accomplish the business task.
随着一些 HTAP 产品功能能够实现落地了,在 HTAP 架构的选择上引起了不少争议(我们讲叫技术口水战),这很正常,大家都想说 HTAP 是自己做得比较好嘛。比如 StoneDB 这边就比较支持完全一体化的混合负载架构(我们称之为真正的 HTAP 面临的挑战);也有的团队比较想搞那种两套系统叠加的架构;还有更猛的,直接说要基于 GPU/CPU 搞 HTAP,就是 RateupDB,据说是全球唯一一个基于 GPU/CPU 和并行的 HTAP 数据库,还发了一篇 VLDB,不过好像现在销声匿迹了,创始人目前应该是投身一家势头较猛的云数仓创业公司去了。
由此可见,HTAP 虽然引起了一阵狂欢,但是,对 HTAP 数据库架构选择目前业界还是没有一套特别称得上成熟的方案,大家也都是在打磨产品中。有的走的稍微早了一些;有的还在孵化打磨;有的已经倒在半路上了,但是一个不可否认的事实是,大家都开始说自己能或者即将能支持 HTAP 了,就和数据库领域另外一个爆火的“云原生”关键字一样,这真可谓是“二四八月乱穿衣”了,这也算是现在 HTAP 领域上存在的迷思吧。
新的趋势:From Big to Small and Wide data
所以,在这个时候,作为率先提出要做 MySQL 开源 HTAP 数据库的 StoneDB,想要稍微冷静一下。
不是说我们不做 HTAP 了,而是有了一个新的思路。这个思路,也同样来自于咱们的老朋友、好伙伴,大家都巴不得上他们报告的权威机构——Gartner。
Gartner 在去年发布的《Gartner 2021 十大数据和分析趋势》报告里,特别提到了一个重要的趋势:。From Big to Small and Wide data
据 Gartner 预测,到 2025 年 70% 的组织会把重点从“大”数据转向“小”数据和“宽”数据,为分析提供更多的场景,使人工智能(AI)减少对数据量的需求(原文是 making artificial intelligence (AI) less data hungry)。
当然,这个趋势的调研结论是有背景的,那就是突如其来的新冠疫情。面对新冠,很多数据几乎是一夜式爆发式变化增长,导致了基于大量历史数据的机器学习和人工智能模型变得不那么可靠,随着智能决策变得更加复杂和严格,数据和分析领导者应选择能够更加有效利用现有数据的分析技术。
如何更加有效利用数据分析?那就是我们讲的用“小”而“宽”的数据取代“大”数据来解决问题。小数据——顾名思义,指的是能够使用所需数据量较少,但仍能提供实用洞见的数据模型。宽数据——可以理解为多模数据,即使用宽数据分析各种小而多样化的非结构化和结构化数据源并发挥它们的协同效果,从而增强情景态势感知(contextual awareness,情境感知)和决策。
下面就来详细讲解一下 Small Data 和 Wide Data 的定义。
Small data 概念
小数据的方法是指使用相对较少的数据,但仍能提供有见解的分析技术。其中包括了有针对性地使用数据要求比较低的模型,比如一些时间序列分析的技术,而不是用一刀切的方式去使用数据量要求较高的深度学习技术。
通俗地来讲,使用 AI 或者 ML 技术,往往需要大量的数据源作为分析的训练模型,但并不是数据量越多越好,特别是那些过时的历史数据,对分析毫无意义,如果可以及时地找到一些比较精准的小数据进行分析,往往能获得更有价值的效果。总之,小数据侧重于应用分析技术,在小量的、单独的数据集中寻找有用的信息。
Wide data 概念
宽数据允许分析师检查和组合各种大小、非结构化和结构化数据。具体来说,宽而广泛的数据就是将各种来源的不同数据源捆绑在一起,以进行有意义的分析。
基于宽数据的数据分析技术围绕着结构化和非结构化数据的分析和协同,而不管数据集是否直接相关。宽数据最大的特征是可以提取或识别异构数据集之间的联系。
Small and Wide data 结合的作用
Gartner 知名研究副总裁 Rita Sallam 表示:“使用‘小’而‘宽’的数据能够提供强大的分析和 AI,同时降低企业机构对大型数据集的依赖性。企业机构可以使用‘宽’数据获得更丰富、更完整的态势感知或 360 度视图,这将使企业机构能够使用分析技术做出更好的决策。”
Gartner 高级研究总监孙鑫表示:“随着企业逐渐认识到大数据作为分析和人工智能关键推动者的局限性,被称为小数据和宽数据的方法正在慢慢涌现,小数据的方法抛开了对于大型单体数据的依赖,实现了对于小型、大型、结构化、非结构化的数据源的分析和协同。”
同时,据 Gartner 预测,到 2025 年,超过 85% 的技术供应商,将在人工智能解决方案当中加入让数据变得更丰富的方法和模型训练技术,以提高模型的弹性和敏捷性,而在 2020 年,这样做的供应商只有不到 5%。 由此可见,小数据和宽数据的市场增量巨大。
Small and Wide data 核心场景