酷克数据简丽荣：“模子热”将引发云计算与数据库行业大厘革 ...

东湖之滨 · 2024-7-28 03:47:49

随着LLM智能涌现的发生和API的爆发式发展，各行各业都在关注如何用好通用模子，如何调校好适合自己的行业应用。LLM最告急的输入是数据，最频仍的接口是数据库。模子应用的普及会对数据库产生哪些影响？大模子时代对企业的数据管理能力和范式提出了哪些新的要求？
围绕这些问题，酷克数据联合创始人兼CEO简丽荣接受了《中国电子报》的专访，解读大模子时代云计算和数据库行业的厘革与时机。以下为专访全文：

当前，大模子引发的AI再造产业趋势已经势不可挡，对于支持AI的底层数据库而言更是如此。“以ChatGPT为代表的超大语言模子的迅速应用将引发云计算与数据库行业的大厘革。”北京酷克数据科技有限公司（简称“酷克数据”）联合创始人兼CEO简丽荣近日在接受《中国电子报》记者专访时表现。
大模子热潮将改变云计算和数据库市场竞争维度，加速企业IT架构向分布式和并行化发展的趋势，这也符合“东数西算”的政策导向。同时，大模子将会推动多云化的普及，具备中立性、产物支持多云部署的独立数据库厂商将有望从中受益。
数据处置处罚全链路将被重塑
AI大模子是基于海量多源数据打造的模子，需要通过不断地训练从大量标记和未标记的数据中捕获知识，并将知识存储到大量的参数中，以建立对各种任务进行高效处置处罚的技术架构。它具备通用、可规模化复制等诸多优势，是实现AGI（通用人工智能）的告急方向。
“‘数据堆栈’‘数据平台’和‘大模子’本质上都是为了更好地回答决议问题。从某种意义上讲，它们之间是相辅相成的。”简丽荣表现，一方面，数据堆栈成熟的数据管理、清洗、并行处置处罚技术，可以有用提升训练、微调大模子所需训练数据的处置处罚流程；另一方面，数仓作为自然的毕竟数据或知识管理平台，可以为生成式AI提供正确答案所需的上下文，有用解决大模子广泛存在的“幻觉”问题。数仓和大模子的有机联合，可以更好地帮助企业实现辅助决议。
区别在于，大模子处置处罚数据的方式明显差别于现在主流的数据堆栈、数据平台。数据堆栈、数据平台通常会把原始数据编制成二维表格，然后进行数据清洗、规整、补全等处置处罚，终极通过复杂的SQL实现贸易智能。而大模子则需要不断把原始文本信息用提示的方式进行投喂，让其进行深度学习，从而实现对任务的高效处置处罚，这与传统的基于二维表格的形式存储、管理数据完全差别。

简丽荣分析称：“传统数据处置处罚需要消耗大量人力、物力以实时间，而且有很多环节非常容易堕落，如数据清洗、数据血缘分析、主数据管理、数据质量、数据治理、ETL、数据分析、数据库运维等。以ChatGPT为代表的通用人工智能模子的迅速应用，将会大幅提升数据处置处罚全链路各个环节的自动化程度。”
比如，Text2SQL（即Text-to-SQL，指将自然语言文本转换成结构化查询语言的过程），就是借助大模子的能力，自动根据自然语言生成结构化查询语言，完成BI（贸易智能）任务，提升数据工程师工作效率。
简丽荣表现：“大模子的出现，一方面，让大家开始思考如何利用模子的能力去重构数据处置处罚全链路的各个环节，以实现更高程度的智能化、自动化；另一方面，也促使大家开始思考如何将数据堆栈、数据平台的数据处置处罚规则与大模子进行适配，从而更好地支持大模子的训练、调优、部署、推理及应用。”
云计算资源消费模式将被改变
众所周知，大模子训练的关键在于算力、数据和算法。简丽荣以为，云计算平台正是提供这三个要素最符合的平台。首先，大模子需要大量算力，特别是高端GPU；其次，需要海量的数据，特别是一些高质量的数据；别的，大模子还需要算法的支持，Model as a Service将成为一种新的PaaS服务。这些都是新的需求，也是云平台最善于做的事。所以，大模子的出现将会非常有用地提振云计算市场。同时，拥有更强GPU算力的云厂商会更具竞争优势。
简丽荣指出，大模子的出现，将会对自然语言处置处罚、计算机图像，甚至自动驾驶造成颠覆性的影响，改变这些领域的整个软件和硬件技术栈，从而给云计算市场带来全新的资源消费模式。

以SaaS服务为例，大模子对低代码的冲击将会非常明显。低代码（或零代码）焦点价值是通过拖沓组合解决软件开发慢、门槛高的问题。然而，大模子的出现颠覆了低代码的整个开发模式。“低代码可以或许覆盖的应用场景是有限的，未来背景的技术栈会被大模子彻底颠覆。”简丽荣表现。
像ChatGPT之类的大模子可以通过自然语言描述直接创建应用程序，AI生成代码的速度远超人工，甚至还可以通过对话连续提出改进发起。此前，曾经估值130亿美元的AI写作工具Grammarly在ChatGPT发布后就出现了网站用户直线下降的环境。
简丽荣以为，AI应用的大规模推广现实上增长了IT行业的竞争维度，差别的企业在差别的维度上面的竞争力是不一样的。IT层会更加多元化，这自然也会推动多云的普及程度。
未来，大部门普通的非科技企业用户只需要调用云厂商提供的MaaS服务（模子即服务）来构建自己的垂类模子和应用，而一些大型企业用户出于数据安全、行业监管要求、资本、自主可控等因素，大概会更倾向于建设自己的基础平台来完成专有模子训练和推理任务。
大模子加速数据库分布化和并行化
陪同“模子热”的鼓起，庞大的数据量带来了存储和计算资源的压力，这要求数据库自己精密跟云计算技术联合，通过元数据、计算和存储层解耦，从而充实发挥云平台的弹性和扩展能力。
简丽荣以为，在大模子爆发的背景下，数据库需要提供可以横向的并发访问能力、多范式的数据处置处罚分析能力（包罗支持声明式语言SQL，过程式语言Python/R，图计算、全文检索、流式计算、高性能计算、呆板学习和人工智能）和海量异构数据（结构化数据、半结构化数据、非结构化数据以及实时数据）的存储管理能力。
在这种趋势下，基于云原生架构的数据堆栈将成为未来数据库行业发展的告急方向，而大中型企业思量到高可用以及议价能力等因素，通常会选择多云部署的模式。
“这种趋势对我们做多云数据库的企业也有明显影响，用我们的焦点产物HashData云数仓为例，计划之初，我们对多云部署场景的思量是通过将体系的差别组件解耦，低落对特定接口的依赖，方便对接各种开放的云平台，满足企业数据在差别云平台流转的需求。”简丽荣说，“我们现在在开发增强HashData数据堆栈支持向量数据存储和处置处罚检索能力的功能组件，再联合云数仓的高扩展性、高可用和高弹性，实现更好地支持和扩展大模子的应用场景。”简丽荣表现。
与此同时，分布式和并行化潮水将进一步加速。“大模子的应用将进一步加速数据库行业的分布式和并行化潮水，而且在一个更深更广的层面上进行分布式和并行化。”简丽荣表现，“更深指的是更多异构的算力资源需要并行化，包罗CPU、GPU、DPU等，更广指的是雷同‘东数西算’工程，这些都要求数据体系可以或许更好地提供共享和协作能力。”
别的，除了雷同ChatGPT一样的To C的形态外，大模子在企业级市场将更多地以个性化、独立部署的形态出现，也就是说各行各业甚至同一家企业差别的部门都会有各自的大模子实例，雷同行业专家。在这样的背景下，需要在数据库内核集成深度学习和大模子的能力。
“无论是数据分析全链路的各个环节还是数据库自身的运维工作，都非常耗时和依赖履历，我们正在尝试利用大模子训练数据库领域的专家体系，期望提升数据分析和数据库智能运维能力，实现在数据库范围内有雷同于‘自动驾驶’一样的功能。”简丽荣表现。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

酷克数据简丽荣：“模子热”将引发云计算与数据库行业大厘革 ...

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云