本文由白鲸开源CEO郭炜撰写并投递参与“数据猿年度金猿策划活动——2024大数据财产年度趋势人物榜单及奖项”评选。
客岁是大模子蓬勃兴起的一年,热度席卷全球,仿佛AI已经可以办理一切题目。本年随着热潮退去,大模子开始进入深水区,试图深入改造各行各业的底层逻辑。而在大数据处理领域,大模子与传统ETL的碰撞更是点燃了新的讨论:大模子算法中有“Transformer”,而ETL中有“Transform”,二者看似名字相近,却代表了完全不同的世界。有声音断言:“将来,ETL会被彻底取代,由于大模子可以处理全部数据!”这是否意味着数十年来支持数据处理的ETL将走向终结?照旧说,这是一个被误解的预言?辩论的背后,隐藏着关于技术将来的深层思考。
大数据处理(ETL)会消失么
随着大模子的快速发展,许多人开始设想将来是否不再需要传统的大数据处理方式,乃至怀疑ETL的存在价值。大模子可以大概从海量数据中自主学习规则、挖掘模式,其强盛能力令人叹为观止。然而,我的答案是:大数据处理(ETL)不会消失。到目前为止,大模子照旧无法办理的一些有关数据焦点题目:
效率题目
只管大模子在特定任务上展现出了卓越性能,但其计算成本仍旧高昂。一个大规模Transformer模子的练习可能需要数周时间,并斲丧巨大的能源和资金资源。相比之下,ETL基于明确的规则和逻辑进行数据处理,操作高效、资源占用低,尤其在布局化数据的处理上具有显著上风。
在企业日常的数据处理中,大多数任务还是以规则为导向的高效操作,比方:
- 数据清洗:通过明确的正则表达式或规则去除非常数据。
- 格式转换:以尺度化格式存储,便于系统间传递和集成。
- 汇总统计:按天、周或月对数据进行归类、聚合、计算。
这些工作完全可以通过ETL工具快速完成,无需依靠大模子复杂的推理能力。
自然语言的二义性题目
大模子在自然语言处理(NLP)领域大放异彩,但也暴露出其难以办理的根本题目——自然语言的二义性和含糊性。比方:
- 用户输入一个题目时,模子可能根据上下文得出不同的解读,无法包管结果的确定性。
- 数据质量差别可能导致模子推理结果偏离真实需求。
相比之下,ETL流程是“确定性”的数据处理方式,基于预先定义的规则运行,输出结果可预测且符合尺度。尤其是在金融、医疗等高要求的领域,ETL的可靠性和确定性是关键上风。
对布局化数据的强适应性
大模子善于从非布局化数据(如文本、图像、视频)中挖掘信息,但面对布局化数据的特定任务时,往往效率低下。比方:
- 在大规模关系数据库中,传统ETL可以快速提取数据表,完成JOIN、GROUP BY等复杂操作。
- 大模子则需要将数据转换为特定格式才能参与处理,增加了冗余环节和时间成本。
因此,在数据主要以表格或JSON等布局化格式存在的场景下,ETL还是最佳选择。
可解释性与监管合规题目
大模子往往被称为“黑箱”,即使数据处理完成后,其详细工作机制和决策过程难以解释:
- 结果不可解释:对于监管要求较高的领域(如金融、医疗、保险),大模子的预测结果可能因无法解释而无法采纳。
- 难以满足合规性: 许多行业需要对数据流和处理逻辑进行全面审计,而大模子的数据流复杂性和决策机制使审计难度大幅增加。
传统ETL流程则具备高度透明性,全部数据处理步骤都可以被明确记录并审计,符合企业和行业的合规需求。
数据质量与输入尺度化题目
大模子对数据质量极为敏感,任何噪声、非常或非尺度化的输入都会显著影响模子性能:
- 数据噪声:大模子无法主动辨别数据中的错误或非常值,可能将错误的数据作为“学习素材”,导致预测结果出现毛病。
- 缺乏尺度化:输入数据未经过清洗或转换,直接“喂”给大模子可能导致维度不一致、缺失值等题目,这需要ETL等传统工具提前处理。
相比之下,ETL工具可以在数据进入大模子前完成清洗、去重和尺度化,确保数据的高质量。
只管大模子在许多任务中表现卓越,但其计算复杂性、对数据质量的依靠、对硬件的高要求以及应用中的实际局限,决定了它无法完全取代ETL。ETL作为一种确定性、高效且可解释的工具,仍将在将来与大模子共同发挥作用,为数据处理提供双重保障。
CPU vs GPU 的趋势就是 ETL vs 大模子的趋势
ETL无法取代,但不可否认,大模子在数据处理领域的兴起是历史的一定。在已往的几十年里,电脑和服务器都是以CPU为中心,其它叫做外设,也就是CPU才是数据处理的中心,GPU的显卡只是用于玩游戏,而现在变为CPU+GPU(NPU)为中心进行数据处理了。而现在大模子火爆的水平,看看Intel和NVIDIA的股价趋势就知道了,为什么会发生这么大的变化呢?
计算架构的变化:从单一计算中心到多中心计算
已往数十年间,数据处理的架构履历了从“CPU为中心”到“CPU+GPU(乃至NPU)协同”的演进。这一趋势不仅反映了计算硬件的性能需求变化,也深刻影响了数据处理的逻辑与工具选择。
在“CPU为中心”的时代,CPU是计算系统的绝对焦点,其它组件(如硬盘、显卡、内存)只是辅助外设。这一架构支持了早期大数据的ETL流程:抽取、转换、加载(Extract, Transform, Load)的计算模式几乎完全依靠CPU处理复杂的逻辑操作。典型的应用包罗数据清洗、格式转换、汇总与整合,其特点是高度依靠顺序计算和可预测的流程。
然而,随着大数据复杂度(音频、视频、笔墨)和存储的指数级增长,单靠CPU的算力已无法满足需求。GPU的出现,尤其是深度学习崛起后,其并行处理能力和高效浮点计算能力,使其成为大规模数据处理的另一极。如今,NVIDIA的显卡不再只是“游戏设备”,而是企业和科研计算的焦点硬件。观察Intel与NVIDIA已往十年的股价趋势,也足以体现CPU与GPU在行业地位上的此消彼长。
从传统ETL到大模子:数据处理范式的演进
传统ETL流程的筹划,符合“CPU中心化”的计算模式,注重严谨的业务逻辑处理和高效的存储访问优化。CPU善于处理复杂但较小规模的任务,比方:
- 数据清洗与验证:检查和修复缺失或错误数据。
- 格式转换:将多种数据格式统一为规范格式。
- 数据聚合:对分散的数据源进行统计和汇总。
在这一过程中,CPU的指令集筹划和多核并行能力被最大化利用,满足了大数据应用中“高吞吐量”的需求。
相比之下,大模子的数据处理需求完全不同。深度学习模子的练习涉及高维矩阵运算和大规模的参数优化,GPU依附其成百上千的并行计算单元,在这一领域大放异彩:
- 数据预处理:GPU能在练习时实时对输入数据进行归一化和分片处理。
- 模子练习:浮点运算需求高,练习大型Transformer模子需要GPU的强盛算力。
- 推理服务:GPU通过批处理优化在线推理的延迟和吞吐量。
这一趋势不但是技术的迁移,也是数据处理范式的演进: 从注重“逻辑计算”到追求“类人脑计算”,从布局化数据的处理到非布局化文章、PDF、音视频的处理。
数据处理的内核和外延也从“计算+数据处理”变为了“计算+推理+知识提取”, 大模子的出现,数据处理也可以处理知识了。
大模子数据也需要新一代的ETL架构
另一外面,现在大模子数据处理还有许多痛点题目无法办理,也需要用更高级的方式来办理。
只管大模子在许多领域表现出强盛的能力,但其背后的数据处理却面临诸多复杂且尚未完全办理的挑战。这些痛点不仅限制了大模子的效果发挥,也迫使企业重新思考数据处理的架构筹划。
数据处理环节复杂且冗长
缺乏有效的数据处理机制,让大模子对语料数据的依靠使得数据处理成为一个高度复杂的技术体系,包含多个环节:
- 语料归集:企业需要整合分散在各个部门的语料资源,包罗人、财、物等领域的数据。这一过程往往受到数据孤岛和权限限制的困扰。
- 数据清洗:去重、编码处理、拼写纠正等操作是语料质量的基础,但面对海量数据时,现有的工具和算法效率不足,难以快速完成。
- 数据预处理:包罗分词、词形还原、词干提取等,这些任务需要高度定制化的工具链,而不同语种或领域的差别加剧了复杂性。
- 数据增强:同义词替换、回译、噪声注入等增强技术需要针对模子目标进行调整,过度增强或不得当的增强方式可能对模子练习产生反效果。
- 数据标注与准备:标注质量直接影响模子的表现,但标注工作量巨大且昂贵,主动化标注技术的精度仍待提升。
大模子缺乏有效的数据处理工具
缺乏有效的数据处理工具,这使得大模子数据处理的效率和一致性大打折扣:
- 重复劳动严峻,效率低下 在不同团队进行大模子数据处理时,语料归集、清洗、预处理、增强、标注等环节需要从头手工搭建。由于没有统一的模板化工具,每个团队往往需要重新筹划流程,导致大量重复劳动,严峻浪费时间和资源。
- 处理流程割裂,难以复用 数据处理流程缺乏模块化筹划,导致各团队自行开发的流程无法尺度化或复用。比方,一个团队开发的文本分词或语料增强方案无法轻松共享给其他团队使用,造成了资源的浪费和协作效率的低下。
- 缺乏灵活扩展性,难以应对多样化需求 没有插件化的架构,各团队在面对特定场景(如行业特定的语料处理或RAG优化)时,需要自行研发和调整算法。这种“从零开始”的方式不仅耗时长,还难以快速相应业务变化的需求。
- AI资源分散,专家支持不足 当前企业内部的AI专家资源往往是分散的,各团队独立探索大模子应用时,算法调优题目(如幻象征象和RAG优化)只能依靠本地团队办理,缺乏系统性的集中支持。这种低效的资源利用模式,导致了题目办理周期长,影响了大模子应用的整体成效。
- 数据处理质量不一致,缺乏尺度化工具意味着不同团队可能使用不同的方法处理数据,导致数据质量参差不齐,最终影响大模子练习和推理的效果。这种不一致性不仅增加了维护难度,还可能导致业务决策的误差。
- 高昂的开发和维护成本, 在没有统一工具的环境下,各团队需要花费大量资源进行流程开发、优化和维护,而这些投入很难在企业层面实现规模效益。比方,每个团队都需要独立处理分词规则、增强算法、提示词优化等,造成了技术资源的浪费。
缺乏有效的的工具,企业在大模子数据处理中陷入了高成本、低效率和资源分散的困局。如果不能办理这些痛点,大模子的实际应用能力将难以释放,企业也难以在AI驱动的竞争中占据先机。这一现状迫切需要通过新一代尺度化工具来办理,为大模子数据处理提供更高效、更灵活、更统一的支持。
数据处理的终极趋势:大模子Transformer X 大数据Transform
随着技术的不断进步,大模子与传统ETL逐渐走向融合。在将来的数据处理中,新一代的ETL架构会要融合大模子的智能与ETL的高效,变为万物皆可处理的大模子大数据框架:
硬件:数据处理单元的融合
数据处理的基础单元正从单一的CPU主导,转向CPU与GPU的分工协作:
- CPU善于基础任务:完成初步的数据清洗、整合与简朴规则处理,如对布局化数据的抽取、转换、加载。
- GPU驱动深度分析:利用强盛的并行计算能力,在预处理后的数据上,进行大模子练习与推理任务。
这种融合趋势不仅体现在技术层面,还反映在财产动向中:Intel布局AI加速卡,推动CPU+AI协作;NVIDIA尝试进军数据处理领域,将GPU的应用扩展至传统ETL场景。CPU与GPU的协同,将为下一代数据处理提供更高的效率与智能支持。
软件:数据处理架构的融合
随着ETL与大模子功能的深度联合,数据处理架构正在演变为一个多功能的协同平台:ETL作为大模子的数据准备工具。
大模子在练习前需要高质量的输入数据,而ETL可以完成数据的初步处理,为大模子提供最佳的练习条件:
- 去噪与清洗:剔除噪声数据,提高数据集的质量。
- 格式化与尺度化:将多种数据源格式统一为适配大模子的输入格式。
- 数据增强:通过规则化增强和预处理,扩凑数据规模,丰富模子学习的多样性。
架构:AI增强型ETL架构的出现
将来的ETL工具将嵌入AI能力,实现更加智能化的数据处理:
- Embedding能力:ETL工具将集成Embedding生成模块,为数据的向量化处理提供支持。支持对文本、图像、音频等非布局化数据生成高维向量表现;利用预练习模子生成语义嵌入,用于卑鄙的大模子练习和语义检索任务;在ETL流程中直接完成Embedding计算,减少对外部推理服务的依靠。
- LLM知识提取能力:联合大语言模子(LLM)的知识抽取功能,ETL工具可以高效处理非布局化数据,比方,从文档、网页、对话中提取布局化信息,如实体关系、事件信息;利用LLM生成复杂数据字段的补全和推断,比方生成缺失数据值或预测将来趋势;在数据整合环节,基于LLM实现多语种数据的翻译和语义对齐。
- 非布局化数据识别与关键帧提取能力:AI增强型ETL将原生支持处理视频、图像和音频等非布局化数据。主动识别视频内容中的关键帧,用于数据标注或练习集生成;从图像中提取特征信息,如对象检测、OCR识别等;音频处理支持语音转文本、情感分析等,生成得当大模子练习的输入数据。
- 动态清洗规则:AI增强型ETL可以根据数据的上下文动态调整清洗与增强策略,确保处理的高效性和实用性。实时检测数据非常并生成适配的清洗规则,比方主动纠正毛病或补全缺失值;针对不同场景(如金融、医疗、营销)优化清洗策略,使数据更加符合领域特性;利用AI分析历史数据,预测潜在题目并提前优化处理流程。
- 数据主动增强与生成:通过AI模子嵌入,ETL工具可以大概动态实现数据增强。基于原始数据生成更多样本,比方同义词替换、数据回译、对抗样本生成等;为小样本场景提供主动数据扩充能力,满足模子练习需求;跨语言、跨领域的数据生成,支持更广泛的应用场景。
AI增强型ETL不仅是传统ETL的升级,更是数据智能化的一次深刻变革。通过Embedding、LLM能力、非布局化数据处理和动态规则生成等功能,这类工具将从根本上提升数据处理的效率、灵活性和智能水平,成为将来企业数据架构的重要组成部分。
举例:新一代AI增强型ETL架构——Apache SeaTunnel
以开源的Apache SeaTunnel为例,这一开源项目正在打破传统ETL模式的局限,通过支持多种新型数据格式和处理能力,展现了数据处理将来的蓝图:
- 原生支持非布局化数据:SeaTunnel的引擎层面直接支持处理文本、视频、语音等非布局化数据,为大模子练习提供了多样化数据源。
- 向量化数据支持:支持向量数据布局,使得数据可以直接适配深度学习和大模子推理需求。
- 嵌入大模子功能:SeaTunnel v2.3.8已经支持Embedding生成和LLM(大语言模子)的Transform功能,打通了从传统ETL到AI推理的完整链路。
- “Any 2 Any”能力:SeaTunnel的愿景是实现任意数据到任意目标格式的转换。比方,将数据库、binlog、PDF、SaaS、文章、视频或语音转化为向量化数据,并发送到任何存储或分析平台。
SeaTunnel的案例表明,当代数据处理已经不再是单一的ETL或大模子的任务,而是一种AI+BigData全栈化的协同体系,类似的工具将成为企业AI和数据处理战略的焦点。
总结
大模子Transformer和大数据Transform并不是对抗关系。将来的数据处理格局是 “ETL+大模子”的深度融合:
- 数据处理单元将由CPU和GPU协作完成,充分发挥二者的上风,处理布局化和非布局化数据。
- 数据处理架构将实现动态进化,ETL在作为基础数据管道的同时,将嵌入AI能力,支持Embedding生成、LLM知识提取和智能决策。
- 以新一代的开源工具如Apache SeaTunnel为代表的新一代AI增强型ETL架构,已经展示了这一融合趋势的雏形,为企业打造“Any 2 Any”数据转换能力,打破传统ETL的边界。
将来大模子与ETL的协同将推动数据处理进入一个智能化、尺度化和开放化的新阶段。我们相信,随着技术的不断发展,数据处理将更加贴近企业的实际需求,成为驱动业务创新和智能决策的焦点引擎。无论是对数据工程师的角色转型,照旧对企业架构的升级,ETL与大模子的融合必将成为将来十年的关键趋势,引领数据处理迈向更高效、更智能的新时代。
郭炜,人称“郭大侠”,白鲸开源CEO,Apache基金会成员, Apache DolphinScheduler PMC Member, Apache SeaTunnel Mentor,ClickHouse 中国开源社区发起人和首席布道师。
郭炜先生毕业于北京大学,现任中国通信学会开源技术委员会委员,中国软件行业协会智能应用服务分会副主任委员,全球中小企业创业联合会副会长,TGO鲲鹏会北京分会会长,ApacheCon Asia DataOps论坛主席,全球中小企业创业联合会副会长,人民大学大数据商业分析研究中心客座研究员。
郭炜曾作为演讲高朋出席波兰DataOps峰会、北美Big Data Day,并被评为虎啸十年杰出数字技术人物,中国开源社区最佳33人,金猿榜2023大数据财产年度趋势人物,2024中国数智化转型升级先锋人物,并得到2024年中国互联网发展创新与投资大赛(开源)一等奖等奖项。
郭炜先生曾任易观CTO,联想研究院大数据总监,万达电商数据部总经理,先后在中金、IBM、Teradata任大数据方重要职位,对大数据前沿研究做出卓越贡献。同时郭先生参与多个技术社区工作,如Presto、Alluxio、Hbase等,是国内开源社区领军人物。
本文由 白鲸开源 提供发布支持!
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |