DevOps与敏捷开发Big Data for AI实践：面向AI大模子开发和应用的大规模数据处理套件

九天猎人 发表于 2024-8-25 16:21:46

Big Data for AI实践：面向AI大模子开发和应用的大规模数据处理套件

作者：夕陌，临在，熊兮，道辕，得水，施晨

随着人工智能技术的快速发展，大模子在各个范畴的应用日益广泛。大模子能够更好地模仿人类的认知本领，大幅提升机器在复杂任务上的表现。然而，不断增长的模子参数规模使得数据集的复杂度也不断上升，数据质量更直接影响模子的精确性和可靠性。本文叙述的 Big Data for AI 最佳实践，基于阿里云人工智能平台PAI、MaxCompute自研分布式计算框架MaxFrame、Data-Juicer等产物和工具，实现了大模子数据采集、清洗、增强及合成大模子数据的全链路，解决企业级大模子开发应用场景的数据处理难题。

Data-Juicer是通义实行室和PAI共建的开源数据处理工具。它提供了丰富的数据处理算子、高效并行化的数据处理流水线，支持数据预处理、可视化、数据评估等各项本领。还为不同配景的用户提供了开箱即用的组件和丰富的数据配方。别的，Data-Juicer与MLLM和分布式计算生态系统无缝集成，以实现高效且可扩展的数据处理。

MaxFrame是MaxCompute自研的分布式计算框架，为MaxCompute提供了一套完整的Python开发生态，为大规模数据分析和机器学习任务提供了极佳的灵活性。数据科学家和数据工程师可利用MaxCompute的海量计算资源对数据进行大规模处理分析、可视化探索、科学计算，以及传统ML开发等工作。

阿里云人工智能平台PAI是是面向开发者和企业的机器学习/深度学习工程平台，提供AI开发全链路服务，为用户提供低门槛、高性能的云原生AI工程化本领。PAI的数据处理工具提供了一套全方位、覆盖多范畴的解决方案。充实利用深度学习集群（DLC）和MaxCompute的分布式本领和资源，联合Ray、UDF和MaxFrame等底层框架，基于DataJuicer丰富的算子，为用户提供了开箱即用的组件和丰富的数据配方，能够高效且灵活地处理复杂数据任务，使得快速上手和简化流程成为可能。

PAI大模子数据处理套件架构概览：

https://img-blog.csdnimg.cn/img_convert/d26be1c5a51e54f779dbd2477e488e03.png

自底向上：

[*] 云资源：资源层是整个架构的基础，PAI大模子数据处理套件同时支持DLC（深度学习集群）和MaxCompute集群，为上层应用提供强大的计算和存储本领。
[*] 引擎框架：
[*] DLC集群：支持Ray自动化部署，可以进行大规模数据的并行处理，提升数据处理服从。
[*] MaxCompute集群：利用UDF算子和MaxFrame框架，依托MaxCompute的强大计算和存储本领，满足特定业务需求。
[*] 算子底座：DataJuicer提供了丰富的数据处理算子和高效的并行处理流水线，提供了全面的数据处理本领。我们以DataJuicer作为基石，进行算子改造，适配DLC和MaxCompute的分布式本领，进一步加快处理服从。
[*] 产物：PAI-Designer 提供了用户友好的工具和界面，用户可以自界说工作流对数据安全、数据脱敏、数据增强等组件进行任意编排。我们同时与百炼互助，这些组件也作为百炼数据处理的底层工具为用户提供数据处理服务。
[*] 解决方案：利用PAI的产物工具集，提供涵盖多个应用场景的解决方案，如文生图/视频、图片/视频理解、CT、SFT和RAG等。旨在简化整个数据处理流程。帮助用户快速上手。每个解决方案都是为特定范畴的应用需求而设计的，用户可以根据自身需求选择适合的解决方案，满足多样化的业务需求。
Data-Juicer

https://img-blog.csdnimg.cn/img_convert/3bd03bbafe3815d714dd7e061739ac39.png

Data-Juicer 是一个由通义实行室主导，PAI深度参与共建的一站式开源数据处理系统，旨在为多模态大语言模子（MLLMs）提供更高质量、更丰富、更易“消化”的数据，提供凌驾 100 个内置多功能算子和可插拔工具。通过模块化协同、灵活组合和弹性扩展，Data-Juicer 可以应对 MLLM 数据处理的异质需求，包罗但不限于分析、清洗、合成和混合。 Data-Juicer 为各种配景的用户优化了可用性，包罗提供开箱即用的底层组件，支持数据菜谱可配置，以及为 MLLM 预训练和后调优预置丰富的、效果证明过的数据菜谱。颠末了多方面的系统性能优化， Data-Juicer 与 MLLM 和分布式计算的大量生态基建无缝集成，以支持高效且可规模化扩展的大模子数据处理。

https://img-blog.csdnimg.cn/img_convert/59babfeae04c238013db3492afdb719b.png

别的， Data-Juicer 提供了一个定制化的中间层套件，“沙盒实行室”，来支持便捷的多模态大模子 “数据-模子协同开发”。它提供了灵活的实行平台，在 Data-Juicer 已有的数据处理本领之上，沙盒实行室连续集成多模态大模子的先进开源基建，提供数据和模子多维度的反馈循环。通过该套件，研发职员能在端到端工作流、典型开发行为、底层开发本领之间便捷组合，快速迭代小规模洞察，提高数据处理和模子开发的可权衡性和科学实践性，以便在更大规模场景下“有的放矢”。通过该实行室沉淀的数据开发工作流和实践洞察，也将连续集成到PAI中，帮助提升用户体验。

干系参考

[*] 开源链接：GitHub - modelscope/data-juicer: A one-stop data processing system to make data higher-quality, juicier, and more digestible for (multimodal) LLMs!

页: [1]

ToB企服应用市场:ToB评测及商务社交产业平台's Archiver

Big Data for AI实践：面向AI大模子开发和应用的大规模数据处理套件