作者:夕陌,临在,熊兮,道辕,得水,施晨
随着人工智能技术的快速发展,大模子在各个范畴的应用日益广泛。大模子能够更好地模仿人类的认知本领,大幅提升机器在复杂任务上的表现。然而,不断增长的模子参数规模使得数据集的复杂度也不断上升,数据质量更直接影响模子的精确性和可靠性。本文叙述的 Big Data for AI 最佳实践,基于阿里云人工智能平台PAI、MaxCompute自研分布式计算框架MaxFrame、Data-Juicer等产物和工具,实现了大模子数据采集、清洗、增强及合成大模子数据的全链路,解决企业级大模子开发应用场景的数据处理难题。
Data-Juicer是通义实行室和PAI共建的开源数据处理工具。它提供了丰富的数据处理算子、高效并行化的数据处理流水线,支持数据预处理、可视化、数据评估等各项本领。还为不同配景的用户提供了开箱即用的组件和丰富的数据配方。别的,Data-Juicer与MLLM和分布式计算生态系统无缝集成,以实现高效且可扩展的数据处理。
MaxFrame是MaxCompute自研的分布式计算框架,为MaxCompute提供了一套完整的Python开发生态,为大规模数据分析和机器学习任务提供了极佳的灵活性。数据科学家和数据工程师可利用MaxCompute的海量计算资源对数据进行大规模处理分析、可视化探索、科学计算,以及传统ML开发等工作。
阿里云人工智能平台PAI是是面向开发者和企业的机器学习/深度学习工程平台,提供AI开发全链路服务,为用户提供低门槛、高性能的云原生AI工程化本领。PAI的数据处理工具提供了一套全方位、覆盖多范畴的解决方案。充实利用深度学习集群(DLC)和MaxCompute的分布式本领和资源,联合Ray、UDF和MaxFrame等底层框架,基于DataJuicer丰富的算子,为用户提供了开箱即用的组件和丰富的数据配方,能够高效且灵活地处理复杂数据任务,使得快速上手和简化流程成为可能。
PAI大模子数据处理套件架构概览:
自底向上:
- 云资源:资源层是整个架构的基础,PAI大模子数据处理套件同时支持DLC(深度学习集群)和MaxCompute集群,为上层应用提供强大的计算和存储本领。
- 引擎框架:
- DLC集群:支持Ray自动化部署,可以进行大规模数据的并行处理,提升数据处理服从。
- MaxCompute集群:利用UDF算子和MaxFrame框架,依托MaxCompute的强大计算和存储本领,满足特定业务需求。
- 算子底座:DataJuicer提供了丰富的数据处理算子和高效的并行处理流水线,提供了全面的数据处理本领。我们以DataJuicer作为基石,进行算子改造,适配DLC和MaxCompute的分布式本领,进一步加快处理服从。
- 产物:PAI-Designer 提供了用户友好的工具和界面,用户可以自界说工作流对数据安全、数据脱敏、数据增强等组件进行任意编排。我们同时与百炼互助,这些组件也作为百炼数据处理的底层工具为用户提供数据处理服务。
- 解决方案:利用PAI的产物工具集,提供涵盖多个应用场景的解决方案,如文生图/视频、图片/视频理解、CT、SFT和RAG等。旨在简化整个数据处理流程。帮助用户快速上手。每个解决方案都是为特定范畴的应用需求而设计的,用户可以根据自身需求选择适合的解决方案,满足多样化的业务需求。
Data-Juicer
Data-Juicer 是一个由通义实行室主导,PAI深度参与共建的一站式开源数据处理系统,旨在为多模态大语言模子(MLLMs)提供更高质量、更丰富、更易“消化”的数据,提供凌驾 100 个内置多功能算子和可插拔工具。通过模块化协同、灵活组合和弹性扩展,Data-Juicer 可以应对 MLLM 数据处理的异质需求,包罗但不限于分析、清洗、合成和混合。 Data-Juicer 为各种配景的用户优化了可用性,包罗提供开箱即用的底层组件,支持数据菜谱可配置,以及为 MLLM 预训练和后调优预置丰富的、效果证明过的数据菜谱。颠末了多方面的系统性能优化, Data-Juicer 与 MLLM 和分布式计算的大量生态基建无缝集成,以支持高效且可规模化扩展的大模子数据处理。
别的, Data-Juicer 提供了一个定制化的中间层套件,“沙盒实行室”,来支持便捷的多模态大模子 “数据-模子协同开发”。它提供了灵活的实行平台,在 Data-Juicer 已有的数据处理本领之上,沙盒实行室连续集成多模态大模子的先进开源基建,提供数据和模子多维度的反馈循环。通过该套件,研发职员能在端到端工作流、典型开发行为、底层开发本领之间便捷组合,快速迭代小规模洞察,提高数据处理和模子开发的可权衡性和科学实践性,以便在更大规模场景下“有的放矢”。通过该实行室沉淀的数据开发工作流和实践洞察,也将连续集成到PAI中,帮助提升用户体验。
干系参考
- 开源链接:GitHub - modelscope/data-juicer: A one-stop data processing system to make data higher-quality, juicier, and more digestible for (multimodal) LLMs!
|