序号 | 特性 |
1 | 数据湖需要提供足够用的数据存储能力,这个存储保存了一个企业/组织中的所有数据。
|
2 | 数据湖可以存储海量的任意类型的数据,包罗结构化、半结构化和非结构化数据。
|
3 | 数据湖中的数据是原始数据,是业务数据的完整副本。数据湖中的数据保持了他们在业务体系中原来的样子。
|
4 | 数据湖需要具备完满的数据管理能力(完满的元数据),可以管理各类数据相关的要素,包罗数据源、数据格式、连接信息、数据schema、权限管理等。
|
5 | 数据湖需要具备多样化的分析能力,包罗但不限于批处理、流式盘算、交互式分析以及呆板学习;同时,还需要提供一定的任务调理和管理能力。
|
6 | 数据湖需要具备完满的数据生命周期管理能力。不光需要存储原始数据,还需要能够保存各类分析处理的中间结果,并完整的记载数据的分析处理过程,能资助用户完整详细追溯任意一条数据的产生过程。
|
7 | 数据湖需要具备完满的数据获取和数据发布能力。数据湖需要能支撑各种各样的数据源,并能从相关的数据源中获取全量/增量数据;然后规范存储。数据湖能将数据分析处理的结果推送到符合的存储引擎中,满足不同的应用访问需求。
|
8 | 对于大数据的支持,包罗超大规模存储以及可扩展的大规模数据处理能力。
|