① 数据目录与检索:一方面能够提供元数据的服务,另一方面能够提供数据的快速检索能力。
② 权限控制与审计:因为数据湖本身是相对开放和松散的体系,需要有比较强的权限管控的能力来保证企业数据的安全性。
③ 数据质量控制:避免数据湖发展成数据沼泽的关键手段。
④ 湖表管理与优化:管理优化数据湖格式。
⑤ 存储管理与优化:对象存储提供了数据冷热分层的特性,但这些特性落地时还需要辅以自动化的手段以进行存储管理优化。
第四阶段:数据服务与应用。
数据湖较为开放,因此可以直接用 BI 系统、可视化系统连接数据湖上的引擎,进行实时分析或可视化的数据展示等。另一方面,数据湖里的数据也可以再进一步同步或 Sink 到更专业的数据系统中,比如到 ES 里进行进一步数据检索,比如到ClickHouse/Doris/StarRocks等做更丰富的多元分析。