3 个步骤,4 大平台,搞定大规模数据处理

简介:本次分享围绕云原生数据湖架构的价值展开,深度数据湖计算和统一元数据的技术架构。

本次分享的主题是:数据湖架构下的大规模数据处理技术实践。内容主要分为以下4个方面:

背景介绍

  • 大数据基础建设
  • 数据湖数仓建设
  • 一站式开发平台

01背景介绍

什么是数据湖

数据湖的概念最早出现在2010年 ,此时数据湖是一个集中式的存储系统,流入任意规模的结构化和非结构化的数据。但这些还是在关注它存储的相关特性。

随着对象存储(BOS)解决了海量数据和低成本存储问题,用户更关注挖掘湖中数据的价值。数据湖的重点从存储转向数据的计算分析,核心在于强化数据分析的能力。

2017年随着AI 的兴起,深度学习使用大数据处理海量的训练数据输入。借助数据湖架构,可以更好地打通数据之间的壁垒,支撑AI 模型的训练、推理以及数据的预处理。

数据化架构的演进

file

  • 第一个阶段在1980年,当时还是传统的数仓形式:用户把关系型数据库的内容采集下来,通过ETL存储到专门的分析型数据库中,然后在上层提供BI、报表类的服务。

  • 第二个阶段在2011年,此时开始引入数据湖的概念:源端的类型也变为更多结构化的数据和非结构化的数据,包括音频和视频等等,然后把这些数据全部都存到数据湖里。

接下来会按照两种情况处理:第一种通过数据预处理之后为数据科学或机器学习提供训练的数据输入。第二种通过传统的ETL处理,存到分析型数据库或实时数据库里用来提供传统的报表或BI分析。

第三个阶段在2020年,此时提出湖仓一体的概念,称为Lakehouse。底层数据保持不变,但是使用一个数据湖来对接上层所有应用,其中没有相关的分析型数据库或实时数据库或数据预处理机制,数据湖可以直接对接BI、报表、训练、数据科学、流式分析等分析类的场景。

大数据项目实例

file

以一个实际的大数据项目为例来介绍一下如何在大规模数据的背景下建设一个数据湖的数仓。

客户的场景主要分为这四方面的内容。

  • 进行采集传输
    其中包括日志文件采集、数据库采集和实时消息。
  • 采集上来的数据需要进行清洗加工
    其中包括非结构化文本解析、数据清洗、格式转换和初步加工校对。
  • 将清洗完的数据用来构建数仓
    构建的方式包括实时聚合、天级聚合和按周按月聚合。
  • 数仓里的数据需要提供给下游去进行数据消费
    其中包括人员交互、各类报表和API服务。

相关文章:
3个步骤,4大平台,搞定大规模数据处理

为者常成,行者常至