Spark 发展、特点、概述,三大组件:Spark Core、Saprk SQL、Spark Streaming,RDD 算子、RDD 转换和行动操作、RDD 持久化和缓存、检查点机制、宽窄依赖、DAG、Stage,Spark、SQL 发展、概述、特点、dataframe、dataset,Spark Streaming 工作机制、缓存、容错、DStream、常见流式计算和离线计算,Spark 多种部署方式
何为数据仓库、数仓和数据库的区别、维度建模、数据分析模型、数仓特征、以银行业务为例
数仓架构,离线数仓的数据集市架构、Inmon架构、Kimball架构、混合型架构,实时数仓的lambda架构、kappa架构,湖仓一体数据湖
数仓建模在哪层建,怎么建,三种维度建模法:范式建模法,维度建模法,实体建模法,三种维度建模模式:星型模型,雪花模型,星座模型
数仓分层,数据源层:ODS(Operational Data Store),数据仓库层:DW(Data Warehouse)、数据明细层:DWD(Data Warehouse Detail)、数据中间层:DWM(Data WareHouse Midddle)、数据服务层:DWS(Data WareHouse Service)、 数据应用层:ADS(Application Data Service)、 维表层:DIM(Dimension)
实体、维度、度量、指标、事实表、标签、自然键、代理键、持久键、退化维度、上卷、下钻、维度立方体、数据集市、粒度、口径
HBase Table、行键、列族、时间戳、存储结构、region、region Server、系统架构的三个组件及协作、读写流程、Phoenix