手把手教数据仓库建设dataworks（小白版）

原创

已于 2022-04-15 22:53:17 修改 · 7.8k 阅读

标签

#数据仓库 #java #大数据 #阿里云

于 2022-04-15 22:38:24 首次发布

本文介绍了如何使用阿里云产品构建数据仓库，包括DataHub、E-MapReduce、MaxCompute和DataWorks等。重点讲解了DataWorks的使用，从创建工作空间、配置表主题到数据仓库分层命名规范，以及数据开发和临时查询的操作。此外，还展示了MaxCompute的建表过程和数据导入。

阿里云数据仓库体系

目前构建数据仓库的技术主要为开源框架，像Hadoop，hive，kafka，flink，spark等等，如果自己从0到1去搭建整个数据仓库工作量比较大，且对于性价比不高，故我们采用现成的阿里云提供的数据仓库，阿里云技术框架如下：

阿里云产品	介绍	类比
DataHub	数据总线	Kafka+datax
E-MapReduce	开源大数据计算框架	上面所说的从0到1用开源框架去搭建数据仓库，适用于已搭建了数据仓库的公司进行改造升级。
MaxCompute	阿里黑盒大数据计算框架	E-MapReduce差不多，但是其主要是阿里自己研发的，相当于一个黑盒，即开即用，适合没有搭建过数据仓库的公司使用。
DataWorks	可视化的开发管理平台	相当于我们之前海度系统
RDS	关系型数据库	MySQL
QuickBI，datav	可视化数据展示工具	Tableau，Echarts，powerbi，帆软BI