当前,业界流行的集中数据湖表格式 Hudi/Iceberg/DeltaLake,和最近出现并且在国内比较火的 Paimon。我们现在看到的很多是针对流处理场景的读写性能测试,那么本篇文章我们将回归到大数据最基础的场景,对海量数据的批处理查询。本文主要介绍通过 TPC-DS 3TB 的数据的99个SQL,对这几种数据湖表格式的查询性能做一个全面的测试。
测试环境
我们选择使用 Aamzon EMR Serverless 作为测试的基础环境,版本选择 EMR 最新的 7.1.0。Spark 版本为 3.5.0。
Amazon EMR Serverless 已经集成了 Hudi,Iceberg,Delta Lake,所以我们直接使用集成的版本,而Paimon,是通过外部依赖使用的是 paimon-spark-3.5-0.8.1
测试数据是通过 TPC DS 工具生成好的 3TB 的 parquet 数据文件,我们把着 3TB 的文件分别以这几种表格式的类型写入各自的表中。
每张表的数量如下:
| 表名 | 记录数 |
|---|---|
| call_center | 48 |
| catalog_page | 36000 |
| catalog_returns | 432006840 |
| catalog_sales | 4320004419 |
| customer | 30000000 |
| customer_address | 15000000 |
| customer_demograp |

&spm=1001.2101.3001.5002&articleId=140342951&d=1&t=3&u=eee37de5fbae4c68bf0df2a750cad984)
1867

被折叠的 条评论
为什么被折叠?



