数据湖表格式 Hudi/Iceberg/DeltaLake/Paimon TPCDS 性能对比（Spark 引擎）

原创

已于 2024-07-11 16:47:44 修改 · 2.5k 阅读

·

17

·

标签

#spark #大数据 #数据湖 #Iceberg #Hudi

于 2024-07-11 12:49:13 首次发布

当前，业界流行的集中数据湖表格式 Hudi/Iceberg/DeltaLake，和最近出现并且在国内比较火的 Paimon。我们现在看到的很多是针对流处理场景的读写性能测试，那么本篇文章我们将回归到大数据最基础的场景，对海量数据的批处理查询。本文主要介绍通过 TPC-DS 3TB 的数据的99个SQL，对这几种数据湖表格式的查询性能做一个全面的测试。

测试环境

我们选择使用 Aamzon EMR Serverless 作为测试的基础环境，版本选择 EMR 最新的 7.1.0。Spark 版本为 3.5.0。

Amazon EMR Serverless 已经集成了 Hudi，Iceberg，Delta Lake，所以我们直接使用集成的版本，而Paimon，是通过外部依赖使用的是 paimon-spark-3.5-0.8.1

测试数据是通过 TPC DS 工具生成好的 3TB 的 parquet 数据文件，我们把着 3TB 的文件分别以这几种表格式的类型写入各自的表中。
每张表的数量如下：

表名	记录数
call_center	48
catalog_page	36000
catalog_returns	432006840
catalog_sales	4320004419
customer	30000000
customer_address	15000000
customer_demograp

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。