欢迎大家扫码关注我的微信公众号:

Hive 之 查询 04-分桶及抽样查询
一、 分桶表数据存储
分区针对的是数据的存储路径, 分桶针对的是数据文件;
分区提供一个隔离数据和优化查询的便利方式。 不过, 并非所有的数据集都可以形成合理的分区。 特别是要确定合适的划分大小这个问题。
【注】分桶类似于 Hadoop 里面的分区;
如:
创建分桶表:
hive (default)> create table stu_buck(
> id int,
> name string)
> clustered by(id)
> into 4 buckets
> row format delimited fields terminated by '\t';
OK
Time taken: 2.17 seconds
查看表结构:
hive (default)> desc formatted stu_buck;
OK
... ...
Num Buckets: 4
Bucket Columns: [id]
... ...
Time taken: 0.449 seconds, Fetched: 28 row(s)
导入数据:
hive (default)> load data local inpath
> '/opt/module/data/student.txt'
> into table stu_buck;
Loading data to table default.stu_buck
Table default.stu_buck stats: [numFiles=1, t

本文介绍了Hive中的分桶表数据存储和抽样查询。分桶类似于Hadoop分区,通过创建分桶表并调整属性实现数据分桶。抽样查询允许在大型数据集中获取代表性结果,使用TABLESAMPLE(BUCKET x OUT OF y)语法,根据y的比例抽取bucket数据。

1277

被折叠的 条评论
为什么被折叠?



