Hive 之 查询 04-分桶及抽样查询

本文介绍了Hive中的分桶表数据存储和抽样查询。分桶类似于Hadoop分区,通过创建分桶表并调整属性实现数据分桶。抽样查询允许在大型数据集中获取代表性结果,使用TABLESAMPLE(BUCKET x OUT OF y)语法,根据y的比例抽取bucket数据。

欢迎大家扫码关注我的微信公众号:
数据之恋

Hive 之 查询 04-分桶及抽样查询

一、 分桶表数据存储

分区针对的是数据的存储路径, 分桶针对的是数据文件;

分区提供一个隔离数据和优化查询的便利方式。 不过, 并非所有的数据集都可以形成合理的分区。 特别是要确定合适的划分大小这个问题。

【注】分桶类似于 Hadoop 里面的分区;

如:

创建分桶表:

hive (default)> create table stu_buck(
              > id int, 
              > name string)
              > clustered by(id)
              > into 4 buckets
              > row format delimited fields terminated by '\t';
OK
Time taken: 2.17 seconds

查看表结构:

hive (default)> desc formatted stu_buck;
OK	 
... ...                	 
Num Buckets:        	4                   	 
Bucket Columns:     	[id]
... ...              
Time taken: 0.449 seconds, Fetched: 28 row(s)

导入数据:

hive (default)> load data local inpath
              > '/opt/module/data/student.txt'
              > into table stu_buck;
Loading data to table default.stu_buck
Table default.stu_buck stats: [numFiles=1, t
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值