关于hive分桶中的抽样调查

最新推荐文章于 2023-05-18 23:06:34 发布

原创

最新推荐文章于 2023-05-18 23:06:34 发布 · 715 阅读

标签

#hive

收录于

本文详细介绍了在Hive中如何对分桶表进行抽样调查，探讨了抽样参数x和y的影响，展示了不同抽样设置下的结果，并总结了查询特定桶数据的策略和利用y值进行数据重新分桶的方法。

我的数据

01 jj01 
02 jj02 
03 jj03 
04 jj04 
05 jj05 
06 jj06 
07 jj07 
08 jj08 
09 jj09 
10 jj10 
11 jj11 
12 jj12 
13 jj13 
14 jj14 
15 jj15 
16 jj16 
17 jj17 
18 jj18

创建一张临时表并添加数据

create table if not exists stu_temp(
uid int,
uname string,
)
row format delimited fields terminated by ' '
;
load data local inpath '/root/hivetest/stu.txt' into table stu_temp;

创建分桶表

create table if not exists dy_buc(
uid int,uname string
)
clustered by (uid) into 4 buckets
row format delimited fields terminated by ' '
;

设置reduce个数为4个（与分桶数相同）

set mapreduce.job.reduces=4;

插入数据

insert  into  dy_buc 
select uid,uname from stu_temp 
cluster by (uid)
;

分桶表中的数据

hive (db1)> select * from dy_buc;
OK
4       jj04
8       jj08
12<

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

月光疾风的三日月之舞

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Hive学习之抽样（Sampling）

热门推荐

skyWalker_ONLY

09-18

2万+

当数据量特别大时，对全体数据进行处理存在困难时，抽样就显得尤其重要了。抽样可以从被抽取的数据中估计和推断出整体的特性，是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。 Hive支持桶表抽样和块抽样，下面分别学习。所谓桶表指的是在创建表时使用CLUSTERED BY子句创建了桶的表。桶表抽样的语法如下： table_sample: TABLESAMPLE (BUCKET x

2 条评论您还未登录，请先登录后发表或查看评论

hive入门详解(五)之分桶表及抽样查询

登峰造极胡子球手

06-19

1812

分桶 1.分桶表数据存储 2.分桶抽样查询 1.分桶表数据存储 1.1，分区针对的是数据的存储路径；分桶针对的是数据文件。（1）创建分桶表 create table stu_buck(id int, name string) clustered by(id) into 4 buckets row format delimited fields terminated by '\t'; （2）查看表结构 hive (default)> desc formatted stu_buck; 需要设置

HIVE数据抽样

半吊子Kyle的博客

05-18

2256

hive中分桶其实就是根据某一个字段Hash取模，放入指定数据的桶中，比如将表table按照ID分成100个桶，其算法是hash(id) % 100，这样，hash(id) % 100 = 0的数据被放到第一个桶中，hash(id) % 100 = 1的记录被放到第二个桶中。sort by 提供了单个 reducer 内的排序功能，但不保证整体有序，这个时候其实不能做到真正的随机的，因为此时的随机是针对分区去的，所以如果我们可以通过控制进入每个分区的数据也是随机的话，那我们就可以做到随机了。

分桶及抽样查询

Knight

04-13

545

分区针对的是数据的存储路径；分桶针对的是数据文件。分区提供一个隔离数据和优化查询的便利方式。不过，并非所有的数据集都可形成合理的分区，特别是之前所提到过的要确定合适的划分大小这个疑虑。分桶是将数据集分解成更容易管理的若干部分的另一个技术。 1 先创建分桶表，通过直接导入数据文件的方式（1）数据准备 1001 ss1 1002 ss2 1003 ss3 1004 ss4 1005 ss5 1...

Hive中的桶表入门（适用于抽样查询）

weixin_30426879的博客

10-10

277

1、基本概念（1）桶表是对某一列数据进行哈希取值以将数据打散，然后放到不同文件中存储。（2）在hive分区表中，分区中的数据量过于庞大时，建议使用桶。（3）在分桶时，对指定字段的值进行hash运算得到hash值，并使用hash值除以桶的个数做取余运算得到的值进行分桶，保证每个桶中有数据但每个桶中的数据不一定相等。做hash运算时，hash函数的选择...

hive 分桶及抽样调查

全网同名，欢迎关注。

10-23

276

1、分桶的概述分区提供了一个隔离数据和优化查询的遍历方式。不是所有的数据集都可形成合力的分区对于一张表或者分区，hive可以进一步组织成桶，也就是更为细粒度的数据范围分区针对的是数据的存储路径（分文件夹）分桶针对的是数据文件 2、创建分桶表，数据通过子查询的方式导入（1）创建一个普通表 create table stu(id int, name string) row form...

一文彻底学会hive分桶表（实战详解）

静待花开

03-30

1万+

本文目录一、分桶表概述1.1、什么是分桶表？1.2、分桶表和分区表有啥区别？二、分桶表实战2.1、创建一个分桶表2.2、准备数据2.3、向分桶表导入数据2.3.1、错误导入示范（引出分桶的本质）2.3.2、正确导入示范（引出分桶规则）2.4、分桶抽样三、总结3.1、分桶表的优点3.2、常用操作3.3、分桶表的实质及与分区表的区别一、分桶表概述 1.1、什么是分桶表？分桶是将数据集分解成更容易管...

hive的分桶表

weixin_45896475的博客

04-29

299

hive的分桶表分区表是针对数据的储存路径分通表是针对数据文件步骤创建一个普通表; 开启分桶设置; 创建一个分通表; 目的提高索引效率,节省底层资源实例创建一个普通表并传入数据 create table stu( name string, course string, grade int ) row format delimited fields terminated by "...

Hive之分桶表

weixin_30670151的博客

06-19

119

1. Hive分桶表简介桶是比表或分区更为细粒度的数据范围划分。针对某一列进行桶的组织，对列值哈希，然后除以桶的个数求余，决定将该条记录存放到哪个桶中。获得更高的查询处理效果 抽样调查 创建分桶表 create table bucketed_user (id int ,name string) clustered by (id) into 4 buckets s...

Hive 查询

weixin_34293141的博客

06-18

296

6. Hive 查询 6.1 基本查询（Select ... From) 6.1.1 常用函数求总行数(count): select count(*) AS cnt from emp; 求工资的最大值(max)：select max(sal) max_sal from emp; 求工资的最小值(min): select min(sal) min_sal from emp; 求工资的总和(sum...

Hive入门系列(5)-分区表+分桶表

记录知识、锤炼自我

01-14

569

分区表数据库分区是一种物理数据库设计技术，DBA和数据库建模人员对其相当熟悉。虽然分区技术可以实现很多效果，但其主要目的是为了在特定的SQL操作中减少数据读写的总量以缩减响应时间。 hive中的分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。Hive 中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集。在查询时通过 WHERE 子句中的表达式选择查询所需要的指定的分区，这样的查询效率会提高很多。基本操作准备数据 # 准备三个数据文件，模

分桶表学习

weixin_42282445的博客

01-15

1372

分桶表

Hive_桶表(三)

WandaZw的博客

09-21

415

桶表的介绍对于每一个表（table）或者分区，Hive 可以进一步组织成桶，也就是说，桶时更为细粒度的数据范围划分。Hive 也是针对某一列进行桶的组织。Hive 采用对列值哈希，然后除以桶的个数求余的方式决定记录存放在哪个桶当中。把表或者分区组织成桶有两个理由：（1）或者更高的查询处理效率。桶表为表加上了额外的结构，Hive在处理有些查询时能利用这个结构。具体而言，连接两个在（包含连...

Hive之分桶

随我的博客

01-08

452

对于每一个Hive表（包括分区表），Hive可以进一步对数据进行分桶，桶是更细粒度的数据范围划分。

Hive分桶和抽样查询

张鑫的博客

08-13

2364

一、分桶分区针对的是数据的存储路径；分桶针对的是数据文件，就相当于hadoop里面的真正的分区。 ★怎么选择桶？默认时对某一列进行hash，使用hashcode对桶的个数求模取余，确定哪一条记录进入哪一个桶。分桶后，桶内有序，整体不一定有序。分区提供一个隔离数据和优化查询的便利方式。不过，并非所有的数据集都可形成合理的分区，特别是之前所提到过的要确定...

Hive相关概念

yoohhwz的博客

07-15

358

Hive：基于Hadoop之上的一个离线数据仓库，使用hdfs作为底层存储，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。 Hive主要分为以下几个部分： 1. 用户接口用户接口主要有三个：CLI，Client 和 WebUI(HUE/Zeppelin)。其中最常用的是 CLI，Cli 启动的时候，会同时启动一个...

hive

weixin_45415743的博客

10-10

450

hive Hive介绍 hive 数据仓库工具 Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性，因此使用Hive构建的数据仓库也秉承了这些特性。简单来说，Hive就是在Hadoop上架了一层SQL接口，可以将SQL翻译成MapReduce去Hadoop上执行，这样就使得数据开发和分析人员很方便的使用SQL来完成海量数据的统计和分析...

Hive的面试题

Mr.Sheep的博客

10-08

532

1.什么是hive？ hive 数据仓库工具 Hive就是在Hadoop上架了一层SQL接口，可以将SQL翻译成MapReduce去Hadoop上执行，这样就使得数据开发和分析人员很方便的使用SQL来完成海量数据的统计和分析，而不必使用编程语言开发MapReduce那么麻烦。 Hive就是我们所说的使用传统的sql来分析海量数据的工具 hive就是一个翻译器，将传统的sql转化成mapreduce...

hive知识点总结3

qq_36770189的博客

07-17

302

1.hive中有哪些类型的hive参数 hiveconf:hive-site.xml当中的配置变量可读写 system：系统变量可读写 env：环境变量只能读 hivevar：用户自定义，可以自定义一些参数。可读写通过${}进行引用，其中system，env下的变量必须以前缀开头显示表头信息 (只作用与当前会话) hive --hiveconf hive.cli...

【大数据面试常问问题】----请你说说对Hive桶表的理解

c美食家的博客

01-21

542

概念桶表就是对数据进行hash取值，然后放在不同的文件中存储。桶表加载数据，对字段进行hash取值，结果与桶的数量取模，取模的结果决定这些数据放在哪个桶中。物理上来讲，桶表就是表目录下的一个文件，桶表的数量和reduce任务数量是相等的。作用 抽样调查 每篇一言: 知而不行，谓之不诚。行而不成，谓之不能。 ...