9、Apache Hive与Apache Pig：大数据处理的利器

原创于 2025-09-30 16:00:40 发布 · 48 阅读

·

0

·

标签

#Apache Hive #Apache Pig #HiveQL

Hadoop实战精要专栏收录该内容

22 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

Apache Hive与Apache Pig：大数据处理的利器

1. Apache Hive概述

在使用Hive之前，有几个要点需要考虑：
- 非关系型数据库管理系统 ：Hive并非传统的关系型数据库管理系统（RDBMS），尽管它使用类似SQL的语言，但大多数作业会转换为MapReduce作业。例如，在RDBMS中，简单的 SELECT COUNT (*) 能立即返回结果，而Hive需要启动时间，因为map和reduce操作的启动可能耗时较长。此外，Hive还不支持 COMMIT 和 ROLLBACK 操作，而这些对于在线事务处理至关重要。
- 基于文件工作 ：Hive的数据以HDFS或AWS S3文件的形式存在，Hive表或分区以物理形式存在于文件位置。因此，Hive拥有的数据集可能会被外部因素改变，也可以加载外部数据。
- 内置函数局限性 ：使用Hive的内置函数可能难以获得所需结果。针对这种情况，Hive支持用户定义函数（UDF）和序列化/反序列化器（SerDe）。

2. Hive安装

以下是Hive 1.2.1的安装步骤：
1. 下载并解压Hive ：

$ wget http://www.us.apache.org/dist/hive/hive-1.2.1/apache-hive-1.2.1-bin.tar.gz

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。