实验环境,已经安装了hadoop,先做的分布式实验,pig解压缩在/home/hadoop目录下,完成实验没有任何问题。
实验内容:在pig-0.9.2/tutorial目录下,pigtutorial.tar.gz文件解压缩,如果没有,用ant先编译。主要分析excite-small.log文件。
该文件的内容格式是UserId TimeStamp SearchQuery
ant安装参考:http://blog.csdn.net/fumier/article/details/42394133
编译过程:直接转到tutorial目录下,ant即可。
1、启动hadoop,hadoop/bin start-all.sh
2、启动后输入pig -x local进入本地模式
3、输入
log =load 'excite-small.log' as (user,time,query);
lmt =limit log 4; 选取前四条信息
dump lmt; 输出
4、结果如下所示
本文介绍如何在已安装Hadoop的环境下使用Pig进行数据分析实验。通过解压并编译Pig教程中的示例文件,对excite-small.log文件进行处理。文中详细展示了从启动Hadoop到使用Pig加载数据并进行简单查询的步骤。

783

被折叠的 条评论
为什么被折叠?



