读取sequencefile,在设置输入路径的时候,如果设置成
SequenceFileInputFormat.addInputPath(job, new Path(args[0]));
则会把文件拷贝两份。
正确的还是应该设置成:
FileInputFormat.setInputPaths(job, new Path(args[0]));
记一下
本文解析了在Hadoop中使用SequenceFileInputFormat可能导致的数据复制问题,强调了应使用FileInputFormat来避免不必要的数据冗余,确保数据处理流程的效率。
读取sequencefile,在设置输入路径的时候,如果设置成
SequenceFileInputFormat.addInputPath(job, new Path(args[0]));
则会把文件拷贝两份。
正确的还是应该设置成:
FileInputFormat.setInputPaths(job, new Path(args[0]));
记一下

被折叠的 条评论
为什么被折叠?
