reduce数量究竟多少是适合的。目前测试认为reduce数量约等于cluster中datanode的总cores的一半比较合适,比如cluster中有32台datanode,每台8 core,那么reduce设置为128速度最快。因为每台机器8 core,4个作map,4个作reduce计算,正好合适。
附小测试:对同一个程序
reduce num=32,reduce time = 6 min
reduce num=128, reduce time = 2 min
reduce num=320, reduce time = 5min
本文通过实验证明,在Hadoop集群中合理设置Reduce任务的数量可以显著提高处理速度。测试结果显示,当Reduce任务数量大约等于集群DataNode核心总数一半时,处理效率达到最佳状态。

584

被折叠的 条评论
为什么被折叠?



