最近看了些hadoop性能调优的文章,现总结如下。
1、关于集群物理机器:
配置noatime选项。(配置方式:/etc/fstab)(相关知识点:atime,ctime,mtime。)
对于datanode/tasktracker机器,不需要配置raid或lvm。
尽量避免使用到tasktracker的swap。
磁盘问题会导致task重试,降低效率。在blacklist中的node大多是因为磁盘问题,smart monitor 在磁盘资源。
2、使用数据压缩配置:
在mapred的中间结果(map输出)或有后续任务的mapred任务的输出,使用压缩配置选项。(mapred.compress.map.output,mapred.output.compress)
增加一部分的CPU开销,减少IO开销(包括网络IO和磁盘IO)
3、合理的设置task的数目:
任务的input过大时,split的数量很多,会导致过多的map task。可以通过加大hdfs block size来减小maptask的数量。(hadoop
distcp -Ddfs.block.size=$[256*1024*1024] /path/to/inputdata /path/to/inputdata-with-largeblocks
)
如果任务数多且小,比如在一分钟之内完成,减少task数量以减少任务初始化的消耗。可以通过配置JVM重用选项减少task的消耗。(mapred.job.reuse.jvm.num.tasks表示一个job的task可利用相同的JVM顺序执行多少个)
任务数和集群slot数目之间应满足一定的关系。比如slot的数量是100个,那么最好不要有101个mapper(类似于图中的关键路径的理念,不论你那100个mapper多快,最后一个不做完,reduce就不能起,也就是说,近似相当于调度两轮map的时耗)。reduce
task的数量有两种方案推荐,比如0.95*reduce slot。一轮reduce完成,预留的reduce task是用作重做的。或1.75*reduce slot,同样道理,只不过调度两轮reduce,负载更均衡
4、合理的利用combiner:
首先,从业务场景出发,reduce的结果应该不受影响。其次,combiner所带来的性能消耗要远小于网络传输和排序所带来的消耗。这个的判断可以从几个方面来:shuffle的数据量;spill的counter。(理解shuffle
sort的过程)
5、使用合理的数据类型:
非文本类型的数据可选择非Text类型的二进制writable类型,避免类如数值类型转换到string的CPU性能消耗。可根据自己的业务特点定义高效的writable类型。
采用intwritable或者longwritable时,若数值大小差异很大,可以采用变长的类型,减少磁盘和IO消耗。
6、在map或reduce中注意重用writable对象
分享到:
相关推荐
hadoop 参数调优参考,根据经验以及源码调整参数使得Hadoop效率提升
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据...
hadoop调优指南
hadoop 配置项的调优,列出大部分HADOOP系统参数的定义及与系统性能之间的关系。
2014年大数据处理HADOOP与性能调优
基于Hadoop的电商大数据平台性能调优.pdf
Hadoop大数据开发与性能调优实战培训课程-Hadoop组件详解
第7章 Hadoop性能调优和运维 应用篇:商业智能系统项目实战 第8章 在线图书销售商业智能系统 第9章 系统结构设计 第10章 在开发之前 第11章 实现数据导入导出模块 第12章 实现数据分析工具模块 第13章 实现业务数据...
Cloudera Hadoop 5&Hadoop高阶管理及调优课程,完整版,提供课件代码资料下载。 内容简介 本教程针对有一定Hadoop基础的学员,深入讲解如下方面的内容: 1、Hadoop2.0高阶运维,包括Hadoop...5、Hadoop各组件性能调优
Hadoop大数据开发与性能调优实战培训课程.pptx
Hadoop大数据开发与性能调优实战培训课程(PPT-59张).ppt
Hadoop+框架的扩展和性能调优
基于Hadoop的电商大数据平台性能调优
1.3 开启回收站配置 6 2.1 测试 HDFS 写性能 9 2.2 测试 HDFS 读性能 11 3.3 集群数据均衡之磁盘间数据均衡13 4.1 添加白名
各种大数据资源调优,希望有帮助。
CDH性能调优,CDH热点问题分析,安装注意事件
该文件为hadoop集群平台常见故障进行总结及处理问题相关的技巧,还有一些操作系统性能方面的调优策略。
一种基于Hadoop的云计算平台搭建与性能调优方法,周磊,李昕,随着互联网技术的飞速发展和应用的推广,云计算正作为当前计算机技术的热点被越来越多的企业和科研机构研究和使用。Hadoop作为一个
共59页,主要内容: 1、理解HDFS原理 2、掌握mapreduce原理和开发 3、应用举例讲解