`
heipark
  • 浏览: 2078023 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

设置hadoop Job允许map task失败的比例

 
阅读更多

故事背景:

hadoop任务分为map task和reduce task,当map task执行失败后会重试,超过重试次数(mapred.map.max.attempts指定,默认为4),整个job会失败,这是我们不想看到的。

解决办法:

hadoop提供配置参数“mapred.max.map.failures.percent”解决这个问题。如果一个Job有200个map task,该参数设置为5的话,则单个job最多允许10个map task(200 x 5% =10)失败,这是我想要的。
把下面配置放到mapred-site.xml文件中,重启jobtracker(hadoop-daemon.sh stop/start jobtracker ),这下大家满足了吧^_^

 

  <property>
    <name>mapred.max.map.failures.percent</name>
    <value>5</value>
  </property>
 

 

PS:reduce task有类似配置mapred.max.reduce.failures.percent

 

分享到:
评论

相关推荐

    hadoop 1.2.1 api 最新chm 伪中文版

    一个Map/Reduce 作业(job) 通常会把输入的数据集切分为若干独立的数据块,由 map任务(task)以完全并行的方式处理它们。框架会对map的输出先进行排序, 然后把结果输入给reduce任务。通常作业的输入和输出都会被...

    Hadoop从入门到上手企业开发

    近百节课视频详细讲解,需要的小伙伴自行百度网盘下载,链接见附件,...064 源代码跟踪查看Map Task和Reduce Task数目的个数 065 回顾MapReduce执行过程以及MapReduce核心 066 Hadoop MapReduce框架数据类型讲解 067

    hadoop 权威指南(第三版)英文版

    hadoop权威指南第三版(英文版)。 Foreword . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xiii Preface . . . . . . ....

    Optimizing Hadoop for MapReduce(PACKT,2014)

    This book details the Hadoop MapReduce job performance optimization process. Through a number of clear and practical steps, it will help you to fully utilize your cluster’s node resources. Starting ...

    MapReduceV1:JobTracker端Job/Task数据结构

    一个应用程序可能由一组Job组成,而MapReduce框架给我们暴露的只是一些Map和Reduce的函数接口,在运行期它会构建对应MapTask和ReduceTask,所以我们知道一个Job是由一个或多个MapTask,以及0个或1个ReduceTask组成。...

    hadoop_the_definitive_guide_3nd_edition

    Hadoop definitive 第三版, 目录如下 1. Meet Hadoop . . . 1 Data! 1 Data Storage and Analysis 3 Comparison with Other Systems 4 RDBMS 4 Grid Computing 6 Volunteer Computing 8 A Brief History of Hadoop 9...

    kafka-hadoop-loader-my:kafka0.8.2使用简单的消费者负载消息使用自定义mapreduce进入hdfs

    kafka-hadoop-loader 这个hadoop加载器为每个主题代理分区创建拆分,这在kafka steram和mapper任务之间创建了理想的并行度。... HadoopJob -&gt; KafkaInputFormat -&gt; zkUtils.getBrokerPartitions

    拥抱大数据——初识Hadoop,轻松应对海量数据存储与分析所带来的挑战

    目录 一、前言:什么是Hadoop? 二、Hadoop生态圈 ...4.3.1 job与task 4.3.2 MapReduce数据处理 五、YARN(资源管理系统) 5.1 YARN架构 六、手把手搭建Hadoop环境(Linux上) 6.1 安装jdk 6.2 安装hadoop 6.3

    hadoop作业调优参数整理及原理

    当maptask开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的...

    Storm实时计算:流操作入门编程实践

    Storm是一个分布式是实时...Job,是一个用来编排、容纳一组计算逻辑组件(Spout、Bolt)的对象(HadoopMapReduce中一个Job包含一组Map Task、ReduceTask),这一组计算组件可以按照DAG图的方式编排起来(通过选择Stream

    MapReduce实例浅析

    一个Map/Reduce作业(job)通常会把输入的数据集切分为若干独立的数据块,由 map任务(task)以完全并行的方式处理它们。框架会对map的输出先进行排序,然后把结果输入给reduce任务。通常作业的输入和输出都会被...

    大数据平台常见面试题.pdf

    1、JobClient 会在⽤户端通过 JobClient 类将应⽤已经配置参数打包成 jar ⽂件存储到 hdfs,并把路径提交到 Jobtracker,然后由 JobTracker 创建每⼀个 Task(即 MapTask 和 ReduceTask)并将它们分发到各个 ...

    预测算法调研报告.doc

    第三、时间延迟高,ReduceTask需要等待所有MapTask都完成后才可以开始。相比Ha doop,Spark是一个分布式内存型计算框架,它在Hadoop MapReduce优点的基础上,提出了RDD数据模型,提供了多种算子,并且可以将计算的中...

Global site tag (gtag.js) - Google Analytics