设置hadoop Job允许map task失败的比例 - The Big Data Way - ITeye博客

`

heipark

浏览: 2078023 次
性别:
来自: 北京

最近访客更多访客>>

chenlmnet

ninedragon

w11h22j33

lbyzx123

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

伍大都督：解释太到位了，感谢分享
理解Linux系统中的load average（图文版）
rfjian123：非常感谢，用你的方法解决了问题。
Server sent unexpected return value (403 Forbidden) in response to OPTIONS
yuhaifei12：今天遇到同样的问题了。设置的是每分钟执行一次。结果发现每分钟执 ...
解决Linux下crontab同一时间重复执行问题
BigBird2012：想问一下，使用ExecutorService每次都要调用 sh ...
spring quartz使用多线程并发“陷阱”
zhuqx1130：有用，谢谢
解决Sublime Text 3中文显示乱码（tab中文方块）问题

设置hadoop Job允许map task失败的比例

博客分类：

hadoop

阅读更多

故事背景：

hadoop任务分为map task和reduce task，当map task执行失败后会重试，超过重试次数（mapred.map.max.attempts指定，默认为4），整个job会失败，这是我们不想看到的。

解决办法：

hadoop提供配置参数“mapred.max.map.failures.percent”解决这个问题。如果一个Job有200个map task，该参数设置为5的话，则单个job最多允许10个map task(200 x 5% =10)失败，这是我想要的。

把下面配置放到mapred-site.xml文件中，重启jobtracker（hadoop-daemon.sh stop/start jobtracker ），这下大家满足了吧^_^

  <property>
    <name>mapred.max.map.failures.percent</name>
    <value>5</value>
  </property>

PS：reduce task有类似配置mapred.max.reduce.failures.percent

分享到：

hive UDF(User-Defined-Function) 实战 | 巧妙使用飞信机器人做Linux磁盘短信监控

2011-08-03 16:48
浏览 8518
评论(0)
分类:企业架构
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

hadoop 1.2.1 api 最新chm 伪中文版: 一个Map/Reduce 作业（job）通常会把输入的数据集切分为若干独立的数据块，由 map任务（task）以完全并行的方式处理它们。框架会对map的输出先进行排序，然后把结果输入给reduce任务。通常作业的输入和输出都会被...

Hadoop从入门到上手企业开发: 近百节课视频详细讲解，需要的小伙伴自行百度网盘下载，链接见附件，...064 源代码跟踪查看Map Task和Reduce Task数目的个数 065 回顾MapReduce执行过程以及MapReduce核心 066 Hadoop MapReduce框架数据类型讲解 067

hadoop 权威指南（第三版）英文版: hadoop权威指南第三版（英文版）。 Foreword . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xiii Preface . . . . . . ....

Optimizing Hadoop for MapReduce(PACKT,2014): This book details the Hadoop MapReduce job performance optimization process. Through a number of clear and practical steps, it will help you to fully utilize your cluster’s node resources. Starting ...

MapReduceV1：JobTracker端Job/Task数据结构: 一个应用程序可能由一组Job组成，而MapReduce框架给我们暴露的只是一些Map和Reduce的函数接口，在运行期它会构建对应MapTask和ReduceTask，所以我们知道一个Job是由一个或多个MapTask，以及0个或1个ReduceTask组成。...

hadoop_the_definitive_guide_3nd_edition: Hadoop definitive 第三版, 目录如下 1. Meet Hadoop . . . 1 Data! 1 Data Storage and Analysis 3 Comparison with Other Systems 4 RDBMS 4 Grid Computing 6 Volunteer Computing 8 A Brief History of Hadoop 9...

kafka-hadoop-loader-my:kafka0.8.2使用简单的消费者负载消息使用自定义mapreduce进入hdfs: kafka-hadoop-loader 这个hadoop加载器为每个主题代理分区创建拆分，这在kafka steram和mapper任务之间创建了理想的并行度。... HadoopJob -> KafkaInputFormat -> zkUtils.getBrokerPartitions

拥抱大数据——初识Hadoop，轻松应对海量数据存储与分析所带来的挑战: 目录一、前言：什么是Hadoop? 二、Hadoop生态圈 ...4.3.1 job与task 4.3.2 MapReduce数据处理五、YARN（资源管理系统） 5.1 YARN架构六、手把手搭建Hadoop环境（Linux上） 6.1 安装jdk 6.2 安装hadoop 6.3

hadoop作业调优参数整理及原理: 当maptask开始运算，并产生中间数据时，其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂，并且利用到了内存buffer来进行已经产生的部分结果的缓存，并在内存buffer中进行一些预排序来优化整个map的...

Storm实时计算：流操作入门编程实践: Storm是一个分布式是实时...Job，是一个用来编排、容纳一组计算逻辑组件（Spout、Bolt）的对象（HadoopMapReduce中一个Job包含一组Map Task、ReduceTask），这一组计算组件可以按照DAG图的方式编排起来（通过选择Stream

MapReduce实例浅析: 一个Map/Reduce作业（job）通常会把输入的数据集切分为若干独立的数据块，由 map任务（task）以完全并行的方式处理它们。框架会对map的输出先进行排序，然后把结果输入给reduce任务。通常作业的输入和输出都会被...

大数据平台常见面试题.pdf: 1、JobClient 会在⽤户端通过 JobClient 类将应⽤已经配置参数打包成 jar ⽂件存储到 hdfs，并把路径提交到 Jobtracker,然后由 JobTracker 创建每⼀个 Task（即 MapTask 和 ReduceTask）并将它们分发到各个 ...

预测算法调研报告.doc: 第三、时间延迟高，ReduceTask需要等待所有MapTask都完成后才可以开始。相比Ha doop,Spark是一个分布式内存型计算框架，它在Hadoop MapReduce优点的基础上，提出了RDD数据模型，提供了多种算子，并且可以将计算的中...

Global site tag (gtag.js) - Google Analytics