heipark

浏览: 2078586 次
性别:
来自: 北京

最近访客更多访客>>

chenlmnet

ninedragon

w11h22j33

lbyzx123

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

hadoop使用lzo压缩文件笔记 (CDH3u1)

博客分类：

hadoop

LZO性能

编译LZO

下载：

http://www.oberhumer.com/opensource/lzo/download/

wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz

安装：

tar -zxf lzo-2.06.tar.gz

cd lzo-2.06

./configure --enable-shared

make

make install

安装ant并配置环境变量，这里略过

vi /etc/profile

PATH=/usr/local/ant/bin/:$PATH

source /etc/profile

编译hadoop lzo jar

下载源码

https://github.com/kevinweil/hadoop-lzo

解压缩、进入项目目录

略...

编译

# 32位OS

export JAVA_HOME=/path/to/32bit/jdk
export CFLAGS=-m32
export CXXFLAGS=-m32
ant compile-native tar

# 64位OS
export JAVA_HOME=/path/to/64bit/jdk
export CFLAGS=-m64
export CXXFLAGS=-m64
ant compile-native tar

成功编译后，打开build文件夹，hadoop-lzo*.jar就躺在里面。

编译LZOP

简介：这个东西是使用lzo库写的一个程序，用它可以压缩、解压缩文件。

下载

http://www.lzop.org/

http://www.lzop.org/download/lzop-1.03.tar.gz

解压缩、进入项目目录（略过）

编译

cp /usr/local/lib/*lzo* /usr/lib64/

./configure && make && make install

PS：我在64bit机器上编译发现找不到 lzo 的库，执行下面命令后再编译就OK了。

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/lib/

try lzop

# 压缩文件

lzop 20110915.log #生成lzop 20110915.log.lzo文件

# 解压，并输出文件内容

lzop -cd pv.txt.lzo |more

配置Hadoop

cp hadoop-lzo-0.4.13.jar $HADOOP_HOME/lib/

sudo cp /usr/local/lib/*lzo* /usr/lib64/

# 如果之前使用过google code的lzo包，要删除
rm -f hadoop-gpl-compression-0.1.0-dev.jar

> core-site.xml

  <property>
    <name>io.compression.codecs</name>
    <value>org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec,com.hadoop.compression.lzo.LzoCodec,com.hadoop.compression.lzo.LzopCode
c</value>
  </property>

  <property>
    <name>io.compression.codec.lzo.class</name>
    <value>com.hadoop.compression.lzo.LzoCodec</value>
  </property>

设置JAVA_LIBRARY_PATH，这里配置非常容易重要，易出错

为了让JNI找到库文件需要配置JAVA_LIBRARY_PATH，我自己的方法是：

cp kevinweil-hadoop-lzo-3d19b14/build /opt/hadoop/

如果存在$HADOOP_HOME/build/native文件夹，hadoop命令会自动添加“${HADOOP_HOME}/build/native/${JAVA_PLATFORM}/lib” 到$JAVA_LIBRARY_PATH中，这样做非常省事。

#单机运行生成lzo index文件
hadoop jar /opt/hadoop/lib/hadoop-lzo-*.jar com.hadoop.compression.lzo.LzoIndexer /pub/cc/20110616/18.log.lzo

#Mapreduce生成lzo index文件
hadoop jar /opt/hadoop/lib/hadoop-lzo-*.jar com.hadoop.compression.lzo.DistributedLzoIndexer /pub/cc/20110616/18.log.lzo

// mapreduce job使用lzo文件作为输入文件
job.setInputFormatClass(LzoTextInputFormat.class);

-- 配置结束 --

PS: 下面是网上的配置JAVA_LIBRARY_PATH的方法，是不是我的方法更简单？哈哈~

#copy native文件到hadoop目录
tar -cBf - -C ./build/native . | tar -xBvf - -C /opt/hadoop-0.20.2-cdh3u1/lib/native

> vi mapred-site.xml 

  <property>
    <name>mapred.child.env</name>
    <value>JAVA_LIBRARY_PATH=/opt/hadoop/build/native/Linux-amd64-64</value>
  </property>

PS. 如果上述方式设置的JAVA_LIBRARY_PATH没有生效（通过“ps -ef | grep tasktracker”查看），可能需要通过bin/hadoop设置JAVA_LIBRARY_PATH。

Q & A：

Q：java.lang.RuntimeException: native-lzo library not available

A：原因一：sudo cp /usr/local/lib/*lzo* /usr/lib64/；

原因二：%$HADOOP_HOME/lib下有hadoop-gpl-compression-0.1.0-dev.jar，删除它

原因三：JAVA_LIBRARY_PATH配置错误。JNI通过这个环境变量查找库文件，通ps -ef | grep tasktracker，查看lzo的lib文件是否在这个环境变量中，要指向 native/Linux-amd64-64/lib文件，而不是 native/Linux-amd64-64文件夹。通过修改$HADOOP_HOME/bin/hadoop可以修改这个环境变量

Q：lzo文件是不是生成索引之后才支持自动分片？

A：是的，如果不生成index则lzo文件会被作为一个input split处理。

Q: 使用客户端提交job时，报如下错误：

java.io.IOException: Codec for file hdfs://BGP-BJ-2-5N1:9000/pub/tencent/20110616/18.log.lzo not found, cannot run

at com.hadoop.mapreduce.LzoLineRecordReader.initialize(LzoLineRecordReader.java:97)

at org.apache.hadoop.mapred.MapTask$NewTrackingRecordReader.initialize(MapTask.java:451)

at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:646)

at org.apache.hadoop.mapred.MapTask.run(MapTask.java:323)

at org.apache.hadoop.mapred.Child$4.run(Child.java:270)

at java.security.AccessController.doPrivileged(Native Method)

at javax.security.auth.Subject.doAs(Subject.java:396)

at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1127)

at org.apache.hadoop.mapred.Child.main(Child.java:264)

A：在代码中，或者配置文件中添加下面配置：

conf.set("io.compression.codecs", "org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec,com.hadoop.compression.lzo.LzopCodec");
conf.set("io.compression.codec.lzo.class", "com.hadoop.compression.lzo.LzoCodec");

参考文章：

http://share.blog.51cto.com/278008/549393

http://www.tech126.com/hadoop-lzo/

http://www.cloudera.com/blog/2009/11/hadoop-at-twitter-part-1-splittable-lzo-compression/

-- end --

查看图片附件

分享到：

设置hadoop只执行map任务 | 使用hadoop eclipse plugin提交Job并添加 ...

2011-09-15 17:16
浏览 20093
评论(2)
分类:企业架构
查看更多

2 楼 heipark 2014-02-26

xiewenbo 写道

hadoop jar /opt/hadoop/lib/hadoop-lzo-*.jar com.hadoop.compression.lzo.DistributedLzoIndexer /user/input/input.txt.lzo
14/02/25 15:03:45 INFO lzo.GPLNativeCodeLoader: Loaded native gpl library
14/02/25 15:03:45 INFO lzo.LzoCodec: Successfully loaded & initialized native-lzo library [hadoop-lzo rev 6bb1b7f8b9044d8df9b4d2b6641db7658aab3cf8]
14/02/25 15:03:45 INFO lzo.DistributedLzoIndexer: Adding LZO file /user/input/input.txt.lzo to indexing list (no index currently exists)
14/02/25 15:03:45 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same.
14/02/25 15:03:45 INFO input.FileInputFormat: Total input paths to process : 1
14/02/25 15:03:46 INFO mapred.JobClient: Running job: job_201402251433_0006
14/02/25 15:03:47 INFO mapred.JobClient: map 0% reduce 0%
14/02/25 15:03:52 INFO mapred.JobClient: Task Id : attempt_201402251433_0006_m_000000_0, Status : FAILED
java.lang.RuntimeException: native-lzo library not available
at com.hadoop.compression.lzo.LzopCodec.createDecompressor(LzopCodec.java:104)
at com.hadoop.mapreduce.LzoSplitRecordReader.initialize(LzoSplitRecordReader.java:52)
at org.apache.hadoop.mapred.MapTask$NewTrackingRecordReader.initialize(MapTask.java:450)
at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:645)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:322)
at org.apache.hadoop.mapred.Child$4.run(Child.java:268)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:396)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1115)
at org.apache.hadoop.mapred.Child.main(Child.java:262)

单机的测试可以Index 为什么分布式的不行？

单机只能说明当前机器的LZO是配置好的，集群运行要求所有机器都配置好LZO。
你错误信息显示： native-lzo library not available

检查下出错机器的LZO配置吧

1 楼 xiewenbo 2014-02-25

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hadoop使用lzo压缩文件笔记 (CDH3u1)

LZO性能

编译LZO

编译hadoop lzo jar

解压缩、进入项目目录

编译

编译LZOP

下载

编译

try lzop

配置Hadoop

Q & A：

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hadoop使用lzo压缩文件笔记 (CDH3u1)

LZO性能

编译LZO

编译hadoop lzo jar

解压缩、进入项目目录

编译

编译LZOP

下载

编译

try lzop

配置Hadoop

Q & A：

评论

发表评论

相关推荐

cloudera CDH5 vmware中cloudera manager报错"Internal error while querying the Host "

thrift0.9.1简单教程（包含Java服务端和Java、python客户端）

yum错误“Error in PREUN scriptlet in rpm package ”

搭建cloudera yum私服

cloudera创建私服错误一例

Cloudera Manager的Hadoop配置文件管理

修改cloudera manager管理主机名（转）

cloudera manager tasktrakcer监控状态错误

cloudera manager 4.8 添加设备DNS反向解析问题

apache kafka v0.8入门遇到问题

hadoop2.0(cdh4) fs client错误"java.io.IOException: No FileSystem for scheme: hdfe"

Hadoop Combiner的几个调用时间点

hadoop1.0中NameNode HA的妥协方案

hdaoop2.x (CDH4、5)下使用DFS Client（包含HA）

Hadoop学习指南

cloudera cdh中hadoop-client包的作用

could only be replicated to 0 nodes instead of minReplication (=1)

Hadoop Pig获取HDFS文件名

cloudera CDH5正式版（与CDH4比较）

Pig写UDF解析XML遇到一诡异错误“ClassNotFoundException”

最近访客更多访客>>