- 浏览: 542562 次
- 性别:
- 来自: 西安
博客专栏
-
Hive入门
浏览量:43273
最新评论
-
freeluotao:
public void readFields(D ...
MapReduce直接连接Mysql获取数据 -
passionke:
在spark-sql中通过insert插入数据到HBase表时 ...
SparkSQL读取HBase数据 -
annmi_cai:
好好学习,天天向上!
[一起学Hive]之十七-从Hive表中进行数据抽样-Sampling -
annmi_cai:
好好学习,天天向上!
[一起学Hive]之十六-Hive的WEB页面接口-HWI -
annmi_cai:
好好学习,天天向上!
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics)
文章列表
java api获取hdfs目录大小
- 博客分类:
- hadoop
1. hadoop fs -dus 的源码:
public static void dus(String src,Configuration conf) throws IOException {
Path srcPath = new Path(src);
FileSystem srcFs = srcPath.getFileSystem(conf);
FileStatus status[] = srcFs.globStatus(new Path(src));
if (status==null || status.length==0) {
...
hadoop本地windows测试mr程序
- 博客分类:
- hadoop
@Override
public int run(String[] args) throws Exception {
//String fileName = "E:/tmp/1111.txt";
Configuration conf = new Configuration();
conf.set("fs.default.name", "file:///");
conf.set("mapred.job.tracker", "local");
String input ...
1. 加机器;
2. 减少备份数;
3. 压缩存储;
4. 删除一些没用的临时文件(目前删了hive失败任务对应的中间文件,不知道还有其他没?)
除了上面的,不知道还有其他啥办法!!!
复制本地文件到hdfs中的目标文件
- 博客分类:
- hadoop
package com.lxw;
import java.io.BufferedInputStream;
import java.io.FileInputStream;
import java.io.InputStream;
import java.io.OutputStream;
import java.net.URI;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
imp ...
namenode启动时候都做了什么
- 博客分类:
- hadoop
1. NameNode.main():
NameNode namenode = createNameNode(argv, null);
2. NameNode. createNameNode():
setStartupOption(conf, startOpt);
// conf.set("dfs.namenode.startup", opt.toString());
NameNode namenode = new NameNode(conf);
// initialize(conf);
3. initialize(conf);
InetSock ...
需求描述:
1. 对文件1.txt中统计每个单词的个数(wordcount)$ cat 1.txt
aa
bb
aa
dd
ff
rr
ee
aa
kk
jj
hh
uu
ii
tt
rr
tt
oo
uu
2. 输出文件限定为两个,其中一个存放aa~kk之间的单词,另外一个存放ll~zz之间的单词
解决方法:
MR默认的reduce输出分区为HashParition
public class HashPartitioner<K, V> extends Partitioner<K, V> ...
写在word中了
http://www.everbox.com/f/gxXMXa2dlzONxo5oipJElvqwLA
cygwin上运行hadoop mr任务,一直报错:
2012-04-20 00:47:28,937 WARN org.apache.hadoop.mapred.TaskTracker: Error running child
java.io.FileNotFoundException: File C:/home/Administrator/hadoop-0.20.2/hadooptmp/mapred/local/taskTracker/jobcache/job_201204200043_0002/attempt_201204200043_0002_m_000001_0/work ...
表结构:
SQL> desc liuxiaowen.hadoop_job_sql;
Name Type Nullable Default Comments
--------- ------------- -------- ------- --------
DATA_DESC VARCHAR2(20) Y
JOBID VARCHAR2(100) Y
SQL CLOB Y ...
使用java读取gz压缩的hdfs文件
- 博客分类:
- hadoop
根据hdfs文件的后缀类型自动识别并解压:
Path hdfsPath = new Path(args[0]);
Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(hdfsPath.toUri(),conf);
CompressionCodecFactory factory = new CompressionCodecFactory(conf);
CompressionCodec codec = factory.getCodec(hdfsPath);
...
Hadoop启动脚本执行流程
- 博客分类:
- hadoop
在bin/hadoop 这个脚本中,有如下片段:
# figure out which class to run
if [ "$COMMAND" = "namenode" ] ; then
CLASS='org.apache.hadoop.hdfs.server.namenode.NameNode'
HADOOP_OPTS="$HADOOP_OPTS $HADOOP_NAMENODE_OPTS"
elif [ "$COMMAND" = "secondarynamenode& ...
1. 虚拟机链接方式:桥接
2. 修改linux主机名
/etc/sysconfig/network
/etc/hosts
3. 修改linux ip
ifconfig eth0 192.168.1.110 netmask 255.255.255.0
4. 三台机器上建立相同用户lxw
5. Ssh免密码登陆:
用lxw用户 ...