`
superlxw1234
  • 浏览: 542609 次
  • 性别: Icon_minigender_1
  • 来自: 西安
博客专栏
Bd1c0a0c-379a-31a8-a3b1-e6401e2f1523
Hive入门
浏览量:43276
社区版块
存档分类
最新评论
文章列表
org.apache.hadoop.hive.ql.tools.LineageInfo   public static void main(String[] args) throws IOException, ParseException, SemanticException { //String query = args[0]; //String query = "select a.* from a join (select * from b where id like '%哈哈%') c on a.id = c.id"; ...
package com.lxw.hive; import org.apache.hadoop.hive.ql.parse.ASTNode; import org.apache.hadoop.hive.ql.parse.AbstractSemanticAnalyzerHook; import org.apache.hadoop.hive.ql.parse.HiveParser; import org.apache.hadoop.hive.ql.parse.HiveSemanticAnalyzerHookContext; import org.apache.hadoop.hiv ...
Hadoop的目录文件结构: . |-- LICENSE.txt |-- NOTICE.txt |-- README.txt |-- bin |-- conf |-- etc |-- export_hadoop.sh |-- hadoop-0.23.0-gridmix.jar |-- hadoop-0.23.0-streaming.jar |-- hadoop-mapreduce-0.23.0-sources.jar |-- hadoop-mapreduce-0.23.0.jar |-- hadoop-mapreduce-examples-0.23.0-sources. ...
最近Hadoop社区最火热的事情莫过于Hortonworks公布了Hadoop最新版本(0.23.0),它标志着Hadoop新时代的到来。本文作 为系列文章的第一篇,将结合Hadoop-0.20.*的特点,以及Hadoop核心理念,分析Hadoop新版本的特征。1、Hadoop 0.20.*的局限性 ...
1)    工具说明 在SecureCRT这样的ssh登录软件里, 通过在Linux界面里输入rz/sz命令来上传/下载文件. 对于RHEL5, rz/sz默认没有安装所以需要手工安装. sz: 将选定的文件发送(send)到本地机器; rz:运行该命令会弹出 一个文件选择窗口, 从本地选择文件上传到服务器(receive). 下载安装包lrzsz-0.12.20.tar.gz: http://www.ohse.de/uwe/software/lrzsz.html 2)    软件安装 首先通过sftp工具把安 装文件上传到/tmp目录下. # cd /tmp # w ...
Bucket Map Join   1. 测试1:两个1亿多记录的表,不存在数据倾斜与笛卡尔积,测试下来与普通的join差不多;   2. 测试2:一个4000万和一个5000多万的表join,关联键数据倾斜,并且笛卡尔积,效果明显;   create table lxw_test(imei string,sndaid string,data_time string) CLUSTERED BY(imei) SORTED BY(imei) INTO 10 BUCKETS; create table lxw_test1(imei string,sndaid strin ...
在测试集群上拉了5台机器,自己另外搭建了一个小集群,不影响原来的集群。   1.规划,jobtracker一台,namenode一台,datanode三台,secondNamenode和网关机一台   2.新建用户lxw,并打通无密码ssh   3.安装版本0.20.2   完成之后先启 ...
Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候,将 引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之间无法达到更好的网 ...
对同一张表的union all 要比多重insert快的多, 原因是hive本身对这种union all做过优化,即只扫描一次源表; http://www.apacheserver.net/How-is-Union-All-optimized-in-Hive-at229466.htm 而多重insert也只扫描一次,但应为要insert到多个分区,所以做了很多其他的事情,导致消耗的时间非常长; 希望大家在开发的时候多测,多试!   lxw_test3 12亿左右记录数 Union all : 耗时7分钟左右   create table lxw_test5 as select t ...
1.    需求与现状: 源表:pcup_3month_login_dtl_mes , 记录数12亿,文件数 300 统计SQL: insert overwrite table pcup_logininfo_tmp partition(data_type = 1) select popt_id, null as sndaid, count(distinct case when login_date>='2012-02-01' and login_date<'2012-05-01' then login_date else null ...
<!-- map output compress begin--> <property> <name>mapred.compress.map.output</name> <value>true</value> </property> <property> <name>mapred.output.compress</name> <value>true</value> </property> < ...
对于不同的ORACLE连接串,可能需要调整连接方式,都需要有ORACLE客户端:   1. dwapprac =      (DESCRIPTION =      (ADDRESS = (PROTOCOL = TCP)(HOST = 10.125.60.25)(PORT = 1521))      (ADDRESS = (PROTOCOL = TCP)(HOST = 10.125.60.26)(PORT = 1521))      (LOAD_BALANCE = yes)      (CONNECT_DATA =        (SERVER = DEDICATED)      ...

java api读取RCFile

private static List<String> showRCFile (Path src,Configuration conf) { List<String> list = new ArrayList<String>(); try { FileSystem fs = FileSystem.get(src.toUri(), conf); long fileLen = fs.getFileStatus(src).getLen(); FileSplit split = new FileSplit(src,0, fileLe ...
1. rpm安装mysql groupadd mysql useradd -g mysql mysql rpm -ivh MySQL-server-5.5.24-1.rhel5.i386.rpm  rpm -ivh MySQL-client-5.5.24-1.rhel5.i386.rpm      启动mysql:/etc/init.d/mysql start 添加系统启动:/sbin/chkconfig --add mysql create database hive; grant all on hive.* to hive@'%' identified by 'hive ...
通过该命令可以来限定某个hdfs目录的大小:   hadoop dfsadmin -setSpaceQuota 3000 /group/d_sdo_data/user/liuxiaowen   但设定之后,put一个2000多字节的文件时候报错:   12/05/14 15:41:24 WARN hdfs.DFSClient: DataStreamer Exception: org.apache.hadoop.hdfs.protocol.DSQuotaExceededException: org.apache.hadoop.hdfs.protocol.DSQuotaExceededE ...
Global site tag (gtag.js) - Google Analytics