`
superlxw1234
  • 浏览: 542565 次
  • 性别: Icon_minigender_1
  • 来自: 西安
博客专栏
Bd1c0a0c-379a-31a8-a3b1-e6401e2f1523
Hive入门
浏览量:43273
社区版块
存档分类
最新评论
文章列表
同关系型数据库一样,Hive中也支持视图(View)和分区(Partition),但与关系型数据库中的有所区别,本文简单介绍Hive中视图和分区的示例。 在真实业务场景下,视图的应用比较少,分区使用的非常多,因此建议对分区这块多花的时间来了解。   四、Hive的视图和分区 4.1 Hive中的视图 和关系型数据库一样,Hive中也提供了视图的功能,注意Hive中视图的特性,和关系型数据库中的稍有区别: 只有逻辑视图,没有物化视图; 视图只能查询,不能Load/Insert/Update/Delete数据; 视图在创建时候,只是保存了一份元数据,当查询视图的时候,才开始执行视 ...
本文基于Spark1.3.1,介绍一下Spark基于hadoop-2.3.0-cdh5.0.0的安装配置和简单使用。   我是在一台机器上完成了Spark的部署,其实也是集群,只不过Master和Slave都在一台机器上。如果是多台机器的集群部署,步骤完全一样,只不过多些Slave而已。   一、环境需求 下载并安装scala-2.11.4 配置环境变量: export SCALA_HOME=/usr/local/scala-2.11.4 export PATH=$SCALA_HOME/bin:$PATH Java 1.7 Hadoop2.3.0-cdh5 下载编译好的Spa ...
其实Hive的安装配置应该放在第二章来介绍,晚了些,希望对Hive初学者有用。 三、Hive的安装配置 3.1 环境需求 Hadoop Client Mysql 3.2 下载并解压Hive0.13.1安装包 下载地址:http://archive.apache.org/dist/hive/hive-0.13.1/apache-hive-0.13.1-bin.tar.gz cp apache-hive-0.13.1-bin.tar.gz /usr/local cd /usr/local tar –xzvf apache-hive-0.13.1-bin.tar.gz  配 ...
在前面的文章中,介绍了可以把Hive当成一个“数据库”,它也具备传统数据库的数据单元,数据库(Database/Schema)和表(Table)。   本文介绍一下Hive中的数据库(Database/Schema)和表(Table)的基础知识,由于篇幅原因,这里只是一些常用的、基础的。   二、Hive的数据库和表   先看一张草图:   Hive结构   从图上可以看出,Hive作为一个“数据库”,在结构上积极向传统数据库看齐,也分数据库(Schema),每个数据库下面有各自的表组成。   1.  Hive在HDFS上的默认存储路径   Hive的数据都 ...
Hive函数大全–完整版            现在虽然有很多SQL ON Hadoop的解决方案,像Spark SQL、Impala、Presto等等,但就目前来看,在基于Hadoop的大数据分析平台、数据仓库中,Hive仍然是不可替代的角色。尽管它的相应 延迟大,尽管 ...
1. Hive是什么 Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性。 这是来自官方的解释。 简单来说,Hive就是在Hadoop上架了 ...
DataX介绍 DataX是一个在异构的数据库/文件系统之间高速交换数据的工具,实现了在任意的数据处理系统(RDBMS/Hdfs/Local filesystem)之间的数据交换。 目前成熟的数据导入导出工具比较多,但是一般都只能用于数据导入或者导出, ...
京东大数据基础架构和实践-王彦明       京东大数据分析与创新应用-邢志峰         京东数据仓库海量数据交换工具-张侃     到这里下载视频及PPT       个人觉得,基础平台架构部分应该介绍一下大数据平台中最重要的中枢–任务调度系统(类似:http://lxw1234.com/archives/2015/04/109.htm)。  
Spark视频免费下载     1. Spark部署   http://pan.baidu.com/s/1bnCpUEz   2. Spark编程模型   http://pan.baidu.com/s/1o6Htm3o     3. Spark运行架构   http://pan.baidu.com/s/1pJC72ob     4. Spark SQL原理和实践   http://pan.baidu.com/s/1bn8ShOV     5. Spark Streaming原理和实践   http://pan.baidu.com/s/1sjt63 ...
        一般情况下,Redis Client端发出一个请求后,通常会阻塞并等待Redis服务端处理,Redis服务端处理完后请求命令后会将结果通过响应报文返回给Client。        感觉这有点类似于HBase的Scan,通常是Client端获取每一条记录都是一次RPC调用服务端。 在Redis中,有没有类似HBase Scanner Caching的东西呢,一次请求,返回多条记录呢?        有,这就是Pipline。官方介绍 http://redis.io/topics/pipelining         通过pipeline方式当有大批量的操作时候,我们可以节省很 ...
  文章来自: http://lxw1234.com/?p=221        这两天碰到一个需求,需要将日期yyyy-MM-dd、到秒粒度的时间戳,转换成十六进制(HexString)。 记录一下实现方法。   Java版本: String day = "2015-05-21"; SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd"); Date d = new Date(); //将2015-05-21转换成时间戳 int unixtimstamp1 = (int) ...
文章来自: http://lxw1234.com/?p=217   软件环境: flume-ng-core-1.4.0-cdh5.0.0 spark-1.2.0-bin-hadoop2.3   流程说明: Spark Streaming: 使用spark-streaming-flume_2.10-1.2.0插件,启动一个avro source,用来接收数据,并做相应的处理; Flume agent:source监控本地文件系统的一个目录,当文件发生变化时候,由avro sink发送至Spark Streaming的监听端口 Flume配置: flume-lxw-conf ...
Apache版本:   Hadoop官网:http://hadoop.apache.org/ Hadoop下载:http://mirror.bit.edu.cn/apache/hadoop/common/ Hadoop文档:http://hadoop.apache.org/docs/ Hive官网:http://hive.apache.org/ Hive下载:http://mirror.bit.edu.cn/apache/hive/ Hive文档:https://cwiki.apache.org/confluence/display/Hive HBase官网:http://hbase. ...
Hive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。 今天先看几个基础的,SUM、AVG、MIN、MAX。 用于实现分组内所有和连续累积的统计。 Hive版本为 apache-hive-0.13.1   数据准备:     CREATE EXTERNAL TABLE lxw1234 ( cookieid string, createtime string, --day pv INT ) ROW FORMAT DELIMITED FIELDS TERMINATED B ...
今天在sqlserver2012上遇到一个分析需求,用到动态列转行,记录一下:   create table t1 (id int,value varchar(100)); insert into t1 values(1,'a,b,c'); insert into t1 values(2,'a,b,c,d,e'); insert into t1 values(3,'a,b,c,d,e,f,g'); select * from t1;       1 a,b,c 2 a,b,c,d,e 3 a,b,c,d,e,f,g       SELECT a.id,b.[valu ...
Global site tag (gtag.js) - Google Analytics