superlxw1234

浏览: 542305 次
性别:
来自: 西安

最近访客更多访客>>

huageng520

rattersnake

yuanyuan7891

ticojj

博主相关

博客

微博

相册

留言

关于我

博客专栏

: Hive入门
浏览量：43208

文章分类

社区版块

存档分类

Hive索引原理机制与使用

博客分类：

hive

hive hive index hive 索引

Hive是支持索引的，但基本没用过，只做了下试验。
为什么大家都不用，肯定有它的弊端。

Hive索引机制：

在指定列上建立索引，会产生一张索引表（Hive的一张物理表），里面的字段包括，索引列的值、该值对应的HDFS文件路径、该值在文件中的偏移量;

在执行索引字段查询时候，首先额外生成一个MR job，根据对索引列的过滤条件，从索引表中过滤出索引列的值对应的hdfs文件路径及偏移量，输出到hdfs上的一个文件中，然后根据这些文件中的 hdfs路径和偏移量，筛选原始input文件，生成新的split,作为整个job的split,这样就达到不用全表扫描的目的。

Hive索引建立过程：

创建索引：

create index lxw1234_index on table lxw1234(key)
as 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler'
with deferred rebuild;

之后在Hive中会创建一张索引表，也是物理表：

其中，索引表中key字段，就是原表中key字段的值，_bucketname 字段，代表数据文件对应的HDFS文件路径，_offsets 代表该key值在文件中的偏移量，有可能有多个偏移量，因此，该字段类型为数组。

其实，索引表就相当于一个在原表索引列上的一个汇总表。

生成索引数据

alter index lxw1234_index on lxw1234 rebuild;

用一个MR任务，以table lxw1234的数据作为input，将索引字段key中的每一个值及其对应的HDFS文件和偏移量输出到索引表中。

自动使用索引

SET hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;
SET hive.optimize.index.filter=true;
SET hive.optimize.index.filter.compact.minsize=0;

查询时候索引如何起效：

select * from lxw1234 where key = '13400000144_1387531071_460606566970889';

剩下的流程图不贴了，到原文看吧： http://lxw1234.com/archives/2015/05/207.htm

1
顶

1
踩

分享到：

Spark Streaming+Flume对接实验 | Hadoop生态系统官网、下载地址、文档

2015-05-08 08:55
浏览 5053
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

Hive索引原理机制与使用

Hive索引机制：

Hive索引建立过程：

创建索引：

生成索引数据

自动使用索引

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

Hive索引原理机制与使用

Hive索引机制：

Hive索引建立过程：

创建索引：

生成索引数据

自动使用索引

评论

发表评论

相关推荐

[一起学Hive]之十七-从Hive表中进行数据抽样-Sampling

[一起学Hive]之十六-Hive的WEB页面接口-HWI

[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics)

一起学Hive系列文章

MapReduce和Hive支持递归子目录作为输入

[一起学Hive]之十四-Hive的元数据表结构详解

[一起学Hive]之十三-Hive整合HBase，操作HBase表

[一起学Hive]之十二-Hive SQL的优化

[一起学Hive]之十一-Hive中Join的类型和用法

[一起学Hive]之十-Hive中Join的原理和机制

[一起学Hive]之九-Hive的查询语句SELECT

Spark1.4.0-SparkSQL与Hive整合-支持窗口分析函数

[一起学Hive]之八-使用Hive命令行

[一起学Hive]之六-Hive的动态分区

[一起学Hive]之七-向Hive表中加载数据

[一起学Hive]之五-Hive的视图和分区

[一起学Hive]之四-Hive的安装配置

[一起学Hive]之三—Hive中的数据库(Database)和表(Table)

[一起学Hive]之二—Hive函数大全-完整版

[一起学Hive]—Hive函数大全-part2

最近访客更多访客>>