`
superlxw1234
  • 浏览: 542250 次
  • 性别: Icon_minigender_1
  • 来自: 西安
博客专栏
Bd1c0a0c-379a-31a8-a3b1-e6401e2f1523
Hive入门
浏览量:43182
社区版块
存档分类
最新评论

Hive并行排序

    博客分类:
  • hive
阅读更多

set hive.optimize.sampling.orderby=true;
set hive.optimize.sampling.orderby.number=10000;
set hive.optimize.sampling.orderby.percent=0.1f;

 

 

记录一下,Hive中并行排序参数;

 

hive.optimize.sampling.orderby
    Default Value: false
    Added In: Hive 0.12.0 with HIVE-1402
Uses sampling on order-by clause for parallel execution.


hive.optimize.sampling.orderby.number
    Default Value: 1000
    Added In: Hive 0.12.0 with HIVE-1402
With hive.optimize.sampling.orderby=true, total number of samples to be obtained to calculate partition keys.


hive.optimize.sampling.orderby.percent
    Default Value: 0.1
    Added In: Hive 0.12.0 with HIVE-1402
With hive.optimize.sampling.orderby=true, probability with which a row will be chosen.

0
3
分享到:
评论

相关推荐

    论文研究-基于Hive的海量搜索日志分析系统研究.pdf

    针对传统分布式模型在海量日志并行处理时的可扩展性和并行程序编写困难的问题, 提出了基于Hive的Web海量搜索日志分析机制。利用HQL语言以及Hadoop分布式文件系统(HDFS)和MapReduce编程模式对海量搜索日志进行分析...

    Spark实战.docx

     MapReduce总是消耗大量时间排序,而有些场景不需要排序,Spark可以避免不必要的排序所带来的开销  Spark是一张有向无环图(从一个点出发最终无法回到该点的一个拓扑),并对其进行优化。 4. Spark支持的API ...

    Hadoop权威指南(中文版)2015上传.rar

    1.7.1 排序(Sorting)和聚集(Aggregating) 1.7.2 MapReduce脚本 1.7.3 连接 1.7.4 子查询 1.7.5 视图(view) 1.8 用户定义函数(User-Defined Functions) 1.8.1 编写UDF 1.8.2 编写UDAF 第13章 HBase 2.1 ...

    Hadoop硬实战 [(美)霍姆斯著][电子工业出版社][2015.01]_PDF电子书下载 带书签目录 高清完整版.rar )

    4.2.2 整体并行排序 技术点22 通过多个reducer 对key 进行排序 4.3 抽样 技术点23 蓄水池抽样(reservoir 抽样) 4.4 本章小结 5 优化HDFS 处理大数据的技术 5.1 处理小文件 技术点24 使用Avro 存储...

    Hadoop权威指南 第二版(中文版)

    Hive简介;ZooKeeper简介;开源工具Sqoop,最后还提供了丰富的案例分析。  本书是Hadoop权威参考,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装与运行Hadoop集群。 目录 第1章 初识Hadoop  ...

    Hadoop实战(第2版)

    join技术点20 实现semi-join4.1.4 为你的数据挑选最优的合并策略4.2 排序4.2.1 二次排序技术点21 二次排序的实现4.2.2 整体并行排序技术点22 通过多个reducer 对key 进行排序4.3 抽样技术点23 蓄水...

    云数据库方案设计(1).doc

    内存发生变化时,数据库的共享内存,排序内存等内存分配支持动态调整,动态扩 展。 磁盘发生变化时,数据库可以配置表空间的存储,以及表存储,分区的存储,动态 使用新增资源。 另外,随着实际业务的增长,数据库...

    云数据库方案设计.doc

    内存发生变化时,数据库的共享内存,排序内存等内存分配支持动态调整,动态扩展 。 磁盘发生变化时,数据库可以配置表空间的存储,以及表存储,分区的存储,动态使 用新增资源。 另外,随着实际业务的增长,数据库...

    云数据库方案设计.docx

    内存发生变化时,数据库的共享内存,排序内存等内存分配支持动态调整,动态扩展。 云数据库方案设计全文共6页,当前为第2页。 磁盘发生变化时,数据库可以配置表空间的存储,以及表存储,分区的存储,动态使用新增...

    第七章-《大数据导论》大数据处理平台.pdf

    Spark 通用大数据处理引擎,高效地支持批量处理、流式处理、图处理 数据分析工具: Hive和Spark SQL数据仓库;Spark Streaming流式计算;MLib机器学习;GraphX图处理 批量大数据处理 Hadoop 基本思想:本地化计算 ...

    nosql 入门教程

    8.5 Apache Cassandra的索引与排序 141 8.6 小结 143 第9章 事务和数据完整性的管理 144 9.1 RDBMS和ACID 144 9.2 分布式ACID系统 147 9.2.1 一致性 149 9.2.2 可用性 149 9.2.3 分区容忍性 149 9.3 维持CAP...

Global site tag (gtag.js) - Google Analytics