1. rpm安装mysql
groupadd mysql
useradd -g mysql mysql
rpm -ivh MySQL-server-5.5.24-1.rhel5.i386.rpm
rpm -ivh MySQL-client-5.5.24-1.rhel5.i386.rpm
启动mysql:/etc/init.d/mysql start
添加系统启动:/sbin/chkconfig --add mysql
create database hive;
grant all on hive.* to hive@'%' identified by 'hive';
flush privileges;
2. 为hive建立相关的hdfs目录:
hadoop fs -mkdir /user/hive/
hadoop fs -chmod -R a+w /user/hive/
3. 安装配置hive:
tar -xzvf hive-0.7.1-bin.tar.gz
ln -s hive-0.7.1-bin hive-current
cd hive-current/conf
vi hive-site.xml
<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <property> <name>hive.exec.drop.ignorenonexistent</name> <value>true</value> <description> Do not report an error if DROP TABLE/VIEW specifies a non-existent table/view </description> </property> <property> <name>hive.metastore.local</name> <value>true</value> <description>controls whether to connect to remove metastore server or open a new metastore server in Hive Client JVM</description> </property> <property> <name>hive.exec.scratchdir</name> <value>/user/hive/${user.name}/meta/hive-exec</value> <description>Scratch space for Hive jobs</description> </property> <property> <name>hive.metastore.warehouse.dir</name> <value>/user/hive/${user.name}/meta/warehouse</value> <description>location of default database for the warehouse</description> </property> <property> <name>hive.exec.compress.output</name> <value>true</value> <description> This controls whether the final outputs of a query (to a local/hdfs file or a hive table) is compressed. The compression codec and other options are determined from hadoop config variables mapred.output.compress* </description> </property> <property> <name>hive.exec.compress.intermediate</name> <value>true</value> <description> This controls whether intermediate files produced by hive between multiple map-reduce jobs are compressed. The compression codec and other options are determined from hadoop config variables mapred.output.compress* </description> </property> <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://192.168.1.113:3306/hive?createDatabaseIfNotExist=true</value> <description>JDBC connect string for a JDBC metastore</description> </property> <property> <name>javax.jdo.option.ConnectionDriverName</name> <value>com.mysql.jdbc.Driver</value> <description>Driver class name for a JDBC metastore</description> </property> <property> <name>javax.jdo.option.ConnectionUserName</name> <value>hive</value> <description>username to use against metastore database</description> </property> <property> <name>javax.jdo.option.ConnectionPassword</name> <value>hive</value> <description>password to use against metastore database</description> </property> <property> <name>hive.stats.dbclass</name> <value>jdbc:mysql</value> <description>The default database that stores temporary hive statistics.</description> </property> <property> <name>hive.stats.jdbcdriver</name> <value>com.mysql.jdbc.Driver</value> <description>The JDBC driver for the database that stores temporary hive statistics.</description> </property> <property> <name>hive.stats.dbconnectionstring</name> <value>jdbc:mysql://192.168.1.113:3306/HiveStats?createDatabaseIfNotExist=true&user=hive&password=hive</value> <description>The default connection string for the database that stores temporary hive statistics.</description> </property> <!-- --> <property> <name>hive.cli.print.header</name> <value>false</value> <description>Whether to print the names of the columns in query output.</description> </property> </configuration>
4. 下载mysql-connector-java-5.0.3-bin.jar并放到hive-current/lib目录下;
注意:hive的日志一般在/tmp/${user.name}/hive.log中
5。 初始化的时候需要注意这几个参数的配置
<property> <name>datanucleus.fixedDatastore</name> <value>false</value> </property> <property> <name>datanucleus.autoCreateSchema</name> <value>true</value> </property> <property> <name>datanucleus.autoCreateTables</name> <value>true</value> </property> <property> <name>datanucleus.autoCreateColumns</name> <value>true</value> </property>
否则会报错:
FAILED: Hive Internal Error: org.apache.hadoop.hive.ql.metadata.HiveException(javax.jdo.JDODataStoreException: Required table missing : "`DBS`" in Catalog "" Schema "". DataNucleus requires this table to perform its persistence operations. Either your MetaData is incorrect, or you need to enable "datanucleus.autoCreateTables" NestedThrowables: org.datanucleus.store.rdbms.exceptions.MissingTableException: Required table missing : "`DBS`" in Catalog "" Schema "". DataNucleus requires this table to perform its persistence operations. Either your MetaData is incorrect, or you need to enable "datanucleus.autoCreateTables") org.apache.hadoop.hive.ql.metadata.HiveException: javax.jdo.JDODataStoreException: Required table missing : "`DBS`" in Catalog "" Schema "". DataNucleus requires this table to perform its persistence operations. Either your MetaData is incorrect, or you need to enable "datanucleus.autoCreateTables" NestedThrowables: org.datanucleus.store.rdbms.exceptions.MissingTableException: Required table missing : "`DBS`" in Catalog "" Schema "". DataNucleus requires this table to perform its persistence operations. Either your MetaData is incorrect, or you need to enable "datanucleus.autoCreateTables" at org.apache.hadoop.hive.ql.metadata.Hive.getDatabase(Hive.java:1028) at org.apache.hadoop.hive.ql.Driver.doAuthorization(Driver.java:433) at org.apache.hadoop.hive.ql.Driver.compile(Driver.java:393) at org.apache.hadoop.hive.ql.Driver.run(Driver.java:736) at org.apache.hadoop.hive.cli.NewCliDriver.processCmd(NewCliDriver.java:166) at org.apache.hadoop.hive.cli.NewCliDriver.processLine(NewCliDriver.java:243) at org.apache.hadoop.hive.cli.NewCliDriver.main(NewCliDriver.java:469) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) at java.lang.reflect.Method.invoke(Method.java:597) at org.apache.hadoop.util.RunJar.main(RunJar.java:197) Caused by: javax.jdo.JDODataStoreException: Required table missing : "`DBS`" in Catalog "" Schema "". DataNucleus requires this table to perform its persistence operations. Either your MetaData is incorrect, or you need to enable "datanucleus.autoCreateTables" NestedThrowables:
相关推荐
5、资源价值:大数据组件搭建的详细实践步骤、一次性提供较全面的常用大数据集群及组件安装部署内容、资源是博主结合官网文档+网上各类搭建文档+本人亲自实践后总结整合的文档(包括过程踩坑记录+对应解决方案)。
本文是继hadoop伪分布式安装文档后,又一篇详细介绍完全分布式安装hadoop的过程,并在此基础上,介绍了如何集成安装hbase和hive的详细步骤。 本文真实记录了我安装过程的每个细节,初学者,可按文档一步步轻松完成...
Hadoop集群搭建及Hive的安装与使用文档,详细记录操作步骤,该文档对于大数据平台搭建,及现场实施人员有非常大的帮助,使刚接触的人员,很容易上手。
伪分布式安装教程: Flume Hbase Spark Hive Kafka Sqoop zookeeper等分布式系统框架 备注:Hadoop安装教程当时忘记记录,后续也懒得弄,所以上传资料也暂无hadoop安装教程,尽请理解!!!!
该代码通过对每个 MongoDB 记录进行深入检查并导出每个字段的数据类型来自动创建 Hive 模式。 支持基本数据类型、嵌套对象、原始数据类型数组和对象数组。 嵌套字段被展平成列。 数组通常被拆分为不同的(子)...
根据实战安装步骤,详细描述hadoop3.2.1、hive3.1.2(包括mysql5.7)、zookeeper3.6、hbase2.2.4、flume1.90、sqoop1.4.7各组件安装步骤,记录过程中的各种坑,方便各位看官快速安装部署hadoop伪分布集群。
Hive自定义函数 一. UDF(user defined function) 背景 系统内置函数无法解决所有的实际业务问题,需要开发者自己编写函数实现自身的业务实现诉求。 应用场景非常多,面临的业务不同导致个性化实现很多,故udf...
Hadoop 分布式集群搭建 Hadoop由Apache基金会开发的分布式系统基础架构,是利用集群对大量数据进行分布式处理和存储的软件...此外,Hadoop还包括了Hive,Hbase,ZooKeeper,Pig,Avro,Sqoop,Flume,Mahout等项目。
描述真实大数据集群下,azkaban调度得运维实践步骤。 特别是azkaban重启后得一些坑,例如executor在mysql中得元数据记录处理。启动步骤。
基于Hadoop的MapReduce并行apriori算法,实验设计在3台虚拟机上,搭建步骤:(1) 虚拟机上安装ubuntu系统,安装JDK、SSH、Hadoop。 (2) 配置JDK、Hadoop环境变量及MapReduce组件。 (3) 配置SSH免密登录。 (4)...
详细记录此过程中任何步骤的错误。 测试环境 该程序已在多个 Unix/Linux 环境中进行测试。 测试的环境基本上是: CentOS 软呢帽 操作系统 Ubuntu 要查看测试的程序和特定版本,请参阅安装的测试部分。 构建和...
此自述文件通常会记录启动和运行应用程序所需的任何步骤。 您可能想要涵盖的内容: Ruby版 系统依赖 配置 数据库创建 数据库初始化 如何运行测试套件 服务(作业队列、缓存服务器、搜索引擎等) 部署说明 … ...
bash 脚本 run_me.sh 为十二个步骤启动十二个工具: Python程序将位图字符编码成JSON格式存在诸多缺陷 Hadoop Streaming丢弃无效的 JSON 记录 Hive表用于在使用 Sqoop 传输到 MySQL 之前存储点 MySQL脚本将点复制...
文档中包含了大数据涉及到的各个框架的安装部署和实验,从0到1的搭建各个框架。各个框架的集成实验的步骤记录详细。
(1)管理员设置策略以及用户(例如一个用户对一个hive数据库相关的权限)(2)用户通过jdbcbeeline去请求HiveServe2(3)hive权限check,请求rangerapi获取策略是否已经更新,更新了就利用新的策略,如果没有更新利用本地...
分析数据集生成(ADG)集群将指定HBase表中所有记录的最新版本转换为S3上存储的Parquet文件。 然后,它会生成Hive表,以为下游数据处理和分析任务提供对这些数据的便捷SQL访问。 总览 在定义的时间,CloudWatch事件...
我也是初学,把大数据环境搭建步骤做个记录,方便以后查阅,也方便大家一起学习
4399⼤数据笔试题 今天晚上参加了厦门 今天晚上参加了厦门4399公司的⼤数据笔试,⾃⼰没有拍下题⽬,⼀下是根据⾃⼰在草稿纸上简要记录回忆下 公司的⼤数据笔试,⾃⼰没有拍下题⽬,⼀下是根据⾃⼰在草稿纸上简要...
惰性求值:RDD的转化操作是惰性求值的,即在被调用行动操作之前Spark不会开始计算,相反,Spark会在内部记录下索要求执行的操作的相关信息。例如,当我们调用jsc.textFile()时,数据并没有读取进来,而是在必要时才...