Snippet 博客主题

Hbase-phoenix安装

1.解压并配置将下载好的安装包上传到我们的主节点上12tar -xvf apache-phoenix-4.10.0-HBase-1.2-bin.tar.gzmv apache-phoenix-4.10.0-HBase-1.2-bin/ phoenix-4.10 1234#config phoenix4.10export PHOENIX_HOME=/home/yangql/app/phoenix-4.10export PHOENIX_CLASSPATH=$PHOENIX_HOMEexport PATH=$PATH:$PHOENIX_HOME/bin…

Phoenix安装

1.解压并配置将下载好的安装包上传到我们的主节点上12tar -xvf apache-phoenix-4.10.0-HBase-1.2-bin.tar.gzmv apache-phoenix-4.10.0-HBase-1.2-bin/ phoenix-4.10 1234#config phoenix4.10export PHOENIX_HOME=/home/yangql/app/phoenix-4.10export PHOENIX_CLASSPATH=$PHOENIX_HOMEexport PATH=$PATH:$PHOENIX_HOME/bin…

Hive中的数据倾斜

1.空值数据倾斜场景:如日志中,常会有信息丢失的问题,比如全网日志中的user_id,如果取其中的user_id和users关联,会碰到数据倾斜的问题。解决方法1: user_id为空的不参与关联1234567Select * Fro...

Hive表创建,数据加载,数据导出

hive不支持用insert语句一条一条的进行插入操作,也不支持update操作。数据是以load的方式加载到建立好的表中。数据一旦导入就不可以修改。 1.创建表的三种方式 创建表的基本语法 12345678910111213141...

Hive整合HBase

Hive和Hbase有各自不同的特征:hive是高延迟、结构化和面向分析的,hbase是低延迟、非结构化和面向编程的。Hive数据仓库在hadoop上是高延迟的。Hive集成Hbase就是为了使用hbase的一些特性。Hive继承HBase可以有效利用HBase数据库的存储特性,如行更新和列索引等。在集成的过程中注意维持HBase jar包的一致性。Hive集成HBase需要在Hive表和HBase表之间建立映射关系,也就是Hive表的列和列类型与HBase表的列族及列限定词建立关联。每一个在Hive表中的域都存在与HBase中,而在Hive表中不需要包含所有HBase中的列。HBase中的rowkey对应到Hive中为选择一个域使用 :key 来对应,列族(cf映射到Hive中的其他所有域,列为(cf:cq)。…

python数据导入

python数据导入,主要用pandas package实现,可以导入以下不同类型的数据: pda.read_csv :CSV格式 pda.read_excel:Excel格式 pda.read_sql:mysql格式 =pda.read_html:html格式 read_table:文本格式…

Python操作Hive数据

python操作hive,此处选用pyhive package。悲催的是Windows上不能安装后不能连接,一直报错(暂时没有解决办法)12File "D:\python\lib\site-packages\thrift_sasl-0.2.1-py3.6.egg\thrift_sasl\__init__.py", line 79, in openthrift.transport.TTransport.TTransportException: Could not start SASL: b'Error in sasl_client_start (-4) SASL(-4): no mechanism available: Unable to find a callback: 2' 以下的操作在CentOS下亲测可以实现:Python:3.6.1Hive:hive-2.1.11.安装12345pip install pyhivehttp://www.lfd.uci.edu/~gohlke/pythonlibs/vu0h7y4r/sasl-0.2.1-cp36-cp36m-win_amd64.whlpip install sasl-0.2.1-cp36-cp36m-win_amd64.whlpip install plypip install thrift-sasl…