Snippet 博客主题

技术

Hive表创建,数据加载,数据导出

hive不支持用insert语句一条一条的进行插入操作,也不支持update操作。数据是以load的方式加载到建立好的表中。数据一旦导入就不可以修改。 1.创建表的三种方式 创建表的基本语法 12345678910111213141...

Hive函数总结

Hive提供了包括数学函数,类型转换函数,条件函数,字符函数,聚合函数,表生成函数等的内置函数。…

Hive整合HBase

Hive和Hbase有各自不同的特征:hive是高延迟、结构化和面向分析的,hbase是低延迟、非结构化和面向编程的。Hive数据仓库在hadoop上是高延迟的。Hive集成Hbase就是为了使用hbase的一些特性。Hive继承HBase可以有效利用HBase数据库的存储特性,如行更新和列索引等。在集成的过程中注意维持HBase jar包的一致性。Hive集成HBase需要在Hive表和HBase表之间建立映射关系,也就是Hive表的列和列类型与HBase表的列族及列限定词建立关联。每一个在Hive表中的域都存在与HBase中,而在Hive表中不需要包含所有HBase中的列。HBase中的rowkey对应到Hive中为选择一个域使用 :key 来对应,列族(cf映射到Hive中的其他所有域,列为(cf:cq)。…

python绘图

python matplotlib,numpy,生成随机数,绘制折线图,散点图,直方图,子图…

爬虫-scrapy爬取csdn

1.创建项目1234cd F:\yangql\pythonworkplace>scrapy startproject csdncd csdnscrapy genspider csdn_crawler blog.csdn.net ...

python数据导入

python数据导入,主要用pandas package实现,可以导入以下不同类型的数据: pda.read_csv :CSV格式 pda.read_excel:Excel格式 pda.read_sql:mysql格式 =pda.read_html:html格式 read_table:文本格式…

Python操作Hive数据

python操作hive,此处选用pyhive package。悲催的是Windows上不能安装后不能连接,一直报错(暂时没有解决办法)12File "D:\python\lib\site-packages\thrift_sasl-0.2.1-py3.6.egg\thrift_sasl\__init__.py", line 79, in openthrift.transport.TTransport.TTransportException: Could not start SASL: b'Error in sasl_client_start (-4) SASL(-4): no mechanism available: Unable to find a callback: 2' 以下的操作在CentOS下亲测可以实现:Python:3.6.1Hive:hive-2.1.11.安装12345pip install pyhivehttp://www.lfd.uci.edu/~gohlke/pythonlibs/vu0h7y4r/sasl-0.2.1-cp36-cp36m-win_amd64.whlpip install sasl-0.2.1-cp36-cp36m-win_amd64.whlpip install plypip install thrift-sasl…

Hive列分隔符支持多字符

Hive 创建表默认的列分隔符是’\001’,而且默认不支持多字符。查看网上大都说要重写InputFormat,但是没有成功。在stackoverflow上看到一个方法,亲测可以成功。在创建表时加上:123ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe'WITH SERDEPROPERTIES ("field.delim"="@|@")STORED AS TEXTFILE…

Scala内部类与外部类及内部类作用域

scala内部类与外部类,以及扩大内部类作用域的两种方式,内部类访问外部类的变量的方式。 内部类与外部类实例1234567891011121314151617181920212223package com.scala.baseimport scala.collection.mutable.ArrayBufferobject Class { def main(args: Array[String]): Unit = { val c1=new Class val leo=c1.register("leo") c1.students+=leo val c2=new Class val jack=c2.register("jack") c2.students+=jack }}class Class{ class Student(val name:String) val students=new ArrayBuffer[Student] def register(name:String):Student={ new Student(name) }}…

Spark-DataSet学习

1.DataSet相关概念Dataset是一个分布式的数据集。Dataset是Spark 1.6开始新引入的一个接口,它结合了RDD API的很多优点(包括强类型,支持lambda表达式等),以及Spark SQL的优点(优化后的执行引擎)。Dataset可以通过JVM对象来构造,然后通过transformation类算子(map,flatMap,filter等)来进行操作。Scala和Java的API中支持Dataset,但是Python不支持Dataset API。不过因为Python语言本身的天然动态特性,Dataset API的不少feature本身就已经具备了(比如可以通过row.columnName来直接获取某一行的某个字段)。R语言的情况跟Python也很类似。 Dataframe就是按列组织的Dataset。在逻辑概念上,可以大概认为Dataframe等同于关系型数据库中的表,或者是Python/R语言中的data frame,但是在底层做了大量的优化。Dataframe可以通过很多方式来构造:比如结构化的数据文件,Hive表,数据库,已有的RDD。Scala,Java,Python,R等语言都支持Dataframe。在Scala API中,Dataframe就是Dataset[Row]的类型别名。在Java中,需要使用Dataset来代表一个Dataframe。…