您好,欢迎光临网站优化公司网站!

网站美工,网站改版,网站推广公司

网络推广软件,网站搭建

Hive企业使用优化二

作者:jcmp

浏览量: 0

2021-04-06

大表【拆分】子表 根据实际业务可以把大

大表【拆分】

子表 根据实际业务可以把大表拆分为几个小表。 例如可以把merit_log20180304表拆分出ip,user,url,date 等字表。

外部表、分区表

create external table if not exists emp_partition(empno int,ename string,job string,mgr int,hiredate string,sal double,comm double,deptno int)partitioned by (month string)row format delimited fields terminated by '\t'

load data local inpath '/diskg/hexunlogs/tracklog_by5min/tracklog_10.0.121.74/20151014/2015101414*.dat' overwrite into table default.kwu_tracklog partition (day='20151014',hour='14'); load data local inpath '/diskg/hexunlogs/tracklog_by5min/tracklog_10.0.121.74/20151014/2015101415*.dat' overwrite into table default.kwu_tracklog partition (day='20151014',hour='15');

select count(*) from default.kwu_tracklog where day='20151014' and hour='14' limit 1; select count(*) from default.kwu_tracklog where day='20151014' and hour='15' limit 1;

数据

SQL

优化SQL语句

语法

join_table: table_reference [INNER] JOIN table_factor [join_condition] | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition | table_reference LEFT SEMI JOIN table_reference join_condition | table_reference CROSS JOIN table_reference [join_condition] (as of Hive 0.10) table_reference: table_factor | join_table table_factor: tbl_name [alias] | table_subquery alias | ( table_references ) join_condition: ON expression。

join 分类

1、Common/Shuffle/Reduce Join

连接发生的阶段,发生在Reduce task。 大表对大表 每个表中的数据都是在文件中读取的。

2、Map Join

连接发生的阶段,发生在Map task。 小表对大表 a、大表的数据从文件中读取 cid b、小表中的数据从内存中读取。根据cid把小表数据从内存中取出。实现方式是通过DistinctedCache。

3、 SMB Join(SMB(Sort-Merge-Bucket) Join)。

过程描述:排序-->合并-->入桶

关于桶的文章见 Hive 基础之:分区、桶、Sort Merge Bucket Join。

MapReduce

Reduce Number JVM重用 推测执行

优化方式

进入了解更多关于首页优化的公司的信息。