Hive中ORDER BY、SORT BY和DISTRIBUTE BY

ORDERBY

ORDERBY在Hive中的作用同标准SQL中一样,对结果集进行整体排序,ORDER BY 会对结果集进行一个全局排序,所有数据将被放在一个reducer当中处理。
当结果数据量大时,使用ORDER BY不可取,一个reducer处理整个数据集排序进程会很缓慢,不论通过mapreduce.job.reduces参数设置几个reducer,ORDER BY只会使用一个reducer。

SORTBY

SORT BY会对被随机(随机分配数据是为了防止数据的倾斜)分配到每个reducer中的数据集进行排序,注意这种排序在单个reducer是有序的,但不是全局有序。
现有一张hive表:

hive (db_test)> select * from new_score;
OK
new_score.id	new_score.score	new_score.clazz	new_score.department
111	69	class1	department1
112	80	class1	department1
113	74	class1	department1
114	94	class1	department1
115	93	class1	department1
121	74	class2	department1
122	86	class2	department1
123	78	class2	department1
124	70	class2	department1
211	93	class1	department2
212	83	class1	department2
213	94	class1	department2
214	94	class1	department2
215	82	class1	department2
216	74	class1	department2
221	99	class2	department2
222	78	class2	department2
223	74	class2	department2
224	80	class2	department2
225	85	class2	department2
NULL	NULL	NULL	NULL
NULL	NULL	NULL	NULL

设置reducer个数为3,并使用SORT BY排序:

SET mapreduce.job.reduces=3;
SELECT id,score FROM new_score SORT BY score;

排序结果结果集以红线为分割,分为三部分,对应三个reducer内部排序结果。为了让SORT BY排序效果更明显,将上述结果集导出。

hive (db_test)> INSERT OVERWRITE DIRECTORY '/hive-write/sortby'
              > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
              > SELECT id,score FROM new_score SORT BY score;

在HDFS Web上查看对应目录:
在这里插入图片描述正好三个输出文件,一个reducer对应一个输出文件。查看三个文件中的内容:
在这里插入图片描述在这里插入图片描述在这里插入图片描述发现三个文件内数据都是有序的,也就是说SORT BY 排序的结果集,在每个reducer中进行有序排序,而非全局有序。

DISTRIBUTE BY

DISTRIBUTE BY一般和SORT BY连用,用于指定排序分区,比如上述数据中我希望相同department字段值在同一个reducer中被处理,那么写法如下:

hive (db_test)> SELECT id,score,department FROM new_score DISTRIBUTE BY department SORT BY score;

在这里插入图片描述具有相同department字段值的数据被分配到相同的reducer中处理,导出结果集显示如下:
在这里插入图片描述第三个文件没有数据,因为department的字段值就只有department1和department2两种类型。

CLUSTER BY

当DISTRIBUTE BY和SORT BY字段值相同时,可以使用CLUSTER BY替代。但是排序只能是升序,不能指定ASC或DESC。