Hive不同存储格式占空间比较

2.47G大小结构化文件2642845690

分别在hive

上建表 (默认压缩算法)

在HDFS上对应目录如下图:

将这个文件load进stored as textfile 的表里

stored as textfile  在HDFS上占空间和linux上一样2642845690 约2.47G

stored as orc 从textfile表插入数据花费Time taken: 72.333 seconds

在HDFS上占空间585377591约0.55G

stored as sequencefile 从textfile表插入数据花费Time taken: 58.538 seconds

在HDFS上占空间2823942397约2.63G

stored as parquet  从textfile表插入数据花费Time taken: 89.844 seconds

在HDFS上占空间625366787约0.582G

stored as rcfile 从textfile表插入数据花费Time taken: 55.115 seconds

在HDFS上占空间2513468031约2.34G

结论 占用空间排序sequencefile 〉textfile〉rcfile 〉parquet〉orc