在 join的时候,最好是 小表 + 大表,hive在链接的时候,会尝试把前面的行,放入缓存中
加入在查询中,有一张很小的表,可以使用map-side join 将小表完全放入内存中
hive> explain select * from nginx_log where p_hour='2014071211' limit 2; 使用explain 查看 hive运行的解析和计划,查询语句是不会执行的,explain extended 会显示的更加详细
并行执行,limit 抽样 配置
合理的map 和reduce 数量,dfs-count 来判断,jvm 重用
索引可以增加 group by 的速度,动态分区