博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
hive 优化
阅读量:6513 次
发布时间:2019-06-24

本文共 357 字,大约阅读时间需要 1 分钟。

hot3.png

  1. 在 join的时候,最好是 小表 + 大表,hive在链接的时候,会尝试把前面的行,放入缓存中

  2. 加入在查询中,有一张很小的表,可以使用map-side join 将小表完全放入内存中

  3. hive> explain select * from nginx_log where p_hour='2014071211' limit 2; 使用explain 查看 hive运行的解析和计划,查询语句是不会执行的,explain extended  会显示的更加详细

  4. 并行执行,limit 抽样 配置

  5. 合理的map 和reduce 数量,dfs-count 来判断,jvm 重用

  6. 索引可以增加 group by 的速度,动态分区

转载于:https://my.oschina.net/u/1388024/blog/299210

你可能感兴趣的文章
C# 键值对数据排序
查看>>
C#微信公众号开发系列教程六(被动回复与上传下载多媒体文件)
查看>>
具体解释VB中连接access数据库的几种方法
查看>>
[安卓] 8、VIEW和SURFACEVIEW游戏框架
查看>>
ExtJs自学教程(1):一切从API開始
查看>>
Spring Integration概述
查看>>
[Everyday Mathematics]20150219
查看>>
CentOS工作内容(一)CentOS6.4的安装 hwclock和date
查看>>
js中的各种宽高以及位置总结
查看>>
Ogre1.9 源码编译
查看>>
利用nginx加速web访问
查看>>
[SAP ABAP开发技术总结]权限对象检查
查看>>
js中的方法调用
查看>>
RDIFramework.NET ━ 9.6 模块(菜单)管理 ━ Web部分
查看>>
Android安全问题 静音拍照与被拍
查看>>
cocos2d-x 3.1.1 学习笔记[13] listen 监听器
查看>>
定制私人博客
查看>>
WTL介绍
查看>>
应用程序框架实战三十四:数据传输对象(DTO)介绍及各类型实体比较(转)
查看>>
放量滞涨,抛出信号
查看>>