irpas技术客

spark on hive 和 hive on spark 的区别:_沉浮。

irpas 2198

spark on hive :

????????hive只作为存储角色,spark 负责sql解析优化,底层运行的还是sparkRDD

????????具体可以理解为spark通过sparkSQL使用hive语句操作hive表,底层运行的还是sparkRDD,

? ? ? ? 步骤如下:

? ? ? ? ????????1.通过sparkSQL,加载Hive的配置文件,获取Hive的元数据信息

????????????????2.获取到Hive的元数据信息之后可以拿到Hive表的数据

????????????????3.通过sparkSQL来操作Hive表中的数据

hive on spark:

????????hive既作为存储又负责sql的解析优化,spark负责执行

????????这里Hive的执行引擎变成了spark,不再是MR。

????????这个实现较为麻烦,必须重新编译spark并导入相关jar包

????????目前大部分使用spark on hive


1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,会注明原创字样,如未注明都非原创,如有侵权请联系删除!;3.作者投稿可能会经我们编辑修改或补充;4.本站不提供任何储存功能只提供收集或者投稿人的网盘链接。

标签: #spark #on #hive # #的区别