spark on hive :
????????hive只作为存储角色,spark 负责sql解析优化,底层运行的还是sparkRDD
????????具体可以理解为spark通过sparkSQL使用hive语句操作hive表,底层运行的还是sparkRDD,
? ? ? ? 步骤如下:
? ? ? ? ????????1.通过sparkSQL,加载Hive的配置文件,获取Hive的元数据信息
????????????????2.获取到Hive的元数据信息之后可以拿到Hive表的数据
????????????????3.通过sparkSQL来操作Hive表中的数据
hive on spark:
????????hive既作为存储又负责sql的解析优化,spark负责执行
????????这里Hive的执行引擎变成了spark,不再是MR。
????????这个实现较为麻烦,必须重新编译spark并导入相关jar包
????????目前大部分使用spark on hive
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,会注明原创字样,如未注明都非原创,如有侵权请联系删除!;3.作者投稿可能会经我们编辑修改或补充;4.本站不提供任何储存功能只提供收集或者投稿人的网盘链接。 |