irpas技术客

Flink-生产环境问题集锦_天青色等烟雨..._flink生产环境遇到的问题

未知 4112

项目场景:

平台初始搭建,在项目开发过程中遇到的问题.


问题描述及解决方案

1.在程序中将状态后端保存到HDFS,运行程序时报错失败

Caused by: java.lang.RuntimeException: Error while waiting for job to be initialized … Caused by: org.apache.flink.runtime.rest.util.RestClientException: [org.apache.flink.runtime.rest.NotFoundException: Job e16f0a23865fa0daf0cb7ca92bf786ae not found … Caused by: org.apache.flink.runtime.messages.FlinkJobNotFoundException: Could not find Flink job (e16f0a23865fa0daf0cb7ca92bf786ae) …

问题解决:

1.运行命令加sudo,可能是权限问题 2.如果上述方法不能解决问题,查看flink/lib目录下是否有hadoop相关的jar包(见下方图片)


2.并行度与slot问题

flink配置文件中taskmanager.numberOfTaskSlots:slot数量。 在yarn模式使用的时候会受到yarn.scheduler.maximum-allocation-vcores值的影响。 此处指定的slot数量如果超过yarn的maximum-allocation-vcores,flink启动会报错。

问题解决:

在yarn模式,flink启动的task manager个数可以参照如下计算公式:num_of_manager = ceil(parallelism / slot) 即并行度除以slot个数,结果向上取整。


3.hdfs写权限问题导致生产环境flink on yarn提交任务报错,报关于yarn的错误,错误如下:

org.apache.flink.client.program.ProgramInvocationException: The main method caused an error: Could not deploy Yarn job cluster. … Caused by: org.apache.flink.client.deployment.ClusterDeploymentException: Could not deploy Yarn job cluster. … Caused by: org.apache.flink.yarn.YarnClusterDescriptor$YarnDeploymentException: The YARN application unexpectedly switched to state FAILED during deployment.

Yarn日志显示如下: 问题解决: 在flink启动脚本“/data/app/flink/bin/flink”中添加配置解决该问题

#操作hdfs的用户 export HADOOP_USER_NAME=hdfs

4.任务挂掉,报GC错误 问题解决:

调大运行命令中jobmanager.memory.process.size参数值


5.提交任务只能在一台节点上能够正常运行,提交到其他节点都运行不了

原因:由于配置文件中io.tmp.dirs ,这个目录需要手动创建,文件夹/tmp不存在、自动创建没成功(可能是权限问题)导致失败

问题解决:

手动创建该目录


记得点赞收藏奥,后续遇到问题会实时更新,关注不迷路~


1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,会注明原创字样,如未注明都非原创,如有侵权请联系删除!;3.作者投稿可能会经我们编辑修改或补充;4.本站不提供任何储存功能只提供收集或者投稿人的网盘链接。

标签: #flink生产环境遇到的问题 #by #error #while #waiting #for