Re:来自kingdomad的邮件
-- kingdomad At 2024-07-15 09:36:43, "kingdomad" wrote: >
来自kingdomad的邮件
sql-client 查询hive表报错 java.lang.ClassNotFoundException: org.apache.hadoop.mapred.JobConf
flink 14.3,环境中已经有HADOOP_CLASSPATH变量,flink的lib文件夹也有flink-sql-connector-hive-3.1.2_2.11-1.14.3.jar。 在sql-client中查询kafka表没问题,查询hive表报错如下: [ERROR] Could not execute SQL statement. Reason: java.lang.ClassNotFoundException: org.apache.hadoop.mapred.JobConf 可是已经在启动sql-client.sh时通过-l参数导入了hadoop-mapreduce-client-core-3.2.2.jar包了,还是一样报错。 请问如何解决 -- kingdomad
flink cdc对接多主mysql集群要怎么配置
flink cdc对接多主的mysql集群会报错如下,请问要怎么配置。感谢各位大佬。 2021-06-16 16:26:46 ERROR [blc-centos7-01:3306] io.debezium.connector.mysql.BinlogReader:864 - Encountered change event 'Event{header=EventHeaderV4{timestamp=1623829662000, eventType=TABLE_MAP, serverId=2, headerLength=19, dataLength=97, nextPosition=51557, flags=0}, data=TableMapEventData{tableId=519, database='test3', table='order_main', columnTypes=8, 15, 15, 15, 3, 15, 15, 8, 15, 18, 3, 3, 3, 3, 15, 15, 3, 8, 18, 8, 18, 3, 15, 15, 3, 15, columnMetadata=0, 200, 80, 400, 0, 80, 256, 0, 400, 0, 0, 0, 0, 0, 400, 4000, 0, 0, 0, 0, 0, 0, 40, 1020, 0, 400, columnNullability={1, 2, 3, 5, 6, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25}, eventMetadata=TableMapEventMetadata{signedness={}, defaultCharset=255, charsetCollations=null, columnCharsets=null, columnNames=null, setStrValues=null, enumStrValues=null, geometryTypes=null, simplePrimaryKeys=null, primaryKeysWithPrefix=null, enumAndSetDefaultCharset=null, enumAndSetColumnCharsets=null}}}' at offset {ts_sec=1623829662, file=binlog.01, pos=51370, gtids=45ac41f5-69b4-11eb-ad27-000c298c2812:1-103,d93dfbb8-66bb-11eb-9a1e-000c29fb00ac:1-8, server_id=2, event=1} for table test3.order_main whose schema isn't known to this connector. One possible cause is an incomplete database history topic. Take a new snapshot in this case. Use the mysqlbinlog tool to view the problematic event: mysqlbinlog --start-position=51441 --stop-position=51557 --verbose binlog.01 2021-06-16 16:26:46 ERROR [blc-centos7-01:3306] io.debezium.connector.mysql.BinlogReader:1178 - Error during binlog processing. Last offset stored = null, binlog reader near position = binlog.01/51441 2021-06-16 16:26:46 ERROR [blc-centos7-01:3306] io.debezium.connector.mysql.BinlogReader:219 - Failed due to error: Error processing binlog event org.apache.kafka.connect.errors.ConnectException: Encountered change event for table test3.order_main whose schema isn't known to this connector at io.debezium.connector.mysql.AbstractReader.wrap(AbstractReader.java:241) ~[flink-connector-mysql-cdc-1.3.0.jar:1.3.0] at io.debezium.connector.mysql.AbstractReader.failed(AbstractReader.java:218) ~[flink-connector-mysql-cdc-1.3.0.jar:1.3.0] at io.debezium.connector.mysql.BinlogReader.handleEvent(BinlogReader.java:607) ~[flink-connector-mysql-cdc-1.3.0.jar:1.3.0] at com.github.shyiko.mysql.binlog.BinaryLogClient.notifyEventListeners(BinaryLogClient.java:1104) [flink-connector-mysql-cdc-1.3.0.jar:1.3.0] at com.github.shyiko.mysql.binlog.BinaryLogClient.listenForEventPackets(BinaryLogClient.java:955) [flink-connector-mysql-cdc-1.3.0.jar:1.3.0] at com.github.shyiko.mysql.binlog.BinaryLogClient.connect(BinaryLogClient.java:595) [flink-connector-mysql-cdc-1.3.0.jar:1.3.0] at com.github.shyiko.mysql.binlog.BinaryLogClient$7.run(BinaryLogClient.java:839) [flink-connector-mysql-cdc-1.3.0.jar:1.3.0] at java.lang.Thread.run(Thread.java:748) [?:1.8.0_271] Caused by: org.apache.kafka.connect.errors.ConnectException: Encountered change event for table test3.order_main whose schema isn't known to this connector at io.debezium.connector.mysql.BinlogReader.informAboutUnknownTableIfRequired(BinlogReader.java:875) ~[flink-connector-mysql-cdc-1.3.0.jar:1.3.0] at io.debezium.connector.mysql.BinlogReader.handleUpdateTableMetadata(BinlogReader.java:849) ~[flink-connector-mysql-cdc-1.3.0.jar:1.3.0] at io.debezium.connector.mysql.BinlogReader.handleEvent(BinlogReader.java:590) ~[flink-connector-mysql-cdc-1.3.0.jar:1.3.0] ... 5 more -- kingdomad
flink1.11 streaming和table混合使用提交到yarn会启动两个applicaion
消费kafka流,用tableEnv创建视图,再用tableEnv.executeSql执行insert语句写入hive表。 如果程序中出现了StreamExecutionEnvironment.execute,提交到yarn会启动两个applicaion。 如果把StreamExecutionEnvironment.execute注释掉,则只会有一个applicaion。 求助大佬们, 这是正常的吗? flink这是把table的逻辑放在一个application上,streaming的逻辑放在另一个application上吗? -- kingdomad
flink1.11 streaming和table混合使用提交到yarn会启动两个applicaion
消费kafka流,用tableEnv创建视图,再用tableEnv.executeSql执行insert语句写入hive表。 如果程序中出现了StreamExecutionEnvironment.execute,提交到yarn会启动两个applicaion。 如果把StreamExecutionEnvironment.execute注释掉,则只会有一个applicaion。 求助大佬们, 这是正常的吗? flink这是把table的逻辑放在一个application上,streaming的逻辑放在另一个application上吗? -- kingdomad
Re:回复:Re:Re: flink1.11.2写hive分区表,hive识别不到分区
是的。开启了checkpoint。 消费kafka,用tableEnv把stream注册成TemporaryView。 然后执行sql写入到hive的表中。 -- kingdomad 在 2020-12-23 09:22:48,"范瑞" <836961...@qq.com> 写道: >Hello > > >请问是使用 Sql吧?开启cp了吗? > > > >---原始邮件--- >发件人: "kingdomad"发送时间: 2020年12月23日(周三) 上午9:17 >收件人: "user-zh"主题: Re:Re: flink1.11.2写hive分区表,hive识别不到分区 > > >分区用的是记录中的字段,没有用到processing time或者event time去生成分区。 >发现只要给hive的表加上以下这三个属性就可以马上提交分区到metastore了。 >'sink.partition-commit.trigger'='process-time' >'sink.partition-commit.delay'='0s' >'sink.partition-commit.policy.kind'='metastore,success-file' > > > > > > > > > > > > > >-- > >kingdomad > > > > > > > >在 2020-12-21 23:27:49,"赵一旦" 即使不是flink写入,其他方式写入也需要这样做的哈。 > >r pp > 程序中,创建表后,执行命令。 > > kingdomad > > >flink1.11.2写hive3.12的分区表,flink新创建的分区数据hive无法识别,在hdfs上能看到写入了文件,但是hive读取不了分区。 > 需要执行msck repair table修复分区表后,hive才能读取到数据。 > 求助大佬,要如何解决。 > > > > > > > > > > > > > > > > > -- > > kingdomad > > >
Re:Re: flink1.11.2写hive分区表,hive识别不到分区
分区用的是记录中的字段,没有用到processing time或者event time去生成分区。 发现只要给hive的表加上以下这三个属性就可以马上提交分区到metastore了。 'sink.partition-commit.trigger'='process-time' 'sink.partition-commit.delay'='0s' 'sink.partition-commit.policy.kind'='metastore,success-file' -- kingdomad 在 2020-12-21 23:27:49,"赵一旦" 写道: >即使不是flink写入,其他方式写入也需要这样做的哈。 > >r pp 于2020年12月21日周一 下午9:28写道: > >> 程序中,创建表后,执行命令。 >> >> kingdomad 于2020年12月21日周一 下午4:55写道: >> >> > >> flink1.11.2写hive3.12的分区表,flink新创建的分区数据hive无法识别,在hdfs上能看到写入了文件,但是hive读取不了分区。 >> > 需要执行msck repair table修复分区表后,hive才能读取到数据。 >> > 求助大佬,要如何解决。 >> > >> > >> > >> > >> > >> > >> > >> > >> > >> > >> > >> > >> > >> > >> > >> > >> > -- >> > >> > kingdomad >> > >> > >>
flink1.11.2写hive分区表,hive识别不到分区
flink1.11.2写hive3.12的分区表,flink新创建的分区数据hive无法识别,在hdfs上能看到写入了文件,但是hive读取不了分区。 需要执行msck repair table修复分区表后,hive才能读取到数据。 求助大佬,要如何解决。 -- kingdomad
请教设置uid的最佳实践
请教大佬,使用savepoint的话最好是给每个算子设置一个唯一的uid吧? 那么问题就来了,我的程序里面算子太多了,每个都要设置一个uid吗? 那代码会相当冗余,给每个uid命名也是一个头疼的问题。比如下面的代码: val stream = env.addSource(...).uid(...) .filter(...).uid(...) .map(...).uid(...) .map(...).uid(...) .map(...).uid(...) .filter(...).uid(...) .map(...).uid(...) .filter(...).uid(...) .map(...).uid(...) .assignTimestampsAndWatermarks(...).uid(...) 请问该如何做比较好? -- kingdomad
Re:使用window function后checkpoint fail,报错Operation category WRITE is not supported in state standby
问题好像解决了。 使用flink-connector-kafka-0.10_2.12的FlinkKafkaConsumer010就会无法checkpoint,报这个错误, 换成flink-connector-kafka-2.12的FlinkKafkaConsumer就可以正常checkpoint,没报错。 CheckpointingMode是EXACTLY_ONCE或AT_LEAST_ONCE情况都相同。 尚不知何原因。 -- kingdomad 在 2020-11-18 17:19:29,"kingdomad" 写道: >flink 1.11.1消费kafka0.10.1.1,然后开窗口去重统计,时间是eventtime,窗口是1分钟。 >程序的结构大致如下: >kafkaStream.keyBy().window().aggregate(newAverageAggregate()); > > >flink on yarn, >程序能跑,但无法checkpoint,查看taskmanager的日志,发现报错如下。 >查看了下,那几个节点都是正常的running。如果去掉窗口统计的代码,直接print >kafkaStream,程序是可以正常checkpoint的。日志上也看不出其他问题,百思不得其解。求助各位大佬。 > > > > > > >2020-11-18 13:30:52,475 INFO org.apache.kafka.common.utils.AppInfoParser >[] - Kafka version : 0.10.2.2 > >2020-11-18 13:30:52,475 INFO org.apache.kafka.common.utils.AppInfoParser >[] - Kafka commitId : cd80bc412b9b9701 > >2020-11-18 13:31:09,668 INFO >org.apache.hadoop.io.retry.RetryInvocationHandler[] - >org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): >Operation category WRITE is not supported in state standby. Visit >https://s.apache.org/sbnn-error > >at >org.apache.hadoop.hdfs.server.namenode.ha.StandbyState.checkOperation(StandbyState.java:88) > >at >org.apache.hadoop.hdfs.server.namenode.NameNode$NameNodeHAContext.checkOperation(NameNode.java:1952) > >at >org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkOperation(FSNamesystem.java:1423) > >at >org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.create(NameNodeRpcServer.java:776) > >at >org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.create(ClientNamenodeProtocolServerSideTranslatorPB.java:475) > >at >org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java) > >at >org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:523) > >at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:991) > >at org.apache.hadoop.ipc.Server$RpcCall.run(Server.java:869) > >at org.apache.hadoop.ipc.Server$RpcCall.run(Server.java:815) > >at java.security.AccessController.doPrivileged(Native Method) > >at javax.security.auth.Subject.doAs(Subject.java:422) > >at >org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1685) > >at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2675) > >, while invoking ClientNamenodeProtocolTranslatorPB.create over xxx:8020 after >1 failover attempts. Trying to failover after sleeping for 864ms. > > > > > > > > > > > > > >-- > >kingdomad >
使用window function后checkpoint fail,报错Operation category WRITE is not supported in state standby
flink 1.11.1消费kafka0.10.1.1,然后开窗口去重统计,时间是eventtime,窗口是1分钟。 程序的结构大致如下: kafkaStream.keyBy().window().aggregate(newAverageAggregate()); flink on yarn, 程序能跑,但无法checkpoint,查看taskmanager的日志,发现报错如下。 查看了下,那几个节点都是正常的running。如果去掉窗口统计的代码,直接print kafkaStream,程序是可以正常checkpoint的。日志上也看不出其他问题,百思不得其解。求助各位大佬。 2020-11-18 13:30:52,475 INFO org.apache.kafka.common.utils.AppInfoParser [] - Kafka version : 0.10.2.2 2020-11-18 13:30:52,475 INFO org.apache.kafka.common.utils.AppInfoParser [] - Kafka commitId : cd80bc412b9b9701 2020-11-18 13:31:09,668 INFO org.apache.hadoop.io.retry.RetryInvocationHandler [] - org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category WRITE is not supported in state standby. Visit https://s.apache.org/sbnn-error at org.apache.hadoop.hdfs.server.namenode.ha.StandbyState.checkOperation(StandbyState.java:88) at org.apache.hadoop.hdfs.server.namenode.NameNode$NameNodeHAContext.checkOperation(NameNode.java:1952) at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkOperation(FSNamesystem.java:1423) at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.create(NameNodeRpcServer.java:776) at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.create(ClientNamenodeProtocolServerSideTranslatorPB.java:475) at org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java) at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:523) at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:991) at org.apache.hadoop.ipc.Server$RpcCall.run(Server.java:869) at org.apache.hadoop.ipc.Server$RpcCall.run(Server.java:815) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:422) at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1685) at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2675) , while invoking ClientNamenodeProtocolTranslatorPB.create over xxx:8020 after 1 failover attempts. Trying to failover after sleeping for 864ms. -- kingdomad
Re:Re:ByteArrayDeserializer is not an instance of org.apache.kafka.common.serialization.Deserializer
大佬牛逼! 我看了一下,集群上确实是存在了一个flink-sql-connector-kafka-0.10_2.12-1.11.1.jar的包。 请问下这个问题要如何解决 -- kingdomad 在 2020-11-17 17:08:10,"hailongwang" <18868816...@163.com> 写道: >从你的报错上看,你集群上应该是存在 shade 后的 kakfa 0.10 的版本,然后导致先加载到了这个下面的 kafka client 的类。 >Shade 后的 kakfa 0.10的版本 的 artifactId 为: >flink-sql-connector-kafka-0.10_${scala.binary.version} > >在 2020-11-17 15:47:08,"kingdomad" 写道: >>flink 1.11.1-2.12消费kafka0.10.1.1的时候报错。 >>在idea调试没报错,提交到yarn集群就报错了。求助。 >> >> >>使用的consumer如下: >>val logConsumer: FlinkKafkaConsumer010[String] = new >>FlinkKafkaConsumer010[String](topic, new SimpleStringSchema(), properties) >> >> >>pom文件导入的依赖如下: >> >>org.apache.flink >>flink-connector-kafka-0.10_2.12 >>1.11.1 >> >> >> >> >>报错如下: >> >>2020-11-17 16:39:37 >> >>org.apache.kafka.common.KafkaException: Failed to construct kafka consumer >> >>at >>org.apache.kafka.clients.consumer.KafkaConsumer.(KafkaConsumer.java:718) >> >>at >>org.apache.kafka.clients.consumer.KafkaConsumer.(KafkaConsumer.java:597) >> >>at >>org.apache.kafka.clients.consumer.KafkaConsumer.(KafkaConsumer.java:579) >> >>at >>org.apache.flink.streaming.connectors.kafka.internal.Kafka010PartitionDiscoverer.initializeConnections(Kafka010PartitionDiscoverer.java:58) >> >>at >>org.apache.flink.streaming.connectors.kafka.internals.AbstractPartitionDiscoverer.open(AbstractPartitionDiscoverer.java:94) >> >>at >>org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumerBase.open(FlinkKafkaConsumerBase.java:550) >> >>at >>org.apache.flink.api.common.functions.util.FunctionUtils.openFunction(FunctionUtils.java:36) >> >>at >>org.apache.flink.streaming.api.operators.AbstractUdfStreamOperator.open(AbstractUdfStreamOperator.java:102) >> >>at >>org.apache.flink.streaming.runtime.tasks.OperatorChain.initializeStateAndOpenOperators(OperatorChain.java:291) >> >>at >>org.apache.flink.streaming.runtime.tasks.StreamTask.lambda$beforeInvoke$0(StreamTask.java:473) >> >>at >>org.apache.flink.streaming.runtime.tasks.StreamTaskActionExecutor$SynchronizedStreamTaskActionExecutor.runThrowing(StreamTaskActionExecutor.java:92) >> >>at >>org.apache.flink.streaming.runtime.tasks.StreamTask.beforeInvoke(StreamTask.java:469) >> >>at >>org.apache.flink.streaming.runtime.tasks.StreamTask.invoke(StreamTask.java:522) >> >>at org.apache.flink.runtime.taskmanager.Task.doRun(Task.java:721) >> >>at org.apache.flink.runtime.taskmanager.Task.run(Task.java:546) >> >>at java.lang.Thread.run(Thread.java:745) >> >>Caused by: org.apache.kafka.common.KafkaException: >>org.apache.flink.kafka010.shaded.org.apache.kafka.common.serialization.ByteArrayDeserializer >> is not an instance of org.apache.kafka.common.serialization.Deserializer >> >>at >>org.apache.kafka.common.config.AbstractConfig.getConfiguredInstance(AbstractConfig.java:205) >> >>at >>org.apache.kafka.clients.consumer.KafkaConsumer.(KafkaConsumer.java:637) >> >>... 15 more >> >> >> >> >> >> >> >>-- >> >>kingdomad >>
ByteArrayDeserializer is not an instance of org.apache.kafka.common.serialization.Deserializer
flink 1.11.1-2.12消费kafka0.10.1.1的时候报错。 在idea调试没报错,提交到yarn集群就报错了。求助。 使用的consumer如下: val logConsumer: FlinkKafkaConsumer010[String] = new FlinkKafkaConsumer010[String](topic, new SimpleStringSchema(), properties) pom文件导入的依赖如下: org.apache.flink flink-connector-kafka-0.10_2.12 1.11.1 报错如下: 2020-11-17 16:39:37 org.apache.kafka.common.KafkaException: Failed to construct kafka consumer at org.apache.kafka.clients.consumer.KafkaConsumer.(KafkaConsumer.java:718) at org.apache.kafka.clients.consumer.KafkaConsumer.(KafkaConsumer.java:597) at org.apache.kafka.clients.consumer.KafkaConsumer.(KafkaConsumer.java:579) at org.apache.flink.streaming.connectors.kafka.internal.Kafka010PartitionDiscoverer.initializeConnections(Kafka010PartitionDiscoverer.java:58) at org.apache.flink.streaming.connectors.kafka.internals.AbstractPartitionDiscoverer.open(AbstractPartitionDiscoverer.java:94) at org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumerBase.open(FlinkKafkaConsumerBase.java:550) at org.apache.flink.api.common.functions.util.FunctionUtils.openFunction(FunctionUtils.java:36) at org.apache.flink.streaming.api.operators.AbstractUdfStreamOperator.open(AbstractUdfStreamOperator.java:102) at org.apache.flink.streaming.runtime.tasks.OperatorChain.initializeStateAndOpenOperators(OperatorChain.java:291) at org.apache.flink.streaming.runtime.tasks.StreamTask.lambda$beforeInvoke$0(StreamTask.java:473) at org.apache.flink.streaming.runtime.tasks.StreamTaskActionExecutor$SynchronizedStreamTaskActionExecutor.runThrowing(StreamTaskActionExecutor.java:92) at org.apache.flink.streaming.runtime.tasks.StreamTask.beforeInvoke(StreamTask.java:469) at org.apache.flink.streaming.runtime.tasks.StreamTask.invoke(StreamTask.java:522) at org.apache.flink.runtime.taskmanager.Task.doRun(Task.java:721) at org.apache.flink.runtime.taskmanager.Task.run(Task.java:546) at java.lang.Thread.run(Thread.java:745) Caused by: org.apache.kafka.common.KafkaException: org.apache.flink.kafka010.shaded.org.apache.kafka.common.serialization.ByteArrayDeserializer is not an instance of org.apache.kafka.common.serialization.Deserializer at org.apache.kafka.common.config.AbstractConfig.getConfiguredInstance(AbstractConfig.java:205) at org.apache.kafka.clients.consumer.KafkaConsumer.(KafkaConsumer.java:637) ... 15 more -- kingdomad
Re:Re: Re: Flink与Yarn的状态一致性问题
这个问题我也遇到过。 1.11版本,提交任务如果没加-d参数,flink程序挂掉了,但是yarn的application还一直是running状态,就相当于一个常驻的yarn session。 加上-d的话才能把flink程序和yarn application的生命周期捆绑到一起。 -- kingdomad 在 2020-11-13 11:16:02,"amen...@163.com" 写道: >>>>当然,在 FLINK 察觉自己 FAILED 到上报给 YARN 是有一定的时延的,也有可能因为网络等问题上报失败。 >按照这个说法,应当是偶发性行为,然而我一直等待Flink上报,大概几个小时过去了Yarn状态仍然处于Running.. > >>>>你这个是短暂的不一致时间窗口,还是说 FLINK 集群已经退了,YARN 的状态还没有变化呢? >这个话没有看懂,我的提交方式是./bin/flink run -m yarn-cluster xxx,Flink版本是1.11.1 > >昨天在社区邮件里发现了Flink-1.10以前可以通过-d参数解决Per-job模式下Flink web >ui状态为Failed的时候,实时反馈Failed状态给Yarn,从而解决Yarn仍为Running的问题, >也提到说Flink-1.10及以后的Per-job模式是YarnJobClusterEntrypoint,这个确实没错,但是我面临的问题仍然和Flink-1.10以前的问题一致, >就是Flink web ui观察任务已经Fail掉了,但Yarn application仍然在Running > >另外,发现Flink web ui观察任务如果是Finished的话,也会处于Running,这个算属于正常吗?(以上描述的作业都是Streaming >job) > >best, >amenhub > > > >发件人: tison >发送时间: 2020-11-13 11:01 >收件人: user-zh >主题: Re: Flink与Yarn的状态一致性问题 >PerJob 模式下,在作业完全挂掉之后,是会上报 YARN RM 应用自己失败的状态的。 > >当然,在 FLINK 察觉自己 FAILED 到上报给 YARN 是有一定的时延的,也有可能因为网络等问题上报失败。 > >你这个是短暂的不一致时间窗口,还是说 FLINK 集群已经退了,YARN 的状态还没有变化呢? > >Best, >tison. > > >zhisheng 于2020年11月12日周四 下午8:17写道: > >> 同遇见过这个问题,所以作业监控告警的时候一般都是拿作业所有的 task 级别的状态,而不是简单的 yarn 状态 >> >> hdxg1101300123 于2020年11月12日周四 下午8:07写道: >> >> > 可以设置检查点失败任务也失败 >> > >> > >> > >> > 发自vivo智能手机 >> > > hi everyone, >> > > >> > > 最近在使用Flink-1.11.1 On Yarn Per >> > Job模式提交简单的kafka->mysql任务时,发现当有脏数据或mysql主键限制等等原因导致Flink任务状态置为Failed时,Yarn >> > application仍处于运行状态 >> > > >> > > 疑问是Flink任务处于Failed或Finished时,不会反馈自身状态给Yarn吗?期待大佬解惑,谢谢 >> > > >> > > best, >> > > amenhub >>
Re:Re:1.11版本的yarn-session如何指定taskmanager数量
flink on yarn使用第一种方式yarn session,先创建一个yarn session,然后再提交job到这个session中。 您的意思是这个session所申请的资源会根据我后续提交的job的并发度去动态地无限地扩展? 如果我提交了一个并发度为10的job a到这个session,那这个session申请10个slot对应的资源, 我再提交一个并发度为10的job b到这个session,这个session再申请10个slot对应的资源? job需要多少并发度,session通通都向yarn去申请吗? -- kingdomad 在 2020-11-11 17:17:16,"hailongwang" <18868816...@163.com> 写道: >根据你 Job 的并发和指定的 TM 的规格来计算出 TM 的数量。 > > >在 2020-11-11 16:14:41,"kingdomad" 写道: >>我发现1.11版本的yarn-session.sh废弃了-n参数,那如何指定taskmanager数量? >> >> >> >> >> >> >> >> >> >> >> >> >> >>-- >> >>kingdomad >>
1.11版本的yarn-session如何指定taskmanager数量
我发现1.11版本的yarn-session.sh废弃了-n参数,那如何指定taskmanager数量? -- kingdomad