Re: flink1.11.2 yarn-session 部分类路径未加载

2021-06-01 文章 datayangl
启动是没有问题的,问题在于sql-client 使用yarn-session时会报错误。 /opt/flink-1.11.2/bin/sql-client.sh embedded -s yarn-session 启动sql-client之后执行hive数据查询报错,报错如下: [ERROR] Could not execute SQL statement. Reason: org.apache.flink.runtime.rest.util.RestClientException: [Internal server error., SinkConversionToRow -> Sink:

flink1.11.2 yarn-session 部分类路径未加载

2021-06-01 文章 datayangl
flink1.11.2 启动yarn-session之后发现,有部分类路径始终没有加载到class_path中去 环境变量配置如下: 其中tm的日志如下: tm.log 其中hadoop-mapreduce-client相关的类路径一直没有加载到class_path中,求指教

Re: 关于 flinksql 维表的问题

2021-05-25 文章 datayangl
我感觉楼主的意思 是mysql的数据源预加载后 定期重新拉取,和lookup join 还不太一样,如果loopup不能做到更新数据。 我理解对吗,各位? -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 集群重启如何保证带状态的任务自动从最近一个checkpoint恢复?

2021-05-25 文章 datayangl
FixedDelaStrategy 默认是从最近一个ck 恢复,其他的策略可以看官网。如果你是想问怎么实现的,不建议在邮件列表里问实现原理的问题。可以google找相关文章、相关flip 或者 直接debug源码。 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Table-api sql 预检查

2021-04-29 文章 datayangl
flink的解析阶段主要是FlinkParserImpl(通过jj 和fftl文件编译产生),主要是语法解析,但是验证阶段,会涉及到catalog的一些验证(参考CatalogReader)。目前我记得没有开放的接口能在外部把解析和验证都做了。 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink 背压问题

2021-04-29 文章 datayangl
背压只是负责调节数据传输的大小,不会导致数据丢失。计算公式主要是通过计算上下游的允许发送的数据量(backlog)除以申请的buffer大小。 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink1.11执行sql当判空使用<> null,程序直接结束

2021-03-19 文章 datayangl
calcite解析将<> null 解析为unknown, 在flink优化阶段直接将unkown这个条件默认视为false,通过规则匹配 将整条sql优化为values(没有任何结果的sql),于是直接将程序的source task finish了。这个过程我理解的对吗? -- Sent from: http://apache-flink.147419.n8.nabble.com/

Flink1.11执行sql当判空使用<> null,程序直接结束

2021-03-19 文章 datayangl
环境:flink1.11: 代码如下: val dataStreamEnv: StreamExecutionEnvironment = FlinkUtils.streamEnv val tableEnv: StreamTableEnvironment = FlinkUtils.streamTableEnv val sql = """SELECT CASE WHEN kafka_table.log_type = 'detect' AND kafka_table.event_level = 3

flink on yarn任务的唯一性id问题

2021-02-18 文章 datayangl
目前使用flink1.11进行数据的etl工作,使用snowflake算法生成唯一性id,一个taskmanager有4个slot,etl任务并行度设为16,假设在单机节点上,那么实际运行的任务会运行4个yarn container,由于同一台机器上的雪花算法有相同的时钟和机器id,因此有机率会出现重复id。请问,1.雪花算法怎么应用到单节点多container的场景且不重复 2.还有什么唯一性id的算法(除了UUID) -- Sent from: http://apache-flink.147419.n8.nabble.com/

flink1.11使用createStatementSet报错 No operators defined in streaming topology

2021-01-14 文章 datayangl
flink版本: 1.11 使用createStatementSet 在一个人任务中完成多个数据从hive写入不同的kafka 代码如下: def main(args: Array[String]): Unit = { FlinkUtils.initTable() val tableEnv: StreamTableEnvironment = FlinkUtils.tableEnv val streamEnv: StreamExecutionEnvironment = FlinkUtils.streamEnv streamEnv.disableOperato

Re: yarn.provided.lib.dirs在flink1.11 yarn提交不生效

2020-12-24 文章 datayangl
用-D 还是加载不了,难道yarn.provided.lib.dirs只有application mode支持??? 我看阿里云有yarn-cluster的例子: https://developer.aliyun.com/article/762501?spm=a2c6h.12873639.0.0.14ac3a9eM6GNSi 目前可以用-C加载本地自定义函数jar,但是需要所有节点都有指定的jar,但是这不是我想要的效

Re: yarn application模式提交任务失败

2020-12-22 文章 datayangl
那如果是yarn模式该怎么使用这个参数呢 -yD? -- Sent from: http://apache-flink.147419.n8.nabble.com/

yarn.provided.lib.dirs在flink1.11 yarn提交不生效

2020-12-22 文章 datayangl
flink1.11 on yarn模式,我提前将flink lib下的依赖及自定义函数jar上传到hdfs上,提交时使用yarn.provided.lib.dirs 指定hdfs的依赖路径。原本设想程序中使用反射去寻找自定义函数的类并且实例化,但是提交时报错,程序并没有找到自定义函数的路径 提交命令:/usr/hdp/flink1.11/bin/flink run -m yarn-cluster -d -ynm udf-test -yD yarn.provided.lib.dirs=hdfs://ip:8020/flink-yarn/jars -c com.ly.common.udf