回复:flink-1.12 注册udf问题

2020-12-25 文章 kcz
是使用时候没有匹配参数个数问题,已经解决。 -- 原始邮件 -- 发件人: kcz <573693...@qq.com 发送时间: 2020年12月26日 15:24 收件人: user-zh

flink-1.12 注册udf问题

2020-12-25 文章 kcz
使用了 createTemporarySystemFunctiom来注册udf,使用时候no.match.found.for.function,目前是手机,不太方便粘贴更多信息。

flink12同时使用flink-connector-kafka和flink-sql-connector-kafka会引发类冲突问题

2020-12-25 文章 site
在yarn中部署streaming程序,maven使用依赖 org.apache.flink flink-connector-kafka-2.2_2.11 1.12.0 在flink的lib目录中有flink-sql-connector-kafka_2.11-1.12.0.jar,因为类冲突问题会引起在yarn中程序部署失败,flink默认类加载机制child-first,改为parent-first也样,类冲突问题可以参考http://apache-flink.147419.n8.nabble.com/Kafka-Consumer-td3475.html

请教flink的处理性能,关于cpu的

2020-12-25 文章 x2009438
 想请教大佬们一下。谢谢! 我有一个处理逻辑很简单的job,从kafka消费数据,分组后(分组个数不大,大约2-3万个key)按分钟累加后统计10多个指标的均值,用的是aggregate function,结果最后写入kafka。数据量大约6-8W/s,job总体并行度设为10,目前启动3个yarn container作为tm每个2G内存,机器均为8C32G的虚机,每台上一个tm进程,目前观察到内存占用低,但%cpu会到200%多。 我是不是可以理解为我这个job总的需要占用

Re: Flink 操作hive 一些疑问

2020-12-25 文章 Rui Li
不太确定是不是能整合到一个job里,你可以试试看用StatementSet能否实现,比如添加两条INSERT语句,一条是写入hive,一条是从hive里查询数据把结果写到其他的表。 On Thu, Dec 24, 2020 at 4:35 PM Jacob <17691150...@163.com> wrote: > Hi, > > 谢谢回复 > > 对,也可以这样理解,总体分为两部分,先处理流消息,每隔15min写进hive表。然后再做mapreduce处理上步15min的数据。 > > 目前的现状是: > 第一步用flink处理,第二步是一个定时job去处理上一步的数据。 > >

Re: Flink catalog+hive问题

2020-12-25 文章 Rui Li
Hi, 你贴的是HDFS的权限控制,那应该就是基于storage的了。可以在HMS端开启验证,这样HiveCatalog去连接HMS的时候会生效。开启方式参考官网: https://cwiki.apache.org/confluence/display/Hive/Storage+Based+Authorization+in+the+Metastore+Server On Thu, Dec 24, 2020 at 2:14 PM 19916726683 <19916726...@163.com> wrote: > 可以参考下这个 > >

求问为什么KafkaDynamicSource 在批模式下不能运行

2020-12-25 文章 wxpcc
kafka在我们这边场景上除了用来存放实时流式数据,还会用作临时大数据量的存储,主要用于: 1. 数据同步时,将全量数据同步到一个临时的kafka中,增量数据持续性同步到kafka中,目前我们都使用流模式消费其中的数据,就会有手动停止,或者借助指标等自动停止流式任务 2. 数据恢复时 3. 临时查看某个时间区间的数据 如果批模式 sql能够完成这些事情的话那该多好 -- Sent from: http://apache-flink.147419.n8.nabble.com/

关于iterative Job的检查点问题

2020-12-25 文章 赵一旦
如下 Exception in thread "main" java.lang.UnsupportedOperationException: Checkpointing is currently not supported by default for iterative jobs, as we cannot guarantee exactly once semantics. State checkpoints happen normally, but records in-transit during the snapshot will be lost upon failure. The

Can flink kafka producer dynamically discover new parititons after expansion??

2020-12-25 文章 ??????????
hi??I have a source Kafka and a sink Kafka??when the amount of data processing grows??I need to expand Kafka topic's partition number ,but I don't want to restart the job to take effect. for source Kafka, I use flink.partition-discovery.interval-millis and it could consume the new parititon

Can flink kafka producer dynamically discover new parititons after expansion??

2020-12-25 文章 ??????????
hi??I have a source Kafka and a sink Kafka??when the amount of data processing grows??I need to expand Kafka topic's partition number ,but I don't want to restart the job to take effect. for source Kafka, I use flink.partition-discovery.interval-millis and it could consume the new parititon

Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大

2020-12-25 文章 Storm☀️
在测试环境: 关闭增量chk,全量的state大小大约在:100M左右; 之前开启:我观察了一段时间,膨胀到5G,而且还一直在增长; sql: select sum(xx) group by 1 分钟窗口 过期时间设置的为:5-30min -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink TaskManager失败的日志关键词

2020-12-25 文章 r pp
嗨~ 从flink 的启动 sh 文件里面可以看到,启动java 虚拟机的时候,就设置好 日志文件名了。改了名字,这次的JOB https://github.com/apache/flink/pull/11839/files FLINK_LOG_PREFIX="${FLINK_LOG_DIR}/flink-${FLINK_IDENT_STRING}-${SERVICE}- ${id}-${HOSTNAME}" log="${FLINK_LOG_PREFIX}.log" log_setting=("-Dlog.file=${log}"

Re: Flink-1.11.1流写filesystem分区提交问题

2020-12-25 文章 zhuxiaoshang
Hi, 文件数是和并发有关的,一个并发一次至少写一个文件,还和文件滚动大小有关。 > 2020年12月25日 下午2:10,amen...@163.com 写道: > > 想请问下,写filesystem的时候依赖checkpoint进行commit,那么做完一次checkpoint的时候可提交的文件数是由并行度parallelism数决定的吗?我发现我的文件提交数都是3个3个的当每次chk结束后。 > > > > > 发件人: amen...@163.com > 发送时间: 2020-12-24 18:47 > 收件人: user-zh > 主题: Re: Re:

Re: Flink TaskManager失败的日志关键词

2020-12-25 文章 zhuxiaoshang
Hi, 一般搜索Exception、Error、Fail之类的吧,如果是TM因为内存超用被kill的话 可以搜索container、kill之类的关键字 > 2020年12月25日 下午1:43,赵一旦 写道: > > 如题,有人知道关键词吗,每次失败日志太多哦。 > 显示各种task的cancel等。 > 最后突然就失败了。。。 > > 目前感觉经常是因为cancel(180s)。导致Task did not exit gracefully within 180 + seconds。 > > >

checkpoint持久化问题

2020-12-25 文章 chen310
问题: flink sql中设置了job挂掉后checkpoint保留 execution.checkpointing.externalized-checkpoint-retention RETAIN_ON_CANCELLATION 并且配置了checkpoint保存到hdfs上 state.backend rocksdb #增量checkpoint #state.backend.incremental true state.checkpoints.dir hdfs:///tmp/flink/checkpoint