date:20201225

回复：flink-1.12 注册udf问题

2020-12-25 文章 kcz

是使用时候没有匹配参数个数问题，已经解决。 -- 原始邮件 -- 发件人: kcz <573693...@qq.com> 发送时间: 2020年12月26日 15:24 收件人: user-zh

flink-1.12 注册udf问题

2020-12-25 文章 kcz

使用了 createTemporarySystemFunctiom来注册udf，使用时候no.match.found.for.function，目前是手机，不太方便粘贴更多信息。

flink12同时使用flink-connector-kafka和flink-sql-connector-kafka会引发类冲突问题

2020-12-25 文章 site

在yarn中部署streaming程序，maven使用依赖 org.apache.flink flink-connector-kafka-2.2_2.11 1.12.0 在flink的lib目录中有flink-sql-connector-kafka_2.11-1.12.0.jar，因为类冲突问题会引起在yarn中程序部署失败，flink默认类加载机制child-first，改为parent-first也样，类冲突问题可以参考http://apache-flink.147419.n8.nabble.com/Kafka-Consumer-td3475.html org.apache.kafk

请教flink的处理性能，关于cpu的

2020-12-25 文章 x2009438

想请教大佬们一下。谢谢！我有一个处理逻辑很简单的job，从kafka消费数据，分组后（分组个数不大，大约2-3万个key）按分钟累加后统计10多个指标的均值，用的是aggregate function，结果最后写入kafka。数据量大约6-8W/s，job总体并行度设为10，目前启动3个yarn container作为tm每个2G内存，机器均为8C32G的虚机，每台上一个tm进程，目前观察到内存占用低，但%cpu会到200%多。我是不是可以理解为我这个job总的需要占用 6-7个cpu核的资源，也就是说1C的性能，flink处理的数据大概在1W/s。这样的性能算是正常吗？还是

Re: Flink 操作hive 一些疑问

2020-12-25 文章 Rui Li

不太确定是不是能整合到一个job里，你可以试试看用StatementSet能否实现，比如添加两条INSERT语句，一条是写入hive，一条是从hive里查询数据把结果写到其他的表。 On Thu, Dec 24, 2020 at 4:35 PM Jacob <17691150...@163.com> wrote: > Hi, > > 谢谢回复 > > 对，也可以这样理解，总体分为两部分，先处理流消息，每隔15min写进hive表。然后再做mapreduce处理上步15min的数据。 > > 目前的现状是： > 第一步用flink处理，第二步是一个定时job去处理上一步的数据。 > > 改

Re: Flink catalog+hive问题

2020-12-25 文章 Rui Li

Hi，你贴的是HDFS的权限控制，那应该就是基于storage的了。可以在HMS端开启验证，这样HiveCatalog去连接HMS的时候会生效。开启方式参考官网： https://cwiki.apache.org/confluence/display/Hive/Storage+Based+Authorization+in+the+Metastore+Server On Thu, Dec 24, 2020 at 2:14 PM 19916726683 <19916726...@163.com> wrote: > 可以参考下这个 > > https://hadoop.apache.org

求问为什么KafkaDynamicSource 在批模式下不能运行

2020-12-25 文章 wxpcc

kafka在我们这边场景上除了用来存放实时流式数据，还会用作临时大数据量的存储，主要用于： 1. 数据同步时，将全量数据同步到一个临时的kafka中，增量数据持续性同步到kafka中，目前我们都使用流模式消费其中的数据，就会有手动停止，或者借助指标等自动停止流式任务 2. 数据恢复时 3. 临时查看某个时间区间的数据如果批模式 sql能够完成这些事情的话那该多好 -- Sent from: http://apache-flink.147419.n8.nabble.com/

关于iterative Job的检查点问题

2020-12-25 文章赵一旦

如下 Exception in thread "main" java.lang.UnsupportedOperationException: Checkpointing is currently not supported by default for iterative jobs, as we cannot guarantee exactly once semantics. State checkpoints happen normally, but records in-transit during the snapshot will be lost upon failure. The

Can flink kafka producer dynamically discover new parititons after expansion??

2020-12-25 文章 ??????????

hi??I have a source Kafka and a sink Kafka??when the amount of data processing grows??I need to expand Kafka topic's partition number ,but I don't want to restart the job to take effect. for source Kafka, I use flink.partition-discovery.interval-millis and it could consume the new parititon aft

Can flink kafka producer dynamically discover new parititons after expansion??

2020-12-25 文章 ??????????

hi??I have a source Kafka and a sink Kafka??when the amount of data processing grows??I need to expand Kafka topic's partition number ,but I don't want to restart the job to take effect. for source Kafka, I use flink.partition-discovery.interval-millis and it could consume the new parititon aft

Re: flink1.10.1/1.11.1 使用sql 进行group 和时间窗口操作后状态越来越大

2020-12-25 文章 Storm☀️

在测试环境：关闭增量chk,全量的state大小大约在：100M左右；之前开启：我观察了一段时间，膨胀到5G，而且还一直在增长； sql： select sum(xx) group by 1 分钟窗口过期时间设置的为：5-30min -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re:Re: Flink读取kafka没有报错也没有数据输出，Kafka消费端有数据，谢谢

2020-12-25 文章 Appleyuchi

解决了,谢谢在 2020-12-25 14:48:57，"Leonard Xu" 写道： >Hi, > >> 因为听说executeSql会提交任务，所以把最后一句execute给注销了。 > > >> val result: Table = tEnv.sqlQuery(query) >> tEnv.toRetractStream[Row](result).print() >> //tEnv.execute("Flink SQL DDL") > >DataStream程序的执行和Table/SQL程序的执行是解耦的，已经通过 tEnv.toRe

Re: Flink TaskManager失败的日志关键词

2020-12-25 文章 r pp

嗨~ 从flink 的启动 sh 文件里面可以看到，启动java 虚拟机的时候，就设置好日志文件名了。改了名字，这次的JOB https://github.com/apache/flink/pull/11839/files FLINK_LOG_PREFIX="${FLINK_LOG_DIR}/flink-${FLINK_IDENT_STRING}-${SERVICE}- ${id}-${HOSTNAME}" log="${FLINK_LOG_PREFIX}.log" log_setting=("-Dlog.file=${log}" "-Dlog4j.configuration=fi

Re: Flink-1.11.1流写filesystem分区提交问题

2020-12-25 文章 zhuxiaoshang

Hi, 文件数是和并发有关的，一个并发一次至少写一个文件，还和文件滚动大小有关。 > 2020年12月25日下午2:10，amen...@163.com 写道： > > 想请问下，写filesystem的时候依赖checkpoint进行commit，那么做完一次checkpoint的时候可提交的文件数是由并行度parallelism数决定的吗？我发现我的文件提交数都是3个3个的当每次chk结束后。 > > > > > 发件人： amen...@163.com > 发送时间： 2020-12-24 18:47 > 收件人： user-zh > 主题： Re: Re: Fli

Re: Flink TaskManager失败的日志关键词

2020-12-25 文章 zhuxiaoshang

Hi, 一般搜索Exception、Error、Fail之类的吧，如果是TM因为内存超用被kill的话可以搜索container、kill之类的关键字 > 2020年12月25日下午1:43，赵一旦写道： > > 如题，有人知道关键词吗，每次失败日志太多哦。 > 显示各种task的cancel等。 > 最后突然就失败了。。。 > > 目前感觉经常是因为cancel（180s）。导致Task did not exit gracefully within 180 + seconds。 > > > 此外，大家生产中会修改日志格式和日志文件吗。我调整了之后WEB-UI上那个日志从来

checkpoint持久化问题

2020-12-25 文章 chen310

问题： flink sql中设置了job挂掉后checkpoint保留 execution.checkpointing.externalized-checkpoint-retention RETAIN_ON_CANCELLATION 并且配置了checkpoint保存到hdfs上 state.backend rocksdb #增量checkpoint #state.backend.incremental true state.checkpoints.dir hdfs:///tmp/flink/checkpoint flink实际也做了checkpoint，但是用这个路径去hdfs上

回复：flink-1.12 注册udf问题

flink-1.12 注册udf问题

flink12同时使用flink-connector-kafka和flink-sql-connector-kafka会引发类冲突问题

请教flink的处理性能，关于cpu的

Re: Flink 操作hive 一些疑问

Re: Flink catalog+hive问题

求问为什么KafkaDynamicSource 在批模式下不能运行

关于iterative Job的检查点问题

Can flink kafka producer dynamically discover new parititons after expansion??

Can flink kafka producer dynamically discover new parititons after expansion??

Re: flink1.10.1/1.11.1 使用sql 进行group 和时间窗口操作后状态越来越大

Re:Re: Flink读取kafka没有报错也没有数据输出，Kafka消费端有数据，谢谢

Re: Flink TaskManager失败的日志关键词

Re: Flink-1.11.1流写filesystem分区提交问题

Re: Flink TaskManager失败的日志关键词

checkpoint持久化问题

16 matches

Site Navigation

Mail list logo

Footer information