是使用时候没有匹配参数个数问题,已经解决。
-- 原始邮件 --
发件人: kcz <573693...@qq.com
发送时间: 2020年12月26日 15:24
收件人: user-zh
使用了
createTemporarySystemFunctiom来注册udf,使用时候no.match.found.for.function,目前是手机,不太方便粘贴更多信息。
在yarn中部署streaming程序,maven使用依赖
org.apache.flink
flink-connector-kafka-2.2_2.11
1.12.0
在flink的lib目录中有flink-sql-connector-kafka_2.11-1.12.0.jar,因为类冲突问题会引起在yarn中程序部署失败,flink默认类加载机制child-first,改为parent-first也样,类冲突问题可以参考http://apache-flink.147419.n8.nabble.com/Kafka-Consumer-td3475.html
想请教大佬们一下。谢谢!
我有一个处理逻辑很简单的job,从kafka消费数据,分组后(分组个数不大,大约2-3万个key)按分钟累加后统计10多个指标的均值,用的是aggregate
function,结果最后写入kafka。数据量大约6-8W/s,job总体并行度设为10,目前启动3个yarn
container作为tm每个2G内存,机器均为8C32G的虚机,每台上一个tm进程,目前观察到内存占用低,但%cpu会到200%多。
我是不是可以理解为我这个job总的需要占用
不太确定是不是能整合到一个job里,你可以试试看用StatementSet能否实现,比如添加两条INSERT语句,一条是写入hive,一条是从hive里查询数据把结果写到其他的表。
On Thu, Dec 24, 2020 at 4:35 PM Jacob <17691150...@163.com> wrote:
> Hi,
>
> 谢谢回复
>
> 对,也可以这样理解,总体分为两部分,先处理流消息,每隔15min写进hive表。然后再做mapreduce处理上步15min的数据。
>
> 目前的现状是:
> 第一步用flink处理,第二步是一个定时job去处理上一步的数据。
>
>
Hi,
你贴的是HDFS的权限控制,那应该就是基于storage的了。可以在HMS端开启验证,这样HiveCatalog去连接HMS的时候会生效。开启方式参考官网:
https://cwiki.apache.org/confluence/display/Hive/Storage+Based+Authorization+in+the+Metastore+Server
On Thu, Dec 24, 2020 at 2:14 PM 19916726683 <19916726...@163.com> wrote:
> 可以参考下这个
>
>
kafka在我们这边场景上除了用来存放实时流式数据,还会用作临时大数据量的存储,主要用于:
1.
数据同步时,将全量数据同步到一个临时的kafka中,增量数据持续性同步到kafka中,目前我们都使用流模式消费其中的数据,就会有手动停止,或者借助指标等自动停止流式任务
2. 数据恢复时
3. 临时查看某个时间区间的数据
如果批模式 sql能够完成这些事情的话那该多好
--
Sent from: http://apache-flink.147419.n8.nabble.com/
如下
Exception in thread "main" java.lang.UnsupportedOperationException:
Checkpointing is currently not supported by default for iterative jobs, as
we cannot guarantee exactly once semantics. State checkpoints happen
normally, but records in-transit during the snapshot will be lost upon
failure.
The
hi??I have a source Kafka and a sink Kafka??when the amount of data processing
grows??I need to expand Kafka topic's partition number ,but I don't want
to restart the job to take effect.
for source Kafka, I use flink.partition-discovery.interval-millis and it could
consume the new parititon
hi??I have a source Kafka and a sink Kafka??when the amount of data processing
grows??I need to expand Kafka topic's partition number ,but I don't want
to restart the job to take effect.
for source Kafka, I use flink.partition-discovery.interval-millis and it could
consume the new parititon
在测试环境:
关闭增量chk,全量的state大小大约在:100M左右;
之前开启:我观察了一段时间,膨胀到5G,而且还一直在增长;
sql:
select sum(xx) group by 1 分钟窗口
过期时间设置的为:5-30min
--
Sent from: http://apache-flink.147419.n8.nabble.com/
嗨~ 从flink 的启动 sh 文件里面可以看到,启动java 虚拟机的时候,就设置好 日志文件名了。改了名字,这次的JOB
https://github.com/apache/flink/pull/11839/files
FLINK_LOG_PREFIX="${FLINK_LOG_DIR}/flink-${FLINK_IDENT_STRING}-${SERVICE}-
${id}-${HOSTNAME}"
log="${FLINK_LOG_PREFIX}.log"
log_setting=("-Dlog.file=${log}"
Hi,
文件数是和并发有关的,一个并发一次至少写一个文件,还和文件滚动大小有关。
> 2020年12月25日 下午2:10,amen...@163.com 写道:
>
> 想请问下,写filesystem的时候依赖checkpoint进行commit,那么做完一次checkpoint的时候可提交的文件数是由并行度parallelism数决定的吗?我发现我的文件提交数都是3个3个的当每次chk结束后。
>
>
>
>
> 发件人: amen...@163.com
> 发送时间: 2020-12-24 18:47
> 收件人: user-zh
> 主题: Re: Re:
Hi,
一般搜索Exception、Error、Fail之类的吧,如果是TM因为内存超用被kill的话 可以搜索container、kill之类的关键字
> 2020年12月25日 下午1:43,赵一旦 写道:
>
> 如题,有人知道关键词吗,每次失败日志太多哦。
> 显示各种task的cancel等。
> 最后突然就失败了。。。
>
> 目前感觉经常是因为cancel(180s)。导致Task did not exit gracefully within 180 + seconds。
>
>
>
问题:
flink sql中设置了job挂掉后checkpoint保留
execution.checkpointing.externalized-checkpoint-retention
RETAIN_ON_CANCELLATION
并且配置了checkpoint保存到hdfs上
state.backend rocksdb
#增量checkpoint
#state.backend.incremental true
state.checkpoints.dir hdfs:///tmp/flink/checkpoint
15 matches
Mail list logo