start-cluster.sh??
[root@node01 bin]# stop-cluster.sh
No taskexecutor daemon (pid: 11978) is running anymore on node01.
No taskexecutor daemon (pid: 5885) is running anymore on node02.
No taskexecutor daemon (pid: 4529) is running anymore on node03.
No standalonesession daemon (pid:
cluster ??
start-cluster.sh??cluster stop-cluster.sh?? ??
start-cluster.sh
??2020??05??27?? 13:39??smq<374060...@qq.com> ??
hi
??.??
[root@node01 bin]# start-cluster.sh
Starting HA cluster
我通过Group By + LAST_VALUE实现了部分字段的更新,DML如下:
insert into
es_sink
select
id
,LAST_VALUE(`update_column`) AS update_column
from
my_source
group by id;
naturalfree 于2020年5月27日周三 下午1:07写道:
>
> Hi, Leonard xu
>
> 谢谢你的回复
>
hi
??.??
[root@node01 bin]# start-cluster.sh
Starting HA cluster with 2 masters.
[INFO] 5 instance(s) of standalonesession are already running on node01.
Starting standalonesession daemon on host node01.
[INFO] 1 instance(s) of standalonesession are already
hi,yang
使用的镜像是docker hub提供的1.10.1版本镜像。因此解法是
1. 等待1.11版本
2. 自行构建flink 1.10.1版本镜像,降低jdk版本?
Looking forward to your reply and help.
Best
| |
a511955993
|
|
邮箱:a511955...@163.com
|
签名由 网易邮箱大师 定制
在2020年05月27日 13:25,Yang Wang 写道:
"Broken pipe" 这个是fabric8的kubernetes-client的一个bug
你镜像的jdk版本是java
"Broken pipe" 这个是fabric8的kubernetes-client的一个bug
你镜像的jdk版本是java 8u252吧,目前Flink on K8s不能和java 8u252一起工作,
解法是使用8u252以下的jdk版本或者升级到jdk11
在Flink 1.11里面会升级fabric8的kubernetes client依赖到最新版本来解决
Best,
Yang
于2020年5月27日周三 下午12:52写道:
>
> 根据文档[1]进行配置,可以看到具体日志信息,启动指令如下:
>
>
Hi, Leonard xu
谢谢你的回复
connector当前是支持两种模式的。但是更新的时候,select的字段数量必须等于es索引的全部字段。我这边想要根据主键更新索引的部分字段
| |
naturalfree
|
|
邮箱:naturalf...@126.com
|
签名由 网易邮箱大师 定制
在2020年05月22日 23:29,Leonard Xu 写道:
Hi,naturalfree
Flink SQL 里es sink 是支持Append mode和upsert mode的[1],upsert mode下支持按主键更新的,你可以看看。
Best,
根据文档[1]进行配置,可以看到具体日志信息,启动指令如下:
/usr/local/flink/flink-1.10.1/bin/kubernetes-session.sh \
-Dkubernetes.cluster-id=ipcode \
-Dkubernetes.jobmanager.service-account=flink \
-Dtaskmanager.memory.process.size=4096m \
-Dkubernetes.taskmanager.cpu=2 \
Hi,
很高兴尝试native K8s,默认情况下Pod的log是没有输出到console的,所以
会导致kubectl logs查看不了,可以参考这个文档[1]进行配置,然后看到具体报错。
当然,需要首先确认的是service、deployment、ConfigMap已经创建成功,如果失败
的话,Flink client端应该会有报错信息的
[1].
https://ci.apache.org/projects/flink/flink-docs-master/ops/deployment/native_kubernetes.html#log-files
Best,
Yang
Flink version: 1.10.0
Flink sql read hive partition key failed,flink sql 是不是不支持hive 分区键
code:
val settings =
EnvironmentSettings.newInstance().useBlinkPlanner().inBatchMode().build()
val tableEnv = TableEnvironment.create(settings)
val hiveConfDir = "/etc/hive/conf" // a local
Hi
我想到一个方案,你可以参考一下
源数据:
id:1,name:A,value:A1, time: t1
id:2,name:A,value:A2, time: t2
id:1,name:B,value:A3, time: t3
经过flatMap后:
id-name: 1-A, key: 1, value: A1, time: t1
id-name: 1-A, key: A, value: A1, time:t1
id-name: 2-B, key: 2, value: A2, time: t2
id-name:
在两个kubernetes版本下进行一样的操作,结果如下:
v1.17.4 失败
v1.15.1 成功
步骤如下:
创建rbac
rbac.yaml
apiVersion: v1
kind: ServiceAccount
metadata:
name: flink
namespace: flink
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
name: flink-role-binding
roleRef:
apiGroup:
我理解是可以的。你可以添加多个catalog,在SQL里面引用表的时候用catalog_name.database_name.table_name的方式来引用就可以了吧。
Zhou Zach 于2020年5月27日周三 上午10:56写道:
> hi all,
> Flink sql 的HiveCatalog 是不是不能跨库操作啊,就是一个flink
> sql中join的两个表涉及到两个不同到库,因为一个HiveCatalog只能关联一个库
--
Best,
Benchao Li
hi all,
Flink sql 的HiveCatalog 是不是不能跨库操作啊,就是一个flink
sql中join的两个表涉及到两个不同到库,因为一个HiveCatalog只能关联一个库
而且你的SQL里面有一部分是会产生retract的:
这里用的是regular left join,这种join类型是会产生retract结果的。
| FROM (
|SELECT `database`, `table`,
`transaction_type`, `transaction_id`,
|`merchant_id`, `event_time`, `status`,
`reference_id`
Hi,
你这个去重写法不太对,可以参考下官方文档的写法[1]
[1]
https://ci.apache.org/projects/flink/flink-docs-master/dev/table/sql/queries.html#deduplication
macia kk 于2020年5月27日周三 上午1:20写道:
> Hi,各位大佬,谁有空帮我看下这个问题
>
> Source: Kafka
> SinkL Kafka
>
> 主要逻辑是 *main_table* left join *merchatn_table* 以后,使用 FIRST_VALUE 函数取第一条
checkpoint,??,idea,webui,,webui??
----
??:"tison"
你这个程序看起来不能通过 Web UI 提交。Flink 依赖内部异常在 Web UI 提交的路径里做编译。你这直接 Catch 了是拿不到作业图的。
你这个作业真的起来了吗?
具体提交的操作怎么样的,除了你要的 taskmanager.out 没有,有啥?
Best,
tison.
smq <374060...@qq.com> 于2020年5月27日周三 上午7:34写道:
> FlinkKafkaConsumer011 FlinkKafkaConsumer011<(topic, new SimpleStringSchema(), properties);
>
FlinkKafkaConsumer011
Hi,各位大佬,谁有空帮我看下这个问题
Source: Kafka
SinkL Kafka
主要逻辑是 *main_table* left join *merchatn_table* 以后,使用 FIRST_VALUE 函数取第一条
transaction_id,我这个模式应该是 append 模式,但是结果好像不是
Error
org.apache.flink.client.program.ProgramInvocationException: The main
method caused an error: AppendStreamTableSink requires
感谢您的回复,通过keyby细节实现有点难.
id:1,name:A,value:A1
id:2,name:A,value:A2
id:1,name:B,value:A3
以上三条记录,第一条最先到达,后面两条到达后发现id或者name和第一条的id或者name一致value就取第一条的值。
输出:
id:1,name:A,value:A1
id:2,name:A,value:A1
id:1,name:B,value:A1
原来的想法是存一个map,map的key是id或者name,value是对应的value值;例如上面例子对应的mapstate对应的k,v:
hi
你的意思是说两条数据
第一条的id等于第二条的id
或者
第一条的name等于第二条的name
则映射成同一个
keyby的方式我不知道能不能满足你的需求
但我理解如果id和name不是随机的话,有映射关系的话可以尝试了解广播
-- 原始邮件 --
发件人: tison
hi
systemout是会打到标准输出的,也就对应webui里面的taskmanager的stdout输出的
如果是slog4j之类的日志工具,是在webui里面的taskmanager的log中输出的
还需要注意日志是在代码哪个地方写的
这样可以判断是在jobmanager打的还是taskmanager打的
-- 原始邮件 --
发件人: Benchao Li
你可以给我们看一下你是怎么print的么?
smq <374060...@qq.com> 于2020年5月26日周二 下午11:20写道:
> 我这个在集群上提交或者webui提交都看不到输出内容,这应该不是client吧
>
>
> ---原始邮件---
> 发件人: Lijie Wang 发送时间: 2020年5月26日(周二) 晚上10:14
> 收件人: user-zh@flink.apache.org 主题: 回复:flink 1.10webui不显示print内容
>
>
> 这个是不需要配置并且所有版本都支持的,你可以看一下 taskmanager.out 的输出内容。
hisystemout是会打到标准输出的,也就对应webui里面的taskmanager的stdout输出的
如果是slog4j之类的日志工具,是在webui里面的taskmanager的log中输出的
还需要注意日志是在代码哪个地方写的
这样可以判断是在jobmanager打的还是taskmanager打的
我这个在集群上提交或者webui提交都看不到输出内容,这应该不是client吧
---原始邮件---
发件人: Lijie Wang
这个是不需要配置并且所有版本都支持的,你可以看一下 taskmanager.out 的输出内容。 此外,你需要确认一下你 print 的逻辑是否属于在 TM
端执行,有可能是在 client 端被执行的。
在2020年05月26日 21:39,smq<374060...@qq.com> 写道:
Hi
我的代码中打印的结果不能在webui上stdout看到,但是网上看的博客有人是可以显示打印内容的,只不过不是1.10版本。
请问是配置的问题还是这个版本不支持呢
你看的是TM的stdout么?标准输出是输出到TM的stdout的,而且有多个TM的话,你需要每个check一下。
smq <374060...@qq.com> 于2020年5月26日周二 下午9:40写道:
> Hi
> 我的代码中打印的结果不能在webui上stdout看到,但是网上看的博客有人是可以显示打印内容的,只不过不是1.10版本。
> 请问是配置的问题还是这个版本不支持呢
--
Best,
Benchao Li
Hi
我的代码中打印的结果不能在webui上stdout看到,但是网上看的博客有人是可以显示打印内容的,只不过不是1.10版本。
请问是配置的问题还是这个版本不支持呢
Hi,
??
----
??:"Benchao Li"https://issues.apache.org/jira/browse/FLINK-17942
LakeShen
Hi,
这应该是个bug,之前也有人跟我提过,我没在意。现在看来应该的确是bug,我在本地复现了一下。我建了一个issue[1] 来跟踪和修复。
[1] https://issues.apache.org/jira/browse/FLINK-17942
LakeShen 于2020年5月26日周二 下午8:14写道:
> Hi,
>
> 看下是否存在热点问题,我看你根据 server,reason 这两个字段来进行 group by
>
> Best,
> LakeShen
>
> Benchao Li 于2020年5月26日周二 下午6:50写道:
>
> > Hi,
> >
Hi,
关于 Json 的解析,当你的 Json 里面的一个字段一个镶嵌类型的话,可以将其定义为一个 row,row 里面还可以定义 row 字段。
注意 row 里面的字段名称要和原始json 里面的字段一致。
Best,
LakeShen
claylin <1012539...@qq.com> 于2020年5月26日周二 上午10:17写道:
> 嗯 谢谢 我试下看下
>
>
>
>
> --原始邮件--
> 发件人:"Benchao Li" 发送时间:2020年5月26日(星期二) 上午10:09
>
Hi,
看下是否存在热点问题,我看你根据 server,reason 这两个字段来进行 group by
Best,
LakeShen
Benchao Li 于2020年5月26日周二 下午6:50写道:
> Hi,
>
> 看起来你的写法应该没有太大问题。可能有两个问题需要确认一下:
> 1. 你的watermark生成的正确吗?也就是说window的结果有正常输出么?如果watermark延迟很高,是会导致有多个window同时存在的
> 2. 你是怎么判断state上升呢?通过checkpoint看出来的?还是看到heap一直上升?
>
> 瓜牛
任意并行度全局状态从物理上就是不可行的,你可以了解一下分布式计算系统怎么部署物理作业的。“全局状态”要么依赖外部存储要么依赖实现(部署)细节。
你这个需求能不能自定义 KeyBy 细节(KeySelector)来实现?相关文档见
https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/api_concepts.html#define-keys-using-key-selector-functions
Best,
tison.
star <3149768...@qq.com> 于2020年5月26日周二
Hi,
看起来你的写法应该没有太大问题。可能有两个问题需要确认一下:
1. 你的watermark生成的正确吗?也就是说window的结果有正常输出么?如果watermark延迟很高,是会导致有多个window同时存在的
2. 你是怎么判断state上升呢?通过checkpoint看出来的?还是看到heap一直上升?
瓜牛 于2020年5月26日周二 下午6:07写道:
> hi,大家好!
>
> 现象:在用纯 Flink SQL 来运行滚动窗口的 job 时,state 的大小一直在增加
>
> SQL:source 和 sink 都是 kafka
请问,有全局状态组件吗?我有一个需求需要对数据里的id和name做映射,也就是如果两条数据的id或者name相同则映射成一个值;现在只能使用operator
state,并且并行度设置为1,来实现全局state
谢谢
发自我的iPhone
Hi Wldd,
Hive 写测试了,没问题。
0: jdbc:hive2://localhost:1> select count(*) from pokes;
WARNING: Hive-on-MR is deprecated in Hive 2 and may not be available in the
future versions. Consider using a different execution engine (i.e. spark,
tez) or using Hive 1.X releases.
+--+
| _c0 |
+--+
|
hive写数据测了么,按照你提供的异常信息,显示的是hdfs的问题
--
Best,
wldd
在 2020-05-26 17:49:56,"Enzo wang" 写道:
>Hi Wldd,
>
>Hive 是可以访问的,我把之前的2个gist内容贴在这个邮件里,你看一下,里面有hive查询数据的返回结果。
>
>还需要什么信息我再提供。
>
>
>
> flink insert into hive error
>
>org.apache.flink.table.api.TableException: Exception
hi!
Flink SQL job state
SQL??source ?? sink kafka ??5
server,reason role_id
state
最近刚好看到张俊老师的 Flink 分享 [1],这个里面对你想了解的部分介绍得很详细,可以结合阅读(x)
Best,
tison.
[1] https://files.alicdn.com/tpsservice/73a1f1c404d2a658585cf4f4d86ef776.pdf
smq <374060...@qq.com> 于2020年5月24日周日 下午10:25写道:
> 恩恩,我是刚接触flink不久,所以很多地方没有很清楚,谢谢指点
>
>
> ---原始邮件---
> 发件人: tison 发送时间: 2020年5月24日(周日) 晚上10:10
> 收件人:
Hi Wldd,
Hive 是可以访问的,我把之前的2个gist内容贴在这个邮件里,你看一下,里面有hive查询数据的返回结果。
还需要什么信息我再提供。
flink insert into hive error
org.apache.flink.table.api.TableException: Exception in close
at
大家好:
请教一个flink cep的问题,我想做一个简单的报警,比如连续三次大于5就报警,连续三次小于等于5就算报警恢复。
示例程序如下:
DataStream
Hi,Enzo wang
图片无法加载,github地址也无法访问,你可以试一下hive可以正常读写表么
--
Best,
wldd
在 2020-05-26 17:01:32,"Enzo wang" 写道:
Hi Wldd,
谢谢回复。
1. datanode 是可用的
❯ docker-compose exec namenode hadoop fs -ls /tmp
Found 1 items
drwx-wx-wx - root supergroup 0 2020-05-26 05:40 /tmp/hive
Hi Wldd,
谢谢回复。
1. datanode 是可用的
❯ docker-compose exec namenode hadoop fs -ls /tmp
Found 1 items
drwx-wx-wx - root supergroup 0 2020-05-26 05:40 /tmp/hive
namenode 的webui 也可以看到:
[image: image.png]
2. 设置set execution.type=batch; 以后,执行报错,错误如下
Caused by:
问题1:
org.apache.hadoop.hdfs.BlockMissingException,可以用hadoop fs 命令看看那个datanode能不能访问
问题2:
写hive,需要用batch模式,set execution.type=batch;
在 2020-05-26 16:42:12,"Enzo wang" 写道:
Hi Flink group,
今天再看Flink与Hive集成的部分遇到了几个问题,麻烦大家帮忙看看。
Hi Flink group,
今天再看Flink与Hive集成的部分遇到了几个问题,麻烦大家帮忙看看。
参考的网址:
https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/table/hive/hive_catalog.html
版本、表结构信息见这里: https://gist.github.com/r0c/e244622d66447dfc85a512e75fc2159b
问题1:Flink SQL 读Hive 表pokes 失败
Flink SQL> select * from pokes;
46 matches
Mail list logo