+1
nashcen <2415370...@qq.com> 于2020年9月24日周四 下午1:09写道:
> +1
>
>
>
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/
>
--
Best,
Benchao Li
应该和 flink 的 JM/TM/rocksdb 没有直接关系。不排除反复起停任务给 NM 造成了一定的压力。建议你去 hadoop
社区的邮件列表问问看。
Thank you~
Xintong Song
On Thu, Sep 24, 2020 at 11:52 AM superainbower
wrote:
> Hi, 大家好
> 我有个flink任务在yarn上跑,statebackend是rocksdb,由于是测试,所以一段时间内我反复起停了任务,后来我发现在Yarn集群的NodeManger出现GC时间超出阈值报警(没有其他错误日志),此时我查看对应节点的
> No
不好意思,插入个问题。ts AS TO_TIMESTAMP(FROM_UNIXTIME(create_time / 1000, '-MM-dd
HH:mm:ss')) ,我按此方式生成事件时间列,发现watermark一直比北京时间多8小时,比如create_time
为1600926591666,ts计算出来是2020/9/24 13:49:51没问题,但在WebUI上发现提取的watermark为2020/9/24
21:49:51
| |
Joker
|
|
gaojintao...@163.com
|
签名由网易邮箱大师定制
在2020年09月24日 13:40
Flink 的 TO_TIMESTAMP 函数用的是 Java SimpleDateFormat 来解析时间格式的,所以可以看下
SimpleDateFormat 的 javadoc。
你可以试下 to_timestamp('2020-09-23T20:58:24+08:00',
'-MM-dd''T''HH:mm:ssXXX') 来解析你的数据。
Best,
Jark
On Wed, 23 Sep 2020 at 21:08, chenxuying wrote:
> flinksql 版本是1.11.2
> source接收到字段是字符串类型的时间
> CREATE TAB
+1
--
Sent from: http://apache-flink.147419.n8.nabble.com/
+1 to move it there.
On Thu, 24 Sep 2020 at 12:16, Jingsong Li wrote:
> Hi devs and users:
>
> After the 1.11 release, I heard some voices recently: How can't Hive's
> documents be found in the "Table & SQL Connectors".
>
> Actually, Hive's documents are in the "Table API & SQL". Since the "Tabl
Hi devs and users:
After the 1.11 release, I heard some voices recently: How can't Hive's
documents be found in the "Table & SQL Connectors".
Actually, Hive's documents are in the "Table API & SQL". Since the "Table &
SQL Connectors" document was extracted separately, Hive is a little out of
plac
你好,这个感觉是缺少hive connector的依赖,lib下面添加了哪些jar呢?
On Thu, Sep 24, 2020 at 11:00 AM nashcen <2415370...@qq.com> wrote:
> 准备通过 命令行工具 $FLINK_HOME/bin/sql-client.sh embedded
> 登录 Flink SQL 客户端 去连接 Hive,
>
>
> 我在 Flink-SQL 的配置文件 sql-client-defaults.yaml 里,
> 加入了以下参数
> catalogs:
> - name: myhive
> type
Hi,
直接给hive表增加字段遇到的具体问题是什么呢?把stacktrace贴一下吧。
On Wed, Sep 23, 2020 at 6:50 PM china_tao wrote:
> flink1.11.1,flink sql,已经实现flink sql
> 读取kafka,存储到hive。现在的问题是,kafka源增加字段了,flink
> sql中的hive如何修改。直接在hive中增加字段的话,每次启动,会报 hive表已经存在,如果drop table if
> exists的话,历史数据就会丢。请问大家是如何处理的,谢谢。
>
>
>
> --
> Sent fro
Hi, 大家好
我有个flink任务在yarn上跑,statebackend是rocksdb,由于是测试,所以一段时间内我反复起停了任务,后来我发现在Yarn集群的NodeManger出现GC时间超出阈值报警(没有其他错误日志),此时我查看对应节点的
NodeManger的JVM堆内存几乎占满了(1.5G),从曲线图上看整个堆内存是逐步增加的(和我测试Flink任务的时间基本吻合),GC持续达到30多秒,把flink任务停止后,JVM堆内存始终下不来,只能重启Yarn集群;
想请教大家,flink on yarn给了 taskmanger的内存
和jobmanager的内存,怎么还会影
benchao??config??sql??
-- --
??:
"user-zh"
准备通过 命令行工具 $FLINK_HOME/bin/sql-client.sh embedded
登录 Flink SQL 客户端 去连接 Hive,
我在 Flink-SQL 的配置文件 sql-client-defaults.yaml 里,
加入了以下参数
catalogs:
- name: myhive
type: hive
hive-conf-dir:
/opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/lib/hive/conf
default-database: dc_stg
启动报错,以
感谢磊哥,后来发现确实是这个问题导致。
Source节点的并行度取决于topic的分区数
-邮件原件-
发件人: 吴磊 [mailto:wuleifl...@foxmail.com]
发送时间: 2020年9月18日 星期五 16:29
收件人: user-zh
主题: 回复:FlinkKafkaConsumer on Yarn 模式下 设置并行度无法提高kafka的消费速度,但是提交两个应用却可以
hello,Source节点并行度的有效性是取决于topic对应的分区数的。比如如果你只有6个分区,那你12个并行度和6个并行度的消费速度是一样的。
谢谢Benchao哥回复。
这几天一直忙着压测这个问题。
经多轮压测(先灌满kafka数据),再去消费。
发现确实是您说的问题中的第三个情况
由于kafka的topic只开了一个partition
所以flinkkafkaconsumer按照一个taskmanger对应了一个kafka的parition的方式进行了处理。从而导致虽然作业并发度够大,但是由于只有一个partition,
其他并发的taskmanager无法获取到更多的partition进行消费,从而导致并行度提升而作业消费能力却无法同比增大。
之后通过建立2个partition的topic,实现了消费能力的翻倍。
想再
使用的是 `RocksDBStateBackend`, 是什么超用了内存, 配置了“taskmanager.memory.process.size:
4g”,
并且有预留 1G 用于jvm-overhead。
现在超了2.8G,是什么超用的,我想了解一下。
如果控制不了,很容易被资源系统(yarn、k8s等) kill 了。
有没有,其他人有这方面的经验。
Benchao Li 于2020年9月23日周三 下午1:12写道:
> 超yarn内存不合理。因为state如果用的是heap,那应该是堆内内存,不会超过配置的JVM的最大heap的内存的,
> 只会jvm oom。超过y
flinksql 版本是1.11.2
source接收到字段是字符串类型的时间
CREATE TABLE sourceTable (
`time` STRING
) WITH(
...
);
sink如下
CREATE TABLE sinktable (
`time1` STRING,
`time` TIMESTAMP(3)
) WITH (
'connector' = 'print'
);
insert语句,不知道怎么正确修改TO_TIMESTAMP默认的格式
insert into sinktable select
`time`,
Hi Natasha,
在mvn命令中加上这两个参数试试看 -Dscala-2.12 -Pscala-2.12
Natasha <13631230...@163.com> 于2020年9月23日周三 下午4:00写道:
> Hi All,
> 很高兴加入Flink这个大家庭!但是有个问题困扰了我好久!
> 当我导入Flink到IDEA中准备进行编译,输入“mvn clean install -Drat.skip=true
> -Dmaven.test.skip=true -Dmaven.javadoc.skip=true -Dcheckstyle.skip=true”后,
hbase写入时会有buffer [1],按照时间或者数据量写入 [2],可以看下是不是调整过?
1.
https://github.com/apache/flink/blob/master/flink-connectors/flink-connector-hbase/src/main/java/org/apache/flink/connector/hbase/sink/HBaseSinkFunction.java
2.
https://ci.apache.org/projects/flink/flink-docs-master/dev/table/connectors/hbase
flink1.11.1,flink sql,已经实现flink sql 读取kafka,存储到hive。现在的问题是,kafka源增加字段了,flink
sql中的hive如何修改。直接在hive中增加字段的话,每次启动,会报 hive表已经存在,如果drop table if
exists的话,历史数据就会丢。请问大家是如何处理的,谢谢。
--
Sent from: http://apache-flink.147419.n8.nabble.com/
insert into hive.temp_dw.day_order_index select rowkey, ROW(orderN,)
from
(
select order_date as rowkey,
count(distinct parent_sn) as orderN,
group by order_date
)
通过sql查hbase时,有时查到数据,有时候查不到数据。是不是group操作,会有下游算子 发送撤回消息,导致在delete
hbase的某条rowkey数据,导致客户端查不到数据?
我理解 hbase sink 应该是
您好:
因为业务需要,需要Flink连接CDK(带有kerberos环境下的Kafka Topic)。
同一集群,Flink on Yarn模式,在kerberos环境下申请yarn-session资源通过:yarn-session.sh
-n 2 -d -jm 2048 -tm 4096 -qu root.__ -D
security.kerberos.login.keytab=AAA.keytab -D
security.kerberos.login.principal=AAA, 申请的资源去连接同一集群的CDK,在代
sql如下:
select
(case when act_name is not null then act_name else 'default_value'
end) as act_name,
(case when fst_plat is not null then fst_plat else 'default_value'
end) as fst_plat,
sum(amount) as saleN
from hive.temp_dw.view_trad_order_goods_source_act
你是用的Blink planner的TUMBLE window么,如果是的话,可以通过设置state retention[1]时间来处理late数据的。
具体的allow lateness的时间就是你设置的min retention time
[1]
https://ci.apache.org/projects/flink/flink-docs-master/dev/table/streaming/query_configuration.html#idle-state-retention-time
ang <806040...@qq.com> 于2020年9月23日周三 下午4:24写道
Hi kandy,
关于第1个问题,目前社区有计划做一个内置的pb format[1],可能大概率赶不上1.12了,不过应该1.13差不多。
[1] https://issues.apache.org/jira/browse/FLINK-18202
kandy.wang 于2020年9月23日周三 下午4:55写道:
> 因flink目前不支持pb format,调用了,protobuf-java-util
> com.google.protobuf.utilJsonFormat.printer().preservingProtoFieldNames().print(message
因flink目前不支持pb format,调用了,protobuf-java-util
com.google.protobuf.utilJsonFormat.printer().preservingProtoFieldNames().print(message)
先再pb 转成json 再套用 JsonRowDataDeserializationSchema处理json,
发现处理的性能就只能达到20w左右的tps,而如果是处理json格式的数据,tps是可以达到50-60w的tps.
想问一下,1、flink要是处理pb格式的数据,有什么好的办法? 2
、社区对pb format 会
从日志看你的 scala 是 2.10 版本的,比较新版本的 flink 应该都只支持 2.11 和 2.12
Best,
tison.
Natasha <13631230...@163.com> 于2020年9月23日周三 下午4:00写道:
> Hi All,
> 很高兴加入Flink这个大家庭!但是有个问题困扰了我好久!
> 当我导入Flink到IDEA中准备进行编译,输入“mvn clean install -Drat.skip=true
> -Dmaven.test.skip=true -Dmaven.javadoc.skip=true -Dchecksty
hi
??flink sqlkafka??event
time5s??5s??waterwark??
WATERMARK FOR ts AS ts - INTERVAL '5' SECODND
??5s???
hi danny & godfrey
看debug日志99%是CalcMergeRule , 我看blink用的是FlinkCalcMergeRule ,
在matches方法里加了些对none-deterministic表达式的过滤,,
于是我将CalcMergeRule替换成FlinkCalcMergeRule, 并在FlinkRuleSets里做了更新 ,
重跑后debug日志是99%是更新过的FlinkCalcMergeRule
Danny Chan 于2020年9月23日周三 下午12:32写道:
> 应该是碰到节点 cycle 引用了,导致优化 rule 一直重复
Hi All,
很高兴加入Flink这个大家庭!但是有个问题困扰了我好久!
当我导入Flink到IDEA中准备进行编译,输入“mvn clean install -Drat.skip=true
-Dmaven.test.skip=true -Dmaven.javadoc.skip=true -Dcheckstyle.skip=true”后,
报错“Failed to execute goal
net.alchim31.maven:scala-maven-plugin:3.1.4:testCompile (scala-test-compile) on
project fl
谢谢Peidian ,我试一下
--
发件人:Peidian Li
发送时间:2020年9月23日(星期三) 14:02
收件人:user-zh ; 郑斌斌
主 题:Re: [flink-1.10.2] Blink SQL 超用内存严重
我也遇到过类似的问题,也是使用rocksdb,flink 1.10版本,我理解的是block
cache超用,我这边的解决办法是增大了taskmanager.memory.jvm-overhead.fraction,如果
30 matches
Mail list logo