date:20200923

Re: [DISCUSS] Move Hive document to "Table & SQL Connectors" from "Table API & SQL"

2020-09-23 文章 Benchao Li

+1 nashcen <2415370...@qq.com> 于2020年9月24日周四下午1:09写道： > +1 > > > > -- > Sent from: http://apache-flink.147419.n8.nabble.com/ > -- Best, Benchao Li

Re: flink on yarn NM JVM内存

2020-09-23 文章 Xintong Song

应该和 flink 的 JM/TM/rocksdb 没有直接关系。不排除反复起停任务给 NM 造成了一定的压力。建议你去 hadoop 社区的邮件列表问问看。 Thank you~ Xintong Song On Thu, Sep 24, 2020 at 11:52 AM superainbower wrote: > Hi, 大家好 > 我有个flink任务在yarn上跑，statebackend是rocksdb，由于是测试，所以一段时间内我反复起停了任务，后来我发现在Yarn集群的NodeManger出现GC时间超出阈值报警（没有其他错误日志），此时我查看对应节点的 > No

回复： flinksql接收到字段值格式为2020-09-23T20:58:24+08:00,如何转成TIMESTAMP

2020-09-23 文章 Joker

不好意思，插入个问题。ts AS TO_TIMESTAMP(FROM_UNIXTIME(create_time / 1000, '-MM-dd HH:mm:ss')) ，我按此方式生成事件时间列，发现watermark一直比北京时间多8小时，比如create_time 为1600926591666，ts计算出来是2020/9/24 13:49:51没问题，但在WebUI上发现提取的watermark为2020/9/24 21:49:51 | | Joker | | gaojintao...@163.com | 签名由网易邮箱大师定制在2020年09月24日 13:40

Re: flinksql接收到字段值格式为2020-09-23T20:58:24+08:00,如何转成TIMESTAMP

2020-09-23 文章 Jark Wu

Flink 的 TO_TIMESTAMP 函数用的是 Java SimpleDateFormat 来解析时间格式的，所以可以看下 SimpleDateFormat 的 javadoc。你可以试下 to_timestamp('2020-09-23T20:58:24+08:00', '-MM-dd''T''HH:mm:ssXXX') 来解析你的数据。 Best, Jark On Wed, 23 Sep 2020 at 21:08, chenxuying wrote: > flinksql 版本是1.11.2 > source接收到字段是字符串类型的时间 > CREATE TAB

Re: [DISCUSS] Move Hive document to "Table & SQL Connectors" from "Table API & SQL"

2020-09-23 文章 nashcen

+1 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: [DISCUSS] Move Hive document to "Table & SQL Connectors" from "Table API & SQL"

2020-09-23 文章 Jark Wu

+1 to move it there. On Thu, 24 Sep 2020 at 12:16, Jingsong Li wrote: > Hi devs and users: > > After the 1.11 release, I heard some voices recently: How can't Hive's > documents be found in the "Table & SQL Connectors". > > Actually, Hive's documents are in the "Table API & SQL". Since the "Tabl

[DISCUSS] Move Hive document to "Table & SQL Connectors" from "Table API & SQL"

2020-09-23 文章 Jingsong Li

Hi devs and users: After the 1.11 release, I heard some voices recently: How can't Hive's documents be found in the "Table & SQL Connectors". Actually, Hive's documents are in the "Table API & SQL". Since the "Table & SQL Connectors" document was extracted separately, Hive is a little out of plac

Re: Flink-1.11 sql-client yaml 配置问题

2020-09-23 文章 Rui Li

你好，这个感觉是缺少hive connector的依赖，lib下面添加了哪些jar呢？ On Thu, Sep 24, 2020 at 11:00 AM nashcen <2415370...@qq.com> wrote: > 准备通过命令行工具 $FLINK_HOME/bin/sql-client.sh embedded > 登录 Flink SQL 客户端去连接 Hive， > > > 我在 Flink-SQL 的配置文件 sql-client-defaults.yaml 里， > 加入了以下参数 > catalogs: > - name: myhive > type

Re: kafka增加字段，hive表如何处理

2020-09-23 文章 Rui Li

Hi，直接给hive表增加字段遇到的具体问题是什么呢？把stacktrace贴一下吧。 On Wed, Sep 23, 2020 at 6:50 PM china_tao wrote: > flink1.11.1，flink sql，已经实现flink sql > 读取kafka，存储到hive。现在的问题是，kafka源增加字段了，flink > sql中的hive如何修改。直接在hive中增加字段的话，每次启动，会报 hive表已经存在，如果drop table if > exists的话，历史数据就会丢。请问大家是如何处理的，谢谢。 > > > > -- > Sent fro

flink on yarn NM JVM内存

2020-09-23 文章 superainbower

Hi, 大家好我有个flink任务在yarn上跑，statebackend是rocksdb，由于是测试，所以一段时间内我反复起停了任务，后来我发现在Yarn集群的NodeManger出现GC时间超出阈值报警（没有其他错误日志），此时我查看对应节点的 NodeManger的JVM堆内存几乎占满了（1.5G），从曲线图上看整个堆内存是逐步增加的（和我测试Flink任务的时间基本吻合），GC持续达到30多秒，把flink任务停止后，JVM堆内存始终下不来，只能重启Yarn集群；想请教大家，flink on yarn给了 taskmanger的内存和jobmanager的内存，怎么还会影

?????? flink sql????????

2020-09-23 文章 ang

benchao??config??sql?? -- -- ??: "user-zh"

Flink-1.11 sql-client yaml 配置问题

2020-09-23 文章 nashcen

准备通过命令行工具 $FLINK_HOME/bin/sql-client.sh embedded 登录 Flink SQL 客户端去连接 Hive，我在 Flink-SQL 的配置文件 sql-client-defaults.yaml 里，加入了以下参数 catalogs: - name: myhive type: hive hive-conf-dir: /opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/lib/hive/conf default-database: dc_stg 启动报错，以

答复: 回复：FlinkKafkaConsumer on Yarn 模式下设置并行度无法提高kafka的消费速度，但是提交两个应用却可以

2020-09-23 文章范超

感谢磊哥，后来发现确实是这个问题导致。 Source节点的并行度取决于topic的分区数 -邮件原件- 发件人: 吴磊 [mailto:wuleifl...@foxmail.com] 发送时间: 2020年9月18日星期五 16:29 收件人: user-zh 主题: 回复：FlinkKafkaConsumer on Yarn 模式下设置并行度无法提高kafka的消费速度，但是提交两个应用却可以 hello，Source节点并行度的有效性是取决于topic对应的分区数的。比如如果你只有6个分区，那你12个并行度和6个并行度的消费速度是一样的。

答复: FlinkKafkaConsumer on Yarn 模式下设置并行度无法提高kafka的消费速度，但是提交两个应用却可以

2020-09-23 文章范超

谢谢Benchao哥回复。这几天一直忙着压测这个问题。经多轮压测（先灌满kafka数据），再去消费。发现确实是您说的问题中的第三个情况由于kafka的topic只开了一个partition 所以flinkkafkaconsumer按照一个taskmanger对应了一个kafka的parition的方式进行了处理。从而导致虽然作业并发度够大，但是由于只有一个partition，其他并发的taskmanager无法获取到更多的partition进行消费，从而导致并行度提升而作业消费能力却无法同比增大。之后通过建立2个partition的topic，实现了消费能力的翻倍。想再

Re: [flink-1.10.2] Blink SQL 超用内存严重

2020-09-23 文章 Tianwang Li

使用的是 `RocksDBStateBackend`，是什么超用了内存，配置了“taskmanager.memory.process.size: 4g”，并且有预留 1G 用于jvm-overhead。现在超了2.8G，是什么超用的，我想了解一下。如果控制不了，很容易被资源系统（yarn、k8s等） kill 了。有没有，其他人有这方面的经验。 Benchao Li 于2020年9月23日周三下午1:12写道： > 超yarn内存不合理。因为state如果用的是heap，那应该是堆内内存，不会超过配置的JVM的最大heap的内存的， > 只会jvm oom。超过y

flinksql接收到字段值格式为2020-09-23T20:58:24+08:00,如何转成TIMESTAMP

2020-09-23 文章 chenxuying

flinksql 版本是1.11.2 source接收到字段是字符串类型的时间 CREATE TABLE sourceTable ( `time` STRING ) WITH( ... ); sink如下 CREATE TABLE sinktable ( `time1` STRING, `time` TIMESTAMP(3) ) WITH ( 'connector' = 'print' ); insert语句,不知道怎么正确修改TO_TIMESTAMP默认的格式 insert into sinktable select `time`,

Re: 编译Flink时找不到scala-maven-plugin:3.1.4

2020-09-23 文章 zilong xiao

Hi Natasha, 在mvn命令中加上这两个参数试试看 -Dscala-2.12 -Pscala-2.12 Natasha <13631230...@163.com> 于2020年9月23日周三下午4:00写道： > Hi All, > 很高兴加入Flink这个大家庭！但是有个问题困扰了我好久！ > 当我导入Flink到IDEA中准备进行编译，输入“mvn clean install -Drat.skip=true > -Dmaven.test.skip=true -Dmaven.javadoc.skip=true -Dcheckstyle.skip=true”后，

Re:查询hbase sink结果表，有时查到数据，有时查不到

2020-09-23 文章 izual

hbase写入时会有buffer [1]，按照时间或者数据量写入 [2]，可以看下是不是调整过？ 1. https://github.com/apache/flink/blob/master/flink-connectors/flink-connector-hbase/src/main/java/org/apache/flink/connector/hbase/sink/HBaseSinkFunction.java 2. https://ci.apache.org/projects/flink/flink-docs-master/dev/table/connectors/hbase

kafka增加字段，hive表如何处理

2020-09-23 文章 china_tao

flink1.11.1，flink sql，已经实现flink sql 读取kafka，存储到hive。现在的问题是，kafka源增加字段了，flink sql中的hive如何修改。直接在hive中增加字段的话，每次启动，会报 hive表已经存在，如果drop table if exists的话，历史数据就会丢。请问大家是如何处理的，谢谢。 -- Sent from: http://apache-flink.147419.n8.nabble.com/

查询hbase sink结果表，有时查到数据，有时查不到

2020-09-23 文章 kandy.wang

insert into hive.temp_dw.day_order_index select rowkey, ROW(orderN,) from ( select order_date as rowkey, count(distinct parent_sn) as orderN, group by order_date ) 通过sql查hbase时，有时查到数据，有时候查不到数据。是不是group操作，会有下游算子发送撤回消息，导致在delete hbase的某条rowkey数据，导致客户端查不到数据？我理解 hbase sink 应该是

Flink Kerberos认证问题

2020-09-23 文章 zhangjunj

您好：因为业务需要，需要Flink连接CDK(带有kerberos环境下的Kafka Topic)。同一集群，Flink on Yarn模式，在kerberos环境下申请yarn-session资源通过：yarn-session.sh -n 2 -d -jm 2048 -tm 4096 -qu root.__ -D security.kerberos.login.keytab=AAA.keytab -D security.kerberos.login.principal=AAA，申请的资源去连接同一集群的CDK，在代

flink sql grouping sets语义中NOT NULL不生效

2020-09-23 文章 kandy.wang

sql如下： select (case when act_name is not null then act_name else 'default_value' end) as act_name, (case when fst_plat is not null then fst_plat else 'default_value' end) as fst_plat， sum(amount) as saleN from hive.temp_dw.view_trad_order_goods_source_act

Re: flink sql延迟数据

2020-09-23 文章 Benchao Li

你是用的Blink planner的TUMBLE window么，如果是的话，可以通过设置state retention[1]时间来处理late数据的。具体的allow lateness的时间就是你设置的min retention time [1] https://ci.apache.org/projects/flink/flink-docs-master/dev/table/streaming/query_configuration.html#idle-state-retention-time ang <806040...@qq.com> 于2020年9月23日周三下午4:24写道

Re: flink pb转json性能问题

2020-09-23 文章 Benchao Li

Hi kandy, 关于第1个问题，目前社区有计划做一个内置的pb format[1]，可能大概率赶不上1.12了，不过应该1.13差不多。 [1] https://issues.apache.org/jira/browse/FLINK-18202 kandy.wang 于2020年9月23日周三下午4:55写道： > 因flink目前不支持pb format，调用了，protobuf-java-util > com.google.protobuf.utilJsonFormat.printer().preservingProtoFieldNames().print(message

flink pb转json性能问题

2020-09-23 文章 kandy.wang

因flink目前不支持pb format，调用了，protobuf-java-util com.google.protobuf.utilJsonFormat.printer().preservingProtoFieldNames().print(message) 先再pb 转成json 再套用 JsonRowDataDeserializationSchema处理json, 发现处理的性能就只能达到20w左右的tps，而如果是处理json格式的数据，tps是可以达到50-60w的tps. 想问一下，1、flink要是处理pb格式的数据，有什么好的办法？ 2 、社区对pb format 会

Re: 编译Flink时找不到scala-maven-plugin:3.1.4

2020-09-23 文章 tison

从日志看你的 scala 是 2.10 版本的，比较新版本的 flink 应该都只支持 2.11 和 2.12 Best, tison. Natasha <13631230...@163.com> 于2020年9月23日周三下午4:00写道： > Hi All, > 很高兴加入Flink这个大家庭！但是有个问题困扰了我好久！ > 当我导入Flink到IDEA中准备进行编译，输入“mvn clean install -Drat.skip=true > -Dmaven.test.skip=true -Dmaven.javadoc.skip=true -Dchecksty

flink sql????????

2020-09-23 文章 ang

hi ??flink sqlkafka??event time5s??5s??waterwark?? WATERMARK FOR ts AS ts - INTERVAL '5' SECODND ??5s???

Re: Calcite在嵌套多层包含where条件的sql语句时优化器OOM

2020-09-23 文章 jun su

hi danny & godfrey 看debug日志99%是CalcMergeRule ，我看blink用的是FlinkCalcMergeRule ，在matches方法里加了些对none-deterministic表达式的过滤,，于是我将CalcMergeRule替换成FlinkCalcMergeRule, 并在FlinkRuleSets里做了更新，重跑后debug日志是99%是更新过的FlinkCalcMergeRule Danny Chan 于2020年9月23日周三下午12:32写道： > 应该是碰到节点 cycle 引用了，导致优化 rule 一直重复

编译Flink时找不到scala-maven-plugin:3.1.4

2020-09-23 文章 Natasha

Hi All, 很高兴加入Flink这个大家庭！但是有个问题困扰了我好久！当我导入Flink到IDEA中准备进行编译，输入“mvn clean install -Drat.skip=true -Dmaven.test.skip=true -Dmaven.javadoc.skip=true -Dcheckstyle.skip=true”后，报错“Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.1.4:testCompile (scala-test-compile) on project fl

回复：[flink-1.10.2] Blink SQL 超用内存严重

2020-09-23 文章郑斌斌

谢谢Peidian ，我试一下 -- 发件人：Peidian Li 发送时间：2020年9月23日(星期三) 14:02 收件人：user-zh ; 郑斌斌主　题：Re: [flink-1.10.2] Blink SQL 超用内存严重我也遇到过类似的问题，也是使用rocksdb，flink 1.10版本，我理解的是block cache超用，我这边的解决办法是增大了taskmanager.memory.jvm-overhead.fraction，如果

Re: [DISCUSS] Move Hive document to "Table & SQL Connectors" from "Table API & SQL"

Re: flink on yarn NM JVM内存

回复： flinksql接收到字段值格式为2020-09-23T20:58:24+08:00,如何转成TIMESTAMP

Re: flinksql接收到字段值格式为2020-09-23T20:58:24+08:00,如何转成TIMESTAMP

Re: [DISCUSS] Move Hive document to "Table & SQL Connectors" from "Table API & SQL"

Re: [DISCUSS] Move Hive document to "Table & SQL Connectors" from "Table API & SQL"

[DISCUSS] Move Hive document to "Table & SQL Connectors" from "Table API & SQL"

Re: Flink-1.11 sql-client yaml 配置问题

Re: kafka增加字段，hive表如何处理

flink on yarn NM JVM内存

?????? flink sql????????

Flink-1.11 sql-client yaml 配置问题

答复: 回复：FlinkKafkaConsumer on Yarn 模式下设置并行度无法提高kafka的消费速度，但是提交两个应用却可以

答复: FlinkKafkaConsumer on Yarn 模式下设置并行度无法提高kafka的消费速度，但是提交两个应用却可以

Re: [flink-1.10.2] Blink SQL 超用内存严重

flinksql接收到字段值格式为2020-09-23T20:58:24+08:00,如何转成TIMESTAMP

Re: 编译Flink时找不到scala-maven-plugin:3.1.4

Re:查询hbase sink结果表，有时查到数据，有时查不到

kafka增加字段，hive表如何处理

查询hbase sink结果表，有时查到数据，有时查不到

Flink Kerberos认证问题

flink sql grouping sets语义中NOT NULL不生效

Re: flink sql延迟数据

Re: flink pb转json性能问题

flink pb转json性能问题

Re: 编译Flink时找不到scala-maven-plugin:3.1.4

flink sql????????

Re: Calcite在嵌套多层包含where条件的sql语句时优化器OOM

编译Flink时找不到scala-maven-plugin:3.1.4

回复：[flink-1.10.2] Blink SQL 超用内存严重

30 matches

Site Navigation

Mail list logo

Footer information