date:20200528

Re: Re: flink-sql watermark问题

2020-05-28 文章 wangweigu...@stevegame.cn

你的代码：w_ts as TO_TIMESTAMP(FROM_UNIXTIME(rowtime/1000),'-MM-dd HH:mm:ss') 这里里面的 FROM_UNIXTIME 函数就是接受BIGINT参数，返回 VARCHAR类型的日期值，默认日期格式：-MM-dd HH:mm:ss 然后通过TO_TIMESTAMP函数转换成TIMESTAMP类型，是timestamp(3)类型，这个只能用blink planner 参考阿里云网址：https://help.aliyun.com/knowledge_list_page/6271

回复: Re: flink1.10 on yarn 问题

2020-05-28 文章 wangweigu...@stevegame.cn

这个报错：>>> Caused by: org.apache.flink.runtime.JobException: Recovery is suppressed >>> by NoRestartBackoffTimeStrategy 应该是没有读取到flink conf下面的flink-conf.yaml配置文件，里面有个task失败重启配置参数！发件人： air23 发送时间： 2020-05-29 14:34 收件人： user-zh 主题： Re:Re: flink1.10 on yarn 问题代码就是flink自带的例子。 public class Word

Re: Re: flink1.10 on yarn 问题

2020-05-28 文章 tison

你运行的命令是啥？然后在哪个目录下运行的，和 flink 下载下来解压的目录是什么相对关系？ Best, tison. air23 于2020年5月29日周五下午2:35写道： > 代码就是flink自带的例子。 > > public class WordCountStreamingByJava { > public static void main(String[] args) throws Exception { > > // 创建执行环境 > StreamExecutionEnvironment env = > StreamExecutionEnvironment.getE

Re:Re: flink1.10 on yarn 问题

2020-05-28 文章 air23

代码就是flink自带的例子。 public class WordCountStreamingByJava { public static void main(String[] args) throws Exception { // 创建执行环境 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); // 设置socket数据源 DataStreamSource source = env.socketTextStream("zongteng75", 9001, "\

flink sql的json解析udf

2020-05-28 文章 star

请问，flink sql1.10有解析json的udf吗？没有找到发自我的iPhone

Re:Re: flink1.10 on yarn 问题

2020-05-28 文章 air23

你好是cluster的本地代码没有报错的报错的消息贴下面了 flink1.7 时正常的。后来我加上了flink的环境变量 #flink export FLINK_HOME=/opt/module/flink-1.10.1 export PATH=${FLINK_HOME}/bin:$PATH 这个报错的例子就正常跑了但是换了另外一个任务在1.7 和本地都是可以的。报错如下 The program finished with the follow

Re: flink1.10 on yarn 问题

2020-05-28 文章 tison

然后你 execute 前后的代码片段甚至整个 main 如果可以的话通过 gist 贴一下（x） Best, tison. tison 于2020年5月29日周五下午2:21写道： > 这个问题好诡异啊，一般来说编译会在 env.execute > 的时候拦截，不应该真的调度起来才对。你能详细描述一下你提交作业的方法还有这个错误报在哪里吗（client?cluster?）？ > > Best, > tison. > > > air23 于2020年5月29日周五下午1:38写道： > >> cdh运行flink1.10 on cdh yarn 报错如下。用1.7.2版本就

Re: flink1.10 on yarn 问题

2020-05-28 文章 tison

这个问题好诡异啊，一般来说编译会在 env.execute 的时候拦截，不应该真的调度起来才对。你能详细描述一下你提交作业的方法还有这个错误报在哪里吗（client?cluster?）？ Best, tison. air23 于2020年5月29日周五下午1:38写道： > cdh运行flink1.10 on cdh yarn 报错如下。用1.7.2版本就没有问题 > flink-shaded-hadoop-2-uber-2.6.5-10.0.jar 也加了 > hadoop环境变量 export HADOOP_CONF_DIR=/etc/hadoop/conf > 求解答 >

pyflink Table Api连接外部系统问题

2020-05-28 文章刘亚坤

目前在学习使用pyflink的Table api，请教一个问题： 1、Table Api连接kafka系统，能否把整条的kafka消息看成是一个table字段进行处理？比如，kafka topic连的消息为一个json字符串，把这个字符串整体当做是一个字段，这样可以方便使用 pyflink 的udf函数对消息进行处理转换等操作？ 2、如果以上可行，连接kafka的数据格式如何设置，即with_format如何设置，目前官网这方便的资料较少。新手入门，请多指教，感谢。

flink1.10 on yarn 问题

2020-05-28 文章 air23

cdh运行flink1.10 on cdh yarn 报错如下。用1.7.2版本就没有问题 flink-shaded-hadoop-2-uber-2.6.5-10.0.jar 也加了 hadoop环境变量 export HADOOP_CONF_DIR=/etc/hadoop/conf 求解答 org.apache.flink.client.program.ProgramInvocationException: The main method caused an error: org.apache.flink.client.program.ProgramInvocatio

Re:Re: 回复：flink 1.9 1.10 on yarn在cdh上怎么搭建一个客户端

2020-05-28 文章 air23

可以看下你的HADOOP_CONF吗。我的配置的=/etc/hadoop/conf。开源的Hadoop版本这个也放了在 2020-05-28 09:36:10，"wangweigu...@stevegame.cn" 写道： > >确实，你只要配置好CDH的HADOOP_CONF环境变量，同时下载开源的Hadoop版本（和CDH版本相同）放到flink > lib下，就可以访问CDH yarn，提交作业！ > >目前我这边是CDH 5.16.1，Flink 1.10，提交Flink on yarn是没问题，任务运行也没问题，

Re: FlinkKafkaConsumer消费kafka中avro格式的消息，直接用AvroDeserializationSchema总是运行失败，自己实现了一个AbstracteserializationSchema运行成功了。

2020-05-28 文章 Leonard Xu

Hi, > 我使用avro代码生成工具基于一个schema生成了UserView类，又实现了kafka的Serializer接口，你往kafka中写入avro格式的数据时用kafak的Serializer，写入的格式是当成confluent schemat registry的avro格式吧 confluent schemat registry 在处理avro数据时会多写一个MAGIC_BYTE，一般avro是没有的，消费时用ConfluentRegistryAvroDeserializationSchema 试试。 Best， Leonard Xu [1] https://is

Re: Re: flink-sql watermark问题

2020-05-28 文章 Benchao Li

Flink支持把Timestamp(3)这种类型声明声明为事件时间列，并且为它生成watermark。你上面提到的"-MM-dd'T'HH:mm:ss.SSS'Z'"，并不是一种数据类型，它只是Timestamp的一种string表达形式，这个主要是在json format里面把一个字符串解析为timestamp类型的时候需要的一种格式。所以如果你有其他类型的字段，比如varchar、long、int等等，都可以通过内置函数或者udf将其转成timestamp(3)的类型，再在此基础上做watermark生成。 guaishushu1...@163.com 于2020年5月

Re: 疑问：flink sql 当一个env下多个insert语句共享一个view时，是否会影响view中kafka源表的offset提交

2020-05-28 文章 Benchao Li

我的理解是这样的。 TableEnvironment的api主要是跟table相关的概念，这里面并没有流(DataStream)和批(DataSet)的概念。 StreamTableEnvironment是继承了TableEnvironment，但是多了跟DataStream交互的接口，比如把DataStream转成Table，以及反过来转换等。 BatchTableEnvironment也是同理，添加了跟DataSet打交道的一些接口。 LakeShen 于2020年5月29日周五上午10:16写道： > Hi Benchao, > > TableEnvironment 和 Str

Re: Re: flink-sql watermark问题

2020-05-28 文章 guaishushu1...@163.com

而且 flink不是只支持这种"-MM-dd'T'HH:mm:ss.SSS'Z'" 类型解析为watermark吗，就对这样有点疑惑 guaishushu1...@163.com 发件人： guaishushu1...@163.com 发送时间： 2020-05-29 10:20 收件人： Benchao Li 抄送： user-zh 主题： Re: Re: flink-sql watermark问题就是我是long类型的时间戳，但是用TO_TIMESTAMP转换成'-MM-dd HH:mm:ss' 之后依然可以生成watermark。 guaishushu

Re: native kubernetes在不同kubernetes版本构建失败问题

2020-05-28 文章 Yang Wang

更新一下这个问题的进展：目前java 8u252的修复已经merge到了master和release-1.11分支，你可以用这两个分支自己编译flink binary进行验证另外，如果确实想在在1.10使用，可以设置环境变量HTTP2_DISABLE=true Flink client端可以export HTTP2_DISABLE=true JM/TM可以通过如下Flink参数设置，当然也可以直接在build镜像的时候设置 containerized.master.env.HTTP2_DISABLE=true containerized.taskmanager.env.HTTP

Re: Re: flink-sql watermark问题

2020-05-28 文章 guaishushu1...@163.com

就是我是long类型的时间戳，但是用TO_TIMESTAMP转换成'-MM-dd HH:mm:ss' 之后依然可以生成watermark。 guaishushu1...@163.com 发件人： Benchao Li 发送时间： 2020-05-28 17:00 收件人： user-zh 主题： Re: flink-sql watermark问题 Hi，没太看明白你的问题是什么。目前的确是只支持Timestmap(3)作为事件时间列。之所以还不支持long作为事件时间列，主要考虑的是时区问题。但是这个社区也在考虑，可以参考[1] [1] https://issu

Re: 疑问：flink sql 当一个env下多个insert语句共享一个view时，是否会影响view中kafka源表的offset提交

2020-05-28 文章 LakeShen

Hi Benchao, TableEnvironment 和 StreamTableEnvironment 具体有什么差异吗，我看StreamTableEnvironment 继承了 TableEnvironment。这块我不是很了解，有什么文档介绍吗，感谢。 Best, LakeShen Benchao Li 于2020年5月28日周四下午5:52写道： > Hi zhisheng&wind， > > 这块内容在FLIP-84[1]里面做了大量的重构和优化，而且大部分工作在1.11已经完成了，你们可以看下。 > > [1] > https://cwiki.apache.or

Re: flink 如何自定义connector

2020-05-28 文章 Peihui He

hello 正在尝试中，感谢解答🤗 best wishes 111 于2020年5月28日周四上午10:16写道： > Hi, > 想要在sqlgateway里面使用，那么可以看看下面几个条件： > 1 满足SPI的要求，能让flink自动发现实现类 > 2 配置FLINK_HOME环境变量，自定义的connector放在FLINK_HOME/lib下 > 3 如果与Hive集成，使用hivecatalog，那么先要注册表 > 这样就可以使用了。 > Best, > Xinghalo

FlinkKafkaConsumer消费kafka中avro格式的消息，直接用AvroDeserializationSchema总是运行失败，自己实现了一个AbstracteserializationSchema运行成功了。

2020-05-28 文章 hyangvv

我使用avro代码生成工具基于一个schema生成了UserView类，又实现了kafka的Serializer接口，代码如下： import org.apache.kafka.common.serialization.Serializer; import java.io.IOException; public class UserViewSerializer implements Serializer { @Override public byte[] serialize(String topic, UserView data) { byte[] arr

Re:flink写入hbase 报错如下还会导致反压任务变慢

2020-05-28 文章程龙

这不是flink的问题，之前遇到过相关问题 hbase region分裂的时候会出现此类问题你可以看看日志是否hbase region当时正在分裂，在 2020-05-28 16:57:35，"air23" 写道： 2020-05-28 16:54:23,867 INFO org.apache.hadoop.hbase.client.AsyncRequestFutureImpl - id=2, table=GC_SCHEM:mon1, attempt=7/16, failureCount=427ops, last

Re:Re: flink-sql watermark问题

2020-05-28 文章程龙

可以先在之前对于long类型的字段转换成Timestmap 类型再生成watermark 在 2020-05-28 17:00:53，"Benchao Li" 写道： >Hi， > >没太看明白你的问题是什么。目前的确是只支持Timestmap(3)作为事件时间列。 >之所以还不支持long作为事件时间列，主要考虑的是时区问题。但是这个社区也在考虑，可以参考[1] > >[1] https://issues.apache.org/jira/browse/FLINK-16938 > >guaishushu1...@163.com 于2020年5月28日周

Re: 疑问：flink sql 当一个env下多个insert语句共享一个view时，是否会影响view中kafka源表的offset提交

2020-05-28 文章 Benchao Li

Hi zhisheng&wind，这块内容在FLIP-84[1]里面做了大量的重构和优化，而且大部分工作在1.11已经完成了，你们可以看下。 [1] https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=134745878 wind.fly@outlook.com 于2020年5月28日周四下午5:45写道： > Hi, > > StreamTableEnvironment类似于TableEnvironment的Dag优化有版本规划吗？未来TableEnvironment的dag优化和Strea

回复：关于kubernetes native配置的疑问

2020-05-28 文章 a511955993

感谢两位大佬的回复，期待native kubernetes更多的特性出现 | | a511955993 | | 邮箱：a511955...@163.com | 签名由网易邮箱大师定制在2020年05月28日 17:39，Yang Wang 写道：您好，目前native方式还没有办法来挂载volume，包括hostpath、persistent volume等这个目前已经有了JIRA ticket[1]，但是还没有开始做如果你感兴趣，可以参与进来一起 [1]. https://issues.apache.org/jira/browse/FLINK-15649

回复: 疑问：flink sql 当一个env下多个insert语句共享一个view时，是否会影响view中kafka源表的offset提交

2020-05-28 文章 wind.fly....@outlook.com

Hi, StreamTableEnvironment类似于TableEnvironment的Dag优化有版本规划吗？未来TableEnvironment的dag优化和StreamTableEnvironment较丰富api会不会统一？ Best, Junbao Zhang 发件人: Benchao Li 发送时间: 2020年5月28日 17:35 收件人: user-zh 主题: Re: 疑问：flink sql 当一个env下多个insert语句共享一个view时，是否会影响view中kafka源表的offset提交

Re: 疑问：flink sql 当一个env下多个insert语句共享一个view时，是否会影响view中kafka源表的offset提交

2020-05-28 文章 zhisheng

Hi，Benchao http://zhisheng-blog.oss-cn-hangzhou.aliyuncs.com/2020-05-28-093940.jpg 这张图里面说的 TableEnvironment 不支持 UDAF/UDTF，那么如果想要用的话暂时有什么解决方法吗？社区大概什么时候会支持？ Thanks！ Benchao Li 于2020年5月28日周四下午5:35写道： > Hi, > > 时间差了13个小时这个比较奇怪，我理解不应该出现这个问题的。你是说不用TableEnvironment就不会出现这个问题么？ > > 第二个问题，TableEnviron

Re: 关于kubernetes native配置的疑问

2020-05-28 文章 Yang Wang

您好，目前native方式还没有办法来挂载volume，包括hostpath、persistent volume等这个目前已经有了JIRA ticket[1]，但是还没有开始做如果你感兴趣，可以参与进来一起 [1]. https://issues.apache.org/jira/browse/FLINK-15649 Best, Yang Yangze Guo 于2020年5月28日周四下午4:11写道： > 您好，我来回来一下第一个大问题 > > 1. > resources.requests.cpu和resources.limits.cpu都会被设置为kubernet

Re: 疑问：flink sql 当一个env下多个insert语句共享一个view时，是否会影响view中kafka源表的offset提交

2020-05-28 文章 Benchao Li

Hi, 时间差了13个小时这个比较奇怪，我理解不应该出现这个问题的。你是说不用TableEnvironment就不会出现这个问题么？第二个问题，TableEnvironment目前应该是没法设置checkpoint的，这个应该是只能在StreamExecutionEnvironment来配置吧。 wind.fly@outlook.com 于2020年5月28日周四下午5:27写道： > Hi, Benchao： > > DAG图是指向了同一个问题，但是用了TableEnvironment后，发现所有的时间都差了13个小时，比如调用LOCALTIMESTAMP函数。另外问一

回复: 疑问：flink sql 当一个env下多个insert语句共享一个view时，是否会影响view中kafka源表的offset提交

2020-05-28 文章 wind.fly....@outlook.com

Hi, Benchao： DAG图是指向了同一个问题，但是用了TableEnvironment后，发现所有的时间都差了13个小时，比如调用LOCALTIMESTAMP函数。另外问一个问题，使用TableEnvironment怎么设置checkpoint? Best, Junbao Zhang 发件人: Benchao Li 发送时间: 2020年5月28日 17:05 收件人: user-zh 主题: Re: 疑问：flink sql 当一个env下多个insert语句共享一个view时，是否会影响view中kaf

Re: flink写入hbase 报错如下还会导致反压任务变慢

2020-05-28 文章 Leonard Xu

Hi > org.apache.hadoop.hbase.RegionTooBusyException 这异常信息看起来像hbase集群在大量写入时碰到了问题，不像是flink这边的问题，建议排查下hbase侧，应该有一些参数可以优化。 Best, Leonard Xu

Re: 疑问：flink sql 当一个env下多个insert语句共享一个view时，是否会影响view中kafka源表的offset提交

2020-05-28 文章 Benchao Li

嗯，是的。这个是blink planner特有的优化，可以支持多个sink的DAG图的优化。你也可以看下Flink UI上的任务DAG图，比较明显的可以看到只有一个Source，后面接了两个Sink。 wind.fly@outlook.com 于2020年5月28日周四下午5:02写道： > Hi, Benchao： > 谢谢回复，经过测试确实是这样，也就是同一个TableEnvironment下，如果有多条insert语句访问同一个表，该表的数据只消费一次？ > > > > > Best, > Junbao Zhang > _

回复: 疑问：flink sql 当一个env下多个insert语句共享一个view时，是否会影响view中kafka源表的offset提交

2020-05-28 文章 wind.fly....@outlook.com

Hi, Benchao：谢谢回复，经过测试确实是这样，也就是同一个TableEnvironment下，如果有多条insert语句访问同一个表，该表的数据只消费一次？ Best, Junbao Zhang 发件人: Benchao Li 发送时间: 2020年5月28日 15:59 收件人: user-zh 主题: Re: 疑问：flink sql 当一个env下多个insert语句共享一个view时，是否会影响view中kafka源表的offset提交如果你的tEnv用的是TableEnvironment，而

Re: flink-sql watermark问题

2020-05-28 文章 Benchao Li

Hi，没太看明白你的问题是什么。目前的确是只支持Timestmap(3)作为事件时间列。之所以还不支持long作为事件时间列，主要考虑的是时区问题。但是这个社区也在考虑，可以参考[1] [1] https://issues.apache.org/jira/browse/FLINK-16938 guaishushu1...@163.com 于2020年5月28日周四下午4:22写道： > flink-1.10 sql只支持 timestamp（3）类型字段生成watermark > 但是long这样转换后也可以生成watermark很奇怪？ > CREATE TABLE us

flink写入hbase 报错如下还会导致反压任务变慢

2020-05-28 文章 air23

2020-05-28 16:54:23,867 INFO org.apache.hadoop.hbase.client.AsyncRequestFutureImpl - id=2, table=GC_SCHEM:mon1, attempt=7/16, failureCount=427ops, last exception=org.apache.hadoop.hbase.RegionTooBusyException: org.apache.hadoop.hbase.RegionTooBusyException: Above memstore limit, re

回复: flink-sql watermark问题

2020-05-28 文章 112039...@qq.com

w_ts as TO_TIMESTAMP(FROM_UNIXTIME(rowtime/1000),'-MM-dd HH:mm:ss'),这个语句产生的就是一个timestamp的数据Flink内置函数：https://ci.apache.org/projects/flink/flink-docs-release-1.10/zh/dev/table/functions/systemFunctions.htmlFROM_UNIXTIME(numeric[, string])： Returns a representation of the numeric argument as a

回复：recursive.file.enumeration使用问题

2020-05-28 文章阿华田

说明一下读取的数据还没有到今天的数据也就是提示文件不存在的目录xxx/ds=2020-05-28 | | 王志华 | | a15733178...@163.com | 签名由网易邮箱大师定制在2020年05月28日 16:36，阿华田写道：使用recursive.file.enumeration开启递归读取hdfs的目录文件，但是每次数据没有读完就会报如下错误： java.io.IOException: Error opening the InputSplit hdfs://xxx/ds=2020-05-28/hour=15/2020-05-28_15.log.flu

recursive.file.enumeration使用问题

2020-05-28 文章阿华田

使用recursive.file.enumeration开启递归读取hdfs的目录文件，但是每次数据没有读完就会报如下错误： java.io.IOException: Error opening the InputSplit hdfs://xxx/ds=2020-05-28/hour=15/2020-05-28_15.log.flume2_idcfeature_kafkamq.tmp [0,134217728]: File does not exist: /xxx/ds=2020-05-28/hour=15/ | | 王志华 | | a15733178...@163.com | 签名

flink-sql watermark问题

2020-05-28 文章 guaishushu1...@163.com

flink-1.10 sql只支持 timestamp（3）类型字段生成watermark 但是long这样转换后也可以生成watermark很奇怪？ CREATE TABLE user_log ( response_size int, rowtime BIGINT, w_ts as TO_TIMESTAMP(FROM_UNIXTIME(rowtime/1000),'-MM-dd HH:mm:ss'), WATERMARK FOR w_ts AS w_ts - INTERVAL '5' SECOND --5秒的延迟 ) guaishushu1...@163.com

Re: 关于kubernetes native配置的疑问

2020-05-28 文章 Yangze Guo

您好，我来回来一下第一个大问题 1. resources.requests.cpu和resources.limits.cpu都会被设置为kubernetes.jobmanager.cpu 2. external-resource..kubernetes.config-key 是为1.11的新特性扩展资源框架[1]而加入的。请不要使用它来配置cpu和memory。 [1] https://issues.apache.org/jira/browse/FLINK-17044 Best, Yangze Guo On Thu, May 28, 2020 at 3:48 PM wrote:

Re: 疑问：flink sql 当一个env下多个insert语句共享一个view时，是否会影响view中kafka源表的offset提交

2020-05-28 文章 Benchao Li

如果你的tEnv用的是TableEnvironment，而不是StreamTableEnvironment的话，两个insert会公用前面的source，也就是会只读取a表一次，然后分别给下游c和d用。 wind.fly@outlook.com 于2020年5月28日周四下午3:14写道： > Hi,all: > 当前使用版本flink 1.10.0，使用blink planner，假如有如下代码： > > tEnv.createTemporaryView("b", tEnv.sqlQuery("select * from a")); > tEnv.sqlUpdate("in

关于kubernetes native配置的疑问

2020-05-28 文章 a511955993

hi all 我在使用native kubernetes的时候，对几个配置项有疑问，想得到解答。 1. kubernetes.jobmanager.cpu配置项针对一个TM配置多少个cpu资源，是否在resources.requests.cpu 或者 resources.limits.cpu也做了配置？在https://ci.apache.org/projects/flink/flink-docs-master/ops/config.html#kubernetes上看到对应的一个新的配置external-resource..kubernetes.config-key。对exte

Re:Re: flink sql 写 hive分区表失败

2020-05-28 文章 Zhou Zach

回复的好详细！而且引出了相关的测试用例 Thanks very much！在 2020-05-28 14:23:33，"Leonard Xu" 写道： > >>|INSERT INTO dwdCatalog.dwd.t1_copy partition (`p_year` = p_year, >> `p_month` = p_month) >>|select id,name from dwdCatalog.dwd.t1 where `p_year` = 2020 and >> `p_month` = 4 > >动态分

疑问：flink sql 当一个env下多个insert语句共享一个view时，是否会影响view中kafka源表的offset提交

2020-05-28 文章 wind.fly....@outlook.com

Hi,all: 当前使用版本flink 1.10.0，使用blink planner，假如有如下代码： tEnv.createTemporaryView("b", tEnv.sqlQuery("select * from a")); tEnv.sqlUpdate("insert into c select * from b where b.con1 = '1'"); tEnv.sqlUpdate("insert into d select * from b where b.con1 = '2'"); 其中a是kafka表，connector属性为： 'connector.properti

43 matches

Mail list logo