Re: 关于statement输出结果疑问

2021-03-15 Thread Dian Fu
奥,那你理解错了。这里面其实细分成2种情况: - sink1和sink2,通过operator chain之后,和source节点位于同一个物理节点:由于执行的时候,在一个JVM里,每处理一条数据,先发送给其中一个sink,再发送给另外一个sink。然后处理下一条数据 - sink1 和sink2,和source节点处于不同一个物理节点:这个时候是纯异步的,每处理一条数据,会分别通过网络发送给sink1和sink2,同时网络有buffer,所以sink1和sink2收到数据的顺序是完全不确定的。 但是不管是上面哪种情况,都不是先把数据全部发送给其中一个sink;再全部发送给第二个sin

Re: 关于pyflink LATERAL TABLE 问题请教

2021-03-15 Thread 陈康
简单提供了下 可复现的例子,请帮忙看看~谢谢! -- Sent from: http://apache-flink.147419.n8.nabble.com/

flink 1.12 使用流式写入hive报错,Failed to create Hive RecordWriter

2021-03-15 Thread william
flink 1.12 hadoop 2.7.5 hive 2.3.6 报错内容: 2021-03-15 16:29:43 org.apache.flink.connectors.hive.FlinkHiveException: org.apache.flink.table.catalog.exceptions.CatalogException: Failed to create Hive RecordWriter at org.apache.flink.connectors.hive.write.HiveWriterFactory.createRecordWriter(Hi

Re: flink 1.12 使用流式写入hive报错,Failed to create Hive RecordWriter

2021-03-15 Thread yinghua...@163.com
Caused by: java.lang.OutOfMemoryError: Java heap space yinghua...@163.com 发件人: william 发送时间: 2021-03-15 16:32 收件人: user-zh 主题: flink 1.12 使用流式写入hive报错,Failed to create Hive RecordWriter flink 1.12 hadoop 2.7.5 hive 2.3.6 报错内容: 2021-03-15 16:29:43 org.apache.flink.connectors.hive.FlinkHiveExc

Re: Upsert Kafka 的format 为什么要求是INSERT-ONLY的

2021-03-15 Thread Shengkai Fang
Hi. 对于table scan而言 - +I和+U都是被认为是insert消息, changelog normalize 则是会将消息处理为正确的类型; - 我们在scan的时候看到 tombstone的消息的value部分是空,因此直接将类型设置为delete,在changelog normalize的时候会补全value部分的值。 - -u消息是不会存入到upsert-kafka之中的 详细的可以参考下这里的ppt[1] Best, Shengkai [1] https://flink-learning.org.cn/developers/flink-training-cour

Flink Temporal Join Two union Hive Table Error

2021-03-15 Thread macia kk
Hi, 麻烦帮忙看下这个问题: 创建 View promotionTable: SELECT *, 'CN' as country, id as pid FROM promotion_cn_rule_tab UNION SELECT *, 'JP' as country, id as pid FROM promotion_jp_rule_tab FLink SQL Query: SELECT t1.country, t1.promotionId, t1.orderId, CASE WHEN t2.pid IS NULL THEN 'Rebate' ELSE 'Rebate' END

Flink Temporal Join Two union Hive Table Error

2021-03-15 Thread macia kk
Hi, 麻烦帮忙看下这个问题: 创建 View promotionTable: SELECT *, 'CN' as country, id as pid FROM promotion_cn_rule_tab UNION SELECT *, 'JP' as country, id as pid FROM promotion_jp_rule_tab FLink SQL Query: SELECT t1.country, t1.promotionId, t1.orderId, CASE WHEN t2.pid IS NULL THEN 'Rebate' ELSE 'Rebate' EN

Re: flink1.12版本,使用yarn-application模式提交任务失败

2021-03-15 Thread Congxian Qiu
Hi 从你的日志看作业启动失败的原因是: Caused by: java.lang.IllegalArgumentException: Wrong FS: hdfs://xx/flink120/, expected: file:/// 看上去你设置的地址和 需要的 schema 不一样,你需要解决一下这个问题 Best, Congxian todd 于2021年3月15日周一 下午2:22写道: > 通过脚本提交flink作业,提交命令: > /bin/flink run-application -t yarn-application > -Dyarn.p

Flink shuffle vs rebalance

2021-03-15 Thread 赢峰
Flink 中 shuffle Partitioner 和 rebalance partitoner 有什么区别?

Re: Flink shuffle vs rebalance

2021-03-15 Thread Kezhu Wang
ShufflePartitioner: public int selectChannel(SerializationDelegate> record) { return random.nextInt(numberOfChannels); } RebalancePartitioner public int selectChannel(SerializationDelegate> record) { nextChannelToSendTo = (nextChannelToSendTo + 1) % numberOfCh

flink yarn-perjob提交任务无法启动

2021-03-15 Thread 刘朋强
问题: 通过如下命令提交任务到yarn-cluster, flink run -m yarn-cluster -yjm 1024m -ytm 2048m -c org.apache.flink.streaming.examples.wordcount.WordCount /home/lpq/flink-examples-streaming_2.11.jar 在flink ui界面taskmanager总是0,任务无法启动,没有报错信息,不知道如何排查 yarn UI flink ui yarn container log down cluster because applicatio

请问有flink + hudi或iceberg + aliyun oss的示例吗?

2021-03-15 Thread casel.chen
请问有flink + hudi或iceberg + aliyun oss的示例吗?谢谢!

Re: Pyflink dataset没有支持相关map reduce函数

2021-03-15 Thread Dian Fu
Hi, 有几个疑问: 1)你说的map reduce函数具体指的什么?可以举一个例子吗? 2)DataSet API指的是Java的DataSet API吗?另外,Java的DataSet API会逐步废弃,统一到DataStream API上来,所以PyFlink里不会支持DataSet API,只支持Python Table API和Python DataStream API > 2021年3月13日 上午10:54,nova.he 写道: > > 你好, >       > 最近项目想使用flink进行分布式计算,之前项目是Python的pandas项目,想尝试用pyf

Re: flink1.12版本,使用yarn-application模式提交任务失败

2021-03-15 Thread todd
我从flink yaml文件设置了如下配置项: HADOOP_CONF_DIR: execution.target: yarn-application yarn.provided.lib.dirs:hdfs://... pipeline.jars: hdfs://... 所以我不确定你们使用yarn-application如何进行的配置 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Connection reset by peer

2021-03-15 Thread yidan zhao
任务异常自动重启,日志如下,伙伴们帮忙分析下问题。 2021-03-16 00:00:06 org.apache.flink.runtime.io.network.netty.exception.LocalTransportException: readAddress(..) failed: Connection reset by peer (connection to ' 10.35.100.171/10.35.100.171:2016') at org.apache.flink.runtime.io.network.netty. CreditBasedPartitionReque

Re: pyflink使用的一些疑问

2021-03-15 Thread xiaoyue
您好, 目前同样在做pyflink 结合pandas的分布式计算调研和尝试,对于您的问题,仅有一些经验性的分享。 pyflink以后应该都会集成到DataStream,所以应该不会再支持DataSet; 不建议在计算中间采用 table.to_pandas()的方式进行table和dataFrame互转,会影响计算效率; 目前采用的计算效率较好的方式,是定义pandas类型的udf/udaf方式,但相较java版接口同样的方式,pyflink还是会慢很多; 个人感觉,pyflink耗时较多的地方,还是sql_query的操作,相同sql语句,执行效率上

回复:flink yarn-perjob提交任务无法启动

2021-03-15 Thread lian
两种情况: 情况1:jar打包不完整,重新打包试一下 情况2:缺少依赖 在2021年03月15日 21:59,刘朋强 写道: 问题: 通过如下命令提交任务到yarn-cluster, flink run -m yarn-cluster -yjm 1024m -ytm 2048m -c org.apache.flink.streaming.examples.wordcount.WordCount /home/lpq/flink-examples-streaming_2.11.jar 在flink ui界面taskmanager总是0,任务无法启动,没有报错信息,不知道如何排查 yarn

Re: pyflink使用的一些疑问

2021-03-15 Thread Xingbo Huang
Hi, 补充回答两点 1. 现在Table上是支持sliding window和Tumpling Window的Pandas UDAF[1]的, 在1.13会支持session window的UDAF的支持。对于datastream上window的支持,对于上述几种window,你可以转到table上去操作,对于自定义window,datastream会在1.13支持。 2. 关于性能问题,如果你不使用Python UDFs的话,本质就是跑的Java的代码,python起的作用只是在客户端编译JobGraph的作用,所以不存在说Python sql_update的运行性能比Java的慢,

flink sql ?? count(distinct )????

2021-03-15 Thread op
??flinksqlcount (distinct??state??