奥,那你理解错了。这里面其实细分成2种情况:
- sink1和sink2,通过operator
chain之后,和source节点位于同一个物理节点:由于执行的时候,在一个JVM里,每处理一条数据,先发送给其中一个sink,再发送给另外一个sink。然后处理下一条数据
- sink1
和sink2,和source节点处于不同一个物理节点:这个时候是纯异步的,每处理一条数据,会分别通过网络发送给sink1和sink2,同时网络有buffer,所以sink1和sink2收到数据的顺序是完全不确定的。
但是不管是上面哪种情况,都不是先把数据全部发送给其中一个sink;再全部发送给第二个sin
简单提供了下 可复现的例子,请帮忙看看~谢谢!
--
Sent from: http://apache-flink.147419.n8.nabble.com/
flink 1.12
hadoop 2.7.5
hive 2.3.6
报错内容:
2021-03-15 16:29:43
org.apache.flink.connectors.hive.FlinkHiveException:
org.apache.flink.table.catalog.exceptions.CatalogException: Failed to create
Hive RecordWriter
at
org.apache.flink.connectors.hive.write.HiveWriterFactory.createRecordWriter(Hi
Caused by: java.lang.OutOfMemoryError: Java heap space
yinghua...@163.com
发件人: william
发送时间: 2021-03-15 16:32
收件人: user-zh
主题: flink 1.12 使用流式写入hive报错,Failed to create Hive RecordWriter
flink 1.12
hadoop 2.7.5
hive 2.3.6
报错内容:
2021-03-15 16:29:43
org.apache.flink.connectors.hive.FlinkHiveExc
Hi.
对于table scan而言
- +I和+U都是被认为是insert消息, changelog normalize 则是会将消息处理为正确的类型;
- 我们在scan的时候看到 tombstone的消息的value部分是空,因此直接将类型设置为delete,在changelog
normalize的时候会补全value部分的值。
- -u消息是不会存入到upsert-kafka之中的
详细的可以参考下这里的ppt[1]
Best,
Shengkai
[1] https://flink-learning.org.cn/developers/flink-training-cour
Hi, 麻烦帮忙看下这个问题:
创建 View promotionTable:
SELECT *, 'CN' as country, id as pid FROM promotion_cn_rule_tab UNION
SELECT *, 'JP' as country, id as pid FROM promotion_jp_rule_tab
FLink SQL Query:
SELECT t1.country, t1.promotionId, t1.orderId, CASE WHEN t2.pid IS NULL
THEN 'Rebate' ELSE 'Rebate' END
Hi, 麻烦帮忙看下这个问题:
创建 View promotionTable:
SELECT *, 'CN' as country, id as pid
FROM promotion_cn_rule_tab
UNION
SELECT *, 'JP' as country, id as pid
FROM promotion_jp_rule_tab
FLink SQL Query:
SELECT t1.country, t1.promotionId, t1.orderId,
CASE WHEN t2.pid IS NULL THEN 'Rebate'
ELSE 'Rebate'
EN
Hi
从你的日志看作业启动失败的原因是:
Caused by: java.lang.IllegalArgumentException: Wrong FS:
hdfs://xx/flink120/, expected: file:///
看上去你设置的地址和 需要的 schema 不一样,你需要解决一下这个问题
Best,
Congxian
todd 于2021年3月15日周一 下午2:22写道:
> 通过脚本提交flink作业,提交命令:
> /bin/flink run-application -t yarn-application
> -Dyarn.p
Flink 中 shuffle Partitioner 和 rebalance partitoner 有什么区别?
ShufflePartitioner:
public int selectChannel(SerializationDelegate>
record) {
return random.nextInt(numberOfChannels);
}
RebalancePartitioner
public int selectChannel(SerializationDelegate>
record) {
nextChannelToSendTo = (nextChannelToSendTo + 1) %
numberOfCh
问题:
通过如下命令提交任务到yarn-cluster,
flink run -m yarn-cluster -yjm 1024m -ytm 2048m -c
org.apache.flink.streaming.examples.wordcount.WordCount
/home/lpq/flink-examples-streaming_2.11.jar
在flink ui界面taskmanager总是0,任务无法启动,没有报错信息,不知道如何排查
yarn UI
flink ui
yarn container log
down cluster because applicatio
请问有flink + hudi或iceberg + aliyun oss的示例吗?谢谢!
Hi,
有几个疑问:
1)你说的map reduce函数具体指的什么?可以举一个例子吗?
2)DataSet API指的是Java的DataSet API吗?另外,Java的DataSet API会逐步废弃,统一到DataStream
API上来,所以PyFlink里不会支持DataSet API,只支持Python Table API和Python DataStream API
> 2021年3月13日 上午10:54,nova.he 写道:
>
> 你好,
>
> 最近项目想使用flink进行分布式计算,之前项目是Python的pandas项目,想尝试用pyf
我从flink yaml文件设置了如下配置项:
HADOOP_CONF_DIR:
execution.target: yarn-application
yarn.provided.lib.dirs:hdfs://...
pipeline.jars: hdfs://...
所以我不确定你们使用yarn-application如何进行的配置
--
Sent from: http://apache-flink.147419.n8.nabble.com/
任务异常自动重启,日志如下,伙伴们帮忙分析下问题。
2021-03-16 00:00:06
org.apache.flink.runtime.io.network.netty.exception.LocalTransportException:
readAddress(..) failed: Connection reset by peer (connection to '
10.35.100.171/10.35.100.171:2016')
at org.apache.flink.runtime.io.network.netty.
CreditBasedPartitionReque
您好,
目前同样在做pyflink 结合pandas的分布式计算调研和尝试,对于您的问题,仅有一些经验性的分享。
pyflink以后应该都会集成到DataStream,所以应该不会再支持DataSet;
不建议在计算中间采用 table.to_pandas()的方式进行table和dataFrame互转,会影响计算效率;
目前采用的计算效率较好的方式,是定义pandas类型的udf/udaf方式,但相较java版接口同样的方式,pyflink还是会慢很多;
个人感觉,pyflink耗时较多的地方,还是sql_query的操作,相同sql语句,执行效率上
两种情况:
情况1:jar打包不完整,重新打包试一下
情况2:缺少依赖
在2021年03月15日 21:59,刘朋强 写道:
问题:
通过如下命令提交任务到yarn-cluster,
flink run -m yarn-cluster -yjm 1024m -ytm 2048m -c
org.apache.flink.streaming.examples.wordcount.WordCount
/home/lpq/flink-examples-streaming_2.11.jar
在flink ui界面taskmanager总是0,任务无法启动,没有报错信息,不知道如何排查
yarn
Hi,
补充回答两点
1. 现在Table上是支持sliding window和Tumpling Window的Pandas UDAF[1]的,
在1.13会支持session
window的UDAF的支持。对于datastream上window的支持,对于上述几种window,你可以转到table上去操作,对于自定义window,datastream会在1.13支持。
2. 关于性能问题,如果你不使用Python
UDFs的话,本质就是跑的Java的代码,python起的作用只是在客户端编译JobGraph的作用,所以不存在说Python
sql_update的运行性能比Java的慢,
??flinksqlcount (distinct??state??
19 matches
Mail list logo