退订请发送邮件到 user-zh-unsubscr...@flink.apache.org
Best,
Weihua
On Tue, Feb 28, 2023 at 12:13 AM zhangjunjie
wrote:
> 退订
>
>
>
退订
Hi,
可以详细描述下你的使用 case 吗?用的 SQL 语句是什么样子的
Best,
Weihua
On Mon, Feb 27, 2023 at 12:51 PM wei_yuze wrote:
> 您好!
>
>
>
>
> 我在使用Windowing table-valued functions (Windowing TVFs) 的时候,GROUP BY 中一旦加上
> window_start, window_end 就没有输出,但也不报错。请问有哪位大佬知道是什么原因吗?
>
> Lucas
| ?? | fei<704669...@qq.com.INVALID> |
| | 2023??02??26?? 09:02 |
| ?? | user-zh |
| ?? | |
| | |
退订请发送邮件至 user-zh-unsubscr...@flink.apache.org
Best,
Jane
On Fri, Feb 24, 2023 at 7:43 PM LITA LITA wrote:
> 退订
>
> <704669...@qq.com.invalid> 于2023年2月24日周五 07:58写道:
>
> > 退订
> >
> >
>
Hi,
原问题中 String 变量 kafka 和 mysql 赋值反了, 以及能提供下所使用的 flink 版本吗, 我使用 1.16.1 没有复现此问题
payload
{
"before": {
"rowid": "f251af39-1a95-4d6f-b4cb-cdf93d5d1b6d",
"63f73b332e77497da91286f0": "Jerry",
"63f73b3f2e77497da91286fb": "mobile number",
"63f73b3f2e77497da91286fc": "telephone
退订
<704669...@qq.com.invalid> 于2023年2月24日周五 07:58写道:
> 退订
>
>
Hi
你可以贴一下错误看下具体原因
Best,
Shammon
On Fri, Feb 24, 2023 at 6:10 PM Peihui He wrote:
> Hi, all
>
> 请教大家有没有遇到这样的情况,flink 使用avro
> 消费kafka中数据,后来在schema结构中加入新的字段。在灰度过程中会混杂着新老数据,这样的flink 消费程序就会挂掉。
>
> 大家一般是怎么处理的呢
>
> Best Wishes.
>
Hi, all
请教大家有没有遇到这样的情况,flink 使用avro
消费kafka中数据,后来在schema结构中加入新的字段。在灰度过程中会混杂着新老数据,这样的flink 消费程序就会挂掉。
大家一般是怎么处理的呢
Best Wishes.
更乱了哦...可以尝试加个附件或推到 github, 贴个链接
On Fri, Feb 24, 2023 at 4:59 PM wei_yuze wrote:
>
>
-建表语法如下
String kafka = "CREATE TABLE `电话` " +
"(`rowID` VARCHAR(255),`名称` STRING,`手机` VARCHAR(255),`座机` VARCHAR(255), " +
" PRIMARY KEY (`rowID`) NOT ENFORCED ) " +
" WITH " +
"('connector' = 'jdbc', " +
" 'driver' = 'com.mysql.cj.jdbc.Driver', " +
" 'url' =
从 region 改为 full 会扩容单个 Task 故障的影响范围,可以参考社区文档:
https://nightlies.apache.org/flink/flink-docs-release-1.16/docs/ops/state/task_failure_recovery/
Best,
Weihua
On Fri, Feb 24, 2023 at 2:12 PM 唐世伟 wrote:
> 谢谢回复,我看日志已经超出来yarn保存的期限被删了。另外Failover从region改为full。是不是能避免这个问题啊?
>
> > 2023年2月23日
谢谢回复,我看日志已经超出来yarn保存的期限被删了。另外Failover从region改为full。是不是能避免这个问题啊?
> 2023年2月23日 上午11:36,Weihua Hu 写道:
>
> Hi,
>
> 在 Cancel 其他 task 时会先将 task 状态置为 cancelling,这时 task 失败是不会二次触发 Failover 的。
> 可以检查下是不是作业划分了多个 region,多个 region 的异常是统一计数的。
>
> 或者可以贴一下日志吗?
>
>
> Best,
> Weihua
>
>
> On Thu, Feb 23,
> 你说的这个参数我看了默认值不是auto吗?需要我显式地指定为force?
Sink upsert materialize would be applied in the following circumstances:
1. `TABLE_EXEC_SINK_UPSERT_MATERIALIZE` set to FORCE and sink's primary key
nonempty.
2. `TABLE_EXEC_SINK_UPSERT_MATERIALIZE` set to AUTO and sink's primary key
doesn't contain upsert
你说的这个参数我看了默认值不是auto吗?需要我显式地指定为force?
Because of the disorder of ChangeLog data caused by Shuffle in distributed
system, the data received by Sink may not be the order of global upsert. So add
upsert materialize operator before upsert sink. It receives the upstream
changelog records and
退订
The Apache Flink community is very happy to announce the release of Apache
Flink Kubernetes Operator 1.4.0.
The Flink Kubernetes Operator allows users to manage their Apache Flink
applications and their lifecycle through native k8s tooling like kubectl.
Release highlights:
- Flink Job
退订请发送邮件到 user-zh-unsubscr...@flink.apache.org
Best,
Shammon
On Thu, Feb 23, 2023 at 11:03 AM 宋品如 wrote:
> 退订
Hi,
在 Cancel 其他 task 时会先将 task 状态置为 cancelling,这时 task 失败是不会二次触发 Failover 的。
可以检查下是不是作业划分了多个 region,多个 region 的异常是统一计数的。
或者可以贴一下日志吗?
Best,
Weihua
On Thu, Feb 23, 2023 at 11:16 AM 唐世伟 wrote:
> 我们有一个flink任务,同时写10几张doris表,每次doris出问题的时候任务就挂,flink的重启策略没有效果。
> flink的重启配置入下:
> restart-strategy:
我们有一个flink任务,同时写10几张doris表,每次doris出问题的时候任务就挂,flink的重启策略没有效果。
flink的重启配置入下:
restart-strategy: failure-rate
restart-strategy.failure-rate.delay: 60 s
restart-strategy.failure-rate.failure-rate-interval: 10 min
restart-strategy.failure-rate.max-failures-per-interval: 3
退订
退订
Hi
目前SQL还不支持watermark对齐,目前有FLIP正在讨论中
https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=240884405
Best,
Shammon
On Wed, Feb 22, 2023 at 3:15 PM haishui wrote:
> Hi, all
> 以并行度4读取kafka的topic1和topic2形成两个流,然后IntervalJoin。在kafka堆积大量数据的情况下,我分别用SQL和DataStream
> API实现了上述功能。
>
>
>
Hi,
Re *"如何确保同一主键变更记录(上游接的是cdc数据源)的时间先后顺序性呢?", *checking out
ExecutionConfigOptions.TABLE_EXEC_SINK_UPSERT_MATERIALIZE for details about
solution of disordering problems in KeyBy shuffling.
Best,
Shuo
On Wed, Feb 22, 2023 at 10:23 AM casel.chen wrote:
>
>
Hi, all
以并行度4读取kafka的topic1和topic2形成两个流,然后IntervalJoin。在kafka堆积大量数据的情况下,我分别用SQL和DataStream
API实现了上述功能。
使用SQL实现的作业中IntervalJoin算子的状态会逐渐增大,直到checkpoint失败。原因是在8个Source分区中输出水位线差距很大。
使用API实现的作业,在使用Flink15版本的水位线对齐后可以保证正常读取topic内的所有数据。
如果想保证每次写入 mysql 的事件是最新的,需要在 Flink 内部针对事件时间排序取 TOP 1, 可以参考[1]。 但是需要注意这需要使用
state,你可以需要指定合适的 TTL[2] 来保证 state 不会过大
[1]
https://nightlies.apache.org/flink/flink-docs-master/docs/dev/table/sql/queries/topn/
[2]
退订请发送邮件到 user-zh-unsubscr...@flink.apache.org
Best regards,
Weijie
宋品如 于2023年2月22日周三 11:37写道:
> 退订
>
>
>
>
>
>
>
>
>
>
> --
>
> 祝工作顺利,生活愉快!
> 发件人:宋品如
> 岗位:大数据开发
退订请发送邮件到 user-zh-unsubscr...@flink.apache.org
Best regards,
Weijie
646208563 于2023年2月22日周三 11:39写道:
> 退订
如果像楼上所说[1]主动keyby将同一主键记录汇聚到同一个TM处理的话,Flink如何确保同一主键变更记录(上游接的是cdc数据源)的时间先后顺序性呢?
在 2023-02-20 09:50:50,"Shengkai Fang" 写道:
>我理解如果sink 表上带有 pk,就会主动 keyby 的[1]。
>
>Best,
>Shengkai
>
>[1]
非常感谢,切换账户之后,有些job是能dump下来,但是有些job还是会报相同的错误,并且已经确认过flink作业的user和运行linux命令的user是一致的。
在 2023-02-21 11:26:07,"Biao Geng" 写道:
>Hi,
>这个报错 sun.jvm.hotspot.debugger.UnmappedAddressException: 7f74efa5d410
>可能和flink关系不大。
>我们之前在生产环境中dump内存的时候遇到过类似问题,后续定位发现是运行jmap命令的Linux
Hi,
Maybe you can use CURRENT_WATERMARK()[1] to handle some late data.
[1]
https://nightlies.apache.org/flink/flink-docs-master/docs/dev/table/functions/systemfunctions/
Best,
Weihua
On Tue, Feb 21, 2023 at 1:46 PM wang <24248...@163.com> wrote:
> Hi dear engineers,
>
> One question as
Hi dear engineers,
One question as title: Whether Flink SQL window operations support "Allow
Lateness and SideOutput"?
Just as supported in Datastream api (allowedLateness and sideOutputLateData)
like:
SingleOutputStreamOperator<>sumStream = dataStream.keyBy().timeWindow()
Hi,
可以看到你的问题,你需要订阅 user-zh 的邮件列表才能收到相关的回复,可以参考:
https://flink.apache.org/community.html
Best,
Weihua
On Tue, Feb 21, 2023 at 12:17 PM 知而不惑 wrote:
> 有收到我的问题吗
>
>
>
>
> --原始邮件--
> 发件人:
> "user-zh"
>
>
Hi,
这个报错 sun.jvm.hotspot.debugger.UnmappedAddressException: 7f74efa5d410
可能和flink关系不大。
我们之前在生产环境中dump内存的时候遇到过类似问题,后续定位发现是运行jmap命令的Linux user与运行flink作业的Linux
user不一致导致的。
不知道和你们的问题一不一致,你可以试试t用op -p 查到USER,然后su 一下,再进行jmap
-dump:format=b,file=/tmp/dump.hprof 试试。
Best,
Biao Geng
Weihua Hu
Hi,
可以把具体的报错信息贴一下,另外代码中没有看到使用 listState 缓存元素的部分
Best,
Weihua
On Tue, Feb 21, 2023 at 9:38 AM 知而不惑 wrote:
> 各位大佬好
> 我使用广播流与非广播流进行connet,随后继承实现了BroadcastProcessFunction,运行时发现在自定义实现的BroadcastProcessFunction
> 中,广播流数据会先到,导致processElement() 中获取广播流数据为空,请问有什么写法或机制解决该问题?我尝试在谷歌和chatgpt
> 找寻答案,给到的回复是
hi, all
如题,看了https://mp.weixin.qq.com/s/PT8ImeOOheXR295gQRsN8w
这篇文章后,发现第四个问题没有讲到解决方案。
请教大家有什么好的方案没呢?
Best Wishes!
Hi,
可以尝试使用: json.ignore-parse-errors[1] 来忽略解析的报错,需要注意这个参数会忽略所有的解析错误
[1]
https://nightlies.apache.org/flink/flink-docs-master/docs/connectors/table/formats/json/#json-ignore-parse-errors
Best,
Weihua
On Mon, Feb 20, 2023 at 10:14 AM casel.chen wrote:
> 日志中就是报这个 "type":"INIT_DDL"
Hi,
可以把心跳超时(heartbeat.timeout)[1]也调大再尝试 dump 内存。
[1]
https://nightlies.apache.org/flink/flink-docs-master/docs/deployment/config/#advanced-fault-tolerance-options
Best,
Weihua
On Mon, Feb 20, 2023 at 1:58 PM lxk wrote:
> 我尝试调整了参数,具体数值如下
>
>
> akka.ask.timeout: 900s
>
>
>
> 但还是报同样的错
>
>
>
>
我尝试调整了参数,具体数值如下
akka.ask.timeout: 900s
但还是报同样的错
在 2023-02-17 17:32:51,"Guo Thompson" 写道:
>可能是jm 和 tm之间的心跳时间太短了, dump的过程会stop the world,tm就不响应jm的heartbeat了;
>
>lxk 于2023年2月14日周二 14:32写道:
>
>> Flink version:1.16
>> java version: jdk1.8.0_251
>> 问题:最近上线的Flink程序,频繁young
>>
我们改了权限确实解决了这个问题。但我现在想了解的是为什么Flink在1.16的时候需要创建producerID的权限,以及这个权限是不是针对新老Kafka
API都需要的。针对新的Kafka
API在精准一次的时候需要管理ProducerID在源码中有体现,但是老的API没看见相关的,只使用了一个ProducerID也需要由Flink内部自己管理吗?
在 2023-02-20 08:45:18,"Shammon FY" 写道:
>Hi
>
>从`Caused by:
Flink SQL作业示意如下:
create table user_source_table (
id BIGINT NOT NULL PRIMARY KEY NOT ENFORCED,
name STRING,
dept_id BIGINT NOT NULL,
proctime AS PROCTIME()
) with (
'connector' = 'kafka',
'format' = 'canal-json',
...
);
create table department_dim_table (
id BIGINT NOT NULL
日志中就是报这个 "type":"INIT_DDL" 不能识别呀,然后作业就退出了
在 2023-02-20 09:58:56,"Shengkai Fang" 写道:
>Hi. 能同时分享下复现这个 case 的sql 以及相关的报错栈吗?
>
>Best,
>Shengkai
>
>casel.chen 于2023年2月9日周四 12:03写道:
>
>> 不同云厂商的数据同步工具对于全量+增量同步mysql数据到kafka canal json格式时行为不一致
>> 有的厂商会将DDL语句同步到topic导致下游flink
你说的这个在写入之前进行shuffle(先执行一个group by主键)这个操作我认为应该是Flink框架层面的事情,不应该在作业层面显式添加。
Flink框架应该在执行sink的时候判断目标表是否有主键,如果有主键的话应该插入一个group by算子将相同主键的记录发到同一个TaskManager处理。
我听说 Flink新版本1.15还是1.16不记得了已经改进了这个问题,有谁知道吗?有相关issue或PR链接没?
在 2023-02-19 13:43:29,"RS" 写道:
>Hi,
Hi. 能同时分享下复现这个 case 的sql 以及相关的报错栈吗?
Best,
Shengkai
casel.chen 于2023年2月9日周四 12:03写道:
> 不同云厂商的数据同步工具对于全量+增量同步mysql数据到kafka canal json格式时行为不一致
> 有的厂商会将DDL语句同步到topic导致下游flink sql作业不能识别抛错,建议flink canal
> json格式解析时直接忽略不识别的type,例如
> 例1:
>
我理解如果sink 表上带有 pk,就会主动 keyby 的[1]。
Best,
Shengkai
[1]
https://github.com/apache/flink/blob/master/flink-table/flink-table-planner/src/main/java/org/apache/flink/table/planner/plan/nodes/exec/common/CommonExecSink.java#L188
Shammon FY 于2023年2月20日周一 08:41写道:
> Hi
>
>
Hi
从`Caused by: org.apache.kafka.common.errors.ClusterAuthorizationException:
Cluster authorization failed.`这个错误看起来像是权限错误,可以你检查下是否有权限问题
Best,
Shammon
On Fri, Feb 17, 2023 at 6:29 PM lxk wrote:
> Flink版本:1.16
> 目前公司针对Flink版本进行升级,从Flink1.14升级到Flink1.16,代码没做任何调整,但是在写入kafka的时候报错:
> 2023-02-17
Hi
如果join计算的关联字段里没有主键,在将join结果直接写入sink表时,像上面RS提到的,需要自己再增加一次shuffle操作
Best,
Shammon
On Sun, Feb 19, 2023 at 1:43 PM RS wrote:
> Hi,
> connector里面配置的主键控制是写入存储的,有些存储在写入数据的时候,能根据主键自动更新去重
> 所以我感觉,你这里的应该是想在计算的时候shuffle(写入之前),你应该需要先执行一个 group by 主键,然后再执行insert into
>
>
> Thanks
>
>
>
> 在 2023-02-17
Hi,
connector里面配置的主键控制是写入存储的,有些存储在写入数据的时候,能根据主键自动更新去重
所以我感觉,你这里的应该是想在计算的时候shuffle(写入之前),你应该需要先执行一个 group by 主键,然后再执行insert into
Thanks
在 2023-02-17 15:56:51,"casel.chen" 写道:
>作业场景是kafka cdc数据源关联几张redis维表再和其他流表进行双流regular inner
>join,最后将打宽表写入mongodb。使用的是flink 1.13.2 sql模式。开了debug日志。
Flink版本:1.16
目前公司针对Flink版本进行升级,从Flink1.14升级到Flink1.16,代码没做任何调整,但是在写入kafka的时候报错:
2023-02-17 15:03:19
org.apache.kafka.common.KafkaException: Cannot execute transactional method
because we are in an error state
at
可能是jm 和 tm之间的心跳时间太短了, dump的过程会stop the world,tm就不响应jm的heartbeat了;
lxk 于2023年2月14日周二 14:32写道:
> Flink version:1.16
> java version: jdk1.8.0_251
> 问题:最近上线的Flink程序,频繁young
> gc,几秒一次,在调整了新生代大小之后,还是没有解决,目前整个jvm堆大小是3.57g。因此想通过程序内存情况来分析哪里问题有问题,我们通过yarn上的applicationId,使用ps
> -ef|grep
作业场景是kafka cdc数据源关联几张redis维表再和其他流表进行双流regular inner
join,最后将打宽表写入mongodb。使用的是flink 1.13.2 sql模式。开了debug日志。
测试下来发现相同主键的记录在不同的taskmanager上打了日志(我是在Sink
Function的invoke方法打的日志),该行为导致最终结果表数据不正确。
请问:
flink sql写数据到带主键表时能确保相同主键的记录都被同一个taskmanager处理吗?
是因为flink版本旧不支持吗?从flink哪个版本开始支持的呢?
我理解flink
Thank you for your reply
But in my local test environment (flink1.15 and flink1.16), when the chain of
writer and commiter is disabled, the back pressure can be reduced.
The specific phenomenon is as follows:
1. After ck-4 is completed, the commit execution is very slow
2. At this time, the
Hi wudi
I'm afraid it cannot reduce back pressure. If Writer and Commiter are not
chained together, and the Commiter task runs slowly, it can block the
upstream Writer tasks by back pressure too.
On the other hand, you can try to increase the parallelism of sink node to
speedup the Commiter
目前应该是不支持,一个替代方案是利用concat函数将数组转成string作为输入,再在你的UDF中拆成数组进行处理。
在 2023-02-15 16:29:19,"723849736" <723849...@qq.com.INVALID> 写道:
>大家好,
>
>我在用flink sql的时候有一个场景,就是需要对数组中的某一列做变换,类似于spark sql中的tranform函数
>
>
>https://spark.apache.org/docs/latest/api/sql/index.html#transform
>
>
>目前flink
thanks for your replies.
I think that if Writer and Commiter are not chained together, data consistency
can be guaranteed, right?
Because when the Commiter does not block the Writer, at the next Checkpoint, if
the Commit is not completed, the SinkWriter.precommit will not be triggered
In
As far as I know that chain between committer and writer is also
required for correctness.
On 16/02/2023 14:53, weijie guo wrote:
Hi wu,
I don't think it is a good choice to directly change the strategy of
chain. Operator chain usually has better performance and resource
utilization. If we
Hi wu,
I don't think it is a good choice to directly change the strategy of chain.
Operator chain usually has better performance and resource utilization. If
we directly change the chain policy between them, users can no longer chain
them together, which is not a good starting point.
Best
Thank you for your reply.
Currently in the custom Sink Connector, the Flink task will combine Writer and
Committer into one thread, and the thread name is similar: [Sink: Writer ->
Sink: Committer (1/1)#0].
In this way, when the Committer.commit() method is very slow, it will block the
Hi
Do you mean how to disable `chain` in your custom sink connector? Can you
give an example of what you want?
On Wed, Feb 15, 2023 at 10:42 PM di wu <676366...@qq.com> wrote:
> Hello
>
> The current Sink operator will be split into two operations, Writer and
> Commiter. By default, they will
Hi
可以考虑将这个function打入到udf包里,在自定义的udf里直接调用?
On Wed, Feb 15, 2023 at 4:29 PM 723849736 <723849...@qq.com.invalid> wrote:
> 大家好,
>
> 我在用flink sql的时候有一个场景,就是需要对数组中的某一列做变换,类似于spark sql中的tranform函数
>
>
> https://spark.apache.org/docs/latest/api/sql/index.html#transform
>
>
> 目前flink
Hi
上面TM心跳出现unreachable,一般是TM退出了,可以看下退出原因
下面Checkpoint超时,可以看下是否出现反压等问题,也可以看checkpoint执行时间,考虑增加checkpoint超时时间
Best,
Shammon
On Thu, Feb 16, 2023 at 10:34 AM lxk wrote:
> 你好,可以dump下内存分析
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
> 在 2023-02-16 10:05:19,"Fei Han" 写道:
> >@all
> >大家好!我的Flink
你好,可以dump下内存分析
在 2023-02-16 10:05:19,"Fei Han" 写道:
>@all
>大家好!我的Flink 版本是1.14.5。CDC版本是2.2.1。在on yarn 运行一段时间后会出现如下报错:
>org.apache.flink.runtime.jobmaster.JobMasterException: TaskManager with id
>container_e506_1673750933366_49579_01_02(hdp-server-010.yigongpin.com:8041)
> is
@all
大家好!我的Flink 版本是1.14.5。CDC版本是2.2.1。在on yarn 运行一段时间后会出现如下报错:
org.apache.flink.runtime.jobmaster.JobMasterException: TaskManager with id
container_e506_1673750933366_49579_01_02(hdp-server-010.yigongpin.com:8041)
is no longer reachable. at
你好,
目前 Flink SQL 还不支持为每条流单独设置 state TTL, 不过社区计划支持这个功能, 最近就会有 FLIP 提出, 也欢迎参与讨论.
Best regards,
Jane
On Wed, Feb 15, 2023 at 11:13 AM Jason_H wrote:
> 大家好,
> 我遇到一个问题,在使用flinksql做双流join时,我用的是常规的regular
> join,分别是一条数据流,一条维表流,现在我想单独给数据流设置ttl,请教一下可以怎么做,flink版本是1.15.2
>
>
> | |
> Jason_H
> |
> |
>
大家好,
我遇到一个问题,在使用flinksql做双流join时,我用的是常规的regular
join,分别是一条数据流,一条维表流,现在我想单独给数据流设置ttl,请教一下可以怎么做,flink版本是1.15.2
| |
Jason_H
|
|
hyb_he...@163.com
|
Hi
这个是无法办到的,建议还是重启
On Mon, Feb 13, 2023 at 4:33 PM Jason_H wrote:
> 遇到的问题:在flink中,使用状态的地方已经设置了ttl, 但是上下游把数据清空了,然后想重新测试发现,
> flink计算的结果不是从0开始累计的,是基于之前的结果继续累计的,这种情况在不重启作业的情况下 有什么办法处理吗?
>
>
> 具体来说就是,在不停止flink作业的情况下,怎么清楚运行中的flink作业的状态数据,以达到计算结果归0开始累计。
>
>
>
Flink version:1.16
java version: jdk1.8.0_251
问题:最近上线的Flink程序,频繁young
gc,几秒一次,在调整了新生代大小之后,还是没有解决,目前整个jvm堆大小是3.57g。因此想通过程序内存情况来分析哪里问题有问题,我们通过yarn上的applicationId,使用ps
-ef|grep 1666758697316_2639108,找到对应的pid,最后执行 jmap -dump:format
b,file=user.dump 26326
遇到的问题:在flink中,使用状态的地方已经设置了ttl, 但是上下游把数据清空了,然后想重新测试发现,
flink计算的结果不是从0开始累计的,是基于之前的结果继续累计的,这种情况在不重启作业的情况下 有什么办法处理吗?
具体来说就是,在不停止flink作业的情况下,怎么清楚运行中的flink作业的状态数据,以达到计算结果归0开始累计。
在不重启作业的情况下,清空状态数据是不是和重启作业运行是一样的效果,避免状态累计数据对结果产生影响呢。
| |
Jason_H
|
|
hyb_he...@163.com
|
hi all
最近遇到一个问题,flink消费 kafka,kafka单条 msg 大概在 7kb(json
格式,value值大),流量较大,很快会产生堆积。处理逻辑已经过调优,目前的瓶颈是在 poll
消息的时候,1w条消息(总共70mb)大概要3s才能拉取结束,已经尝试调节过consumer配置,没有较好的性能提升,请问有较好解决的方案吗?
props.put("key.deserializer",
"org.apache.kafka.common.serialization.StringDeserializer");
退订
退订
weijie guo 于2023年2月8日周三 05:29写道:
> Hi,
>
> 你需要发送邮件到 user-zh-unsubscr...@flink.apache.org
> 而不是 user-zh@flink.apache.org.
>
>
> Best regards,
>
> Weijie
>
>
> wujunxi <462329...@qq.com.invalid> 于2023年2月7日周二 16:52写道:
>
> > 退订
>
不同云厂商的数据同步工具对于全量+增量同步mysql数据到kafka canal json格式时行为不一致
有的厂商会将DDL语句同步到topic导致下游flink sql作业不能识别抛错,建议flink canal json格式解析时直接忽略不识别的type,例如
例1:
实际使用你肯定不会是console producer吧。或者你换java代码写kafka,方便控制些。
wei_yuze 于2023年2月8日周三 13:30写道:
>
> 非常感谢各位的回答!
>
>
>
> Weihua和飞雨正确定位出了问题。问题出在Flink 并发数大于Kafka分区数,导致部分Flink task slot
> 接收不到数据,进而导致watermark(取所有task slot的最小值)无法推进。
>
>
> 我尝试了Weihua提供的两个解决方案后都可以推进watermark求得窗口聚合结果。
>
>
>
Hi,
你需要发送邮件到 user-zh-unsubscr...@flink.apache.org
而不是 user-zh@flink.apache.org.
Best regards,
Weijie
wujunxi <462329...@qq.com.invalid> 于2023年2月7日周二 16:52写道:
> 退订
Maybe you will also be interested in joining Flink Slack, here is my invite
link for joining Flink Slack:
https://join.slack.com/t/apache-flink/shared_invite/zt-1obpql04h-R3o5XM8d~Siyl3KGldkl2Q
Best regards,
Yuxia
- 原始邮件 -
发件人: "guanyuan chen"
收件人: "User" , "user-zh"
发送时间: 星期五, 2023年
Hi, guanyuan,
This document(
https://flink.apache.org/community.html#how-to-subscribe-to-a-mailing-list)
will be helpful.
welcome~
Best,
Hang
guanyuan chen 于2023年2月7日周二 21:37写道:
> Hi,
> My name is Guanyuan Chen.I am a big data development engineer, tencent
> wechat department, china. I
Hi,
My name is Guanyuan Chen.I am a big data development engineer, tencent
wechat department, china. I have 4 years experience in flink developing,
and want to subscribe flink's development news and help someone developing
flink job willingly.
Thanks a lot.
Hi ,应该是Kafka 可能存在空闲分区,如果只是partition
数量少于并发数的话,并不会影响水位推进,只是会浪费资源。默认程序不指定并行度,使用电脑cpu 核数。
如果是table api 的话,可以添加如下参数解决,table.exec.source.idle-timeout
| |
飞雨
|
|
bigdata
drewfrank...@126.com
|
回复的原邮件
| 发件人 | Weihua Hu |
| 发送日期 | 2023年02月7日 18:48 |
| 收件人 | |
| 主题 | Re: Kafka
Hi,
问题应该是 kafka source 配置了多并发运行,但数据量比较少(或者 topic 的 partition 数量小于 task
的并发数量),不是所有的 source task 都消费到了数据并产生 watermark,导致下游聚合算子无法对齐 watermark 触发计算。
可以尝试通过以下办法解决:
1. 将 source 并发控制为 1
2. 为 watermark 策略开始 idleness 处理,参考 [#1]
fromElement 数据源会强制指定并发为 1
[#1]
jdk8 & scala2.12的组合是支持的,你这个问题一般就是jdk和idea设置问题。可以通过以下方法尝试下:
1.注意查看 maven profile,查看勾选的profile(可以使用scala-2.12)。
2.ProjectStrccture -> modules 设置各个module 匹配 jdk8
3.IDEA-Settings-Builder-Compiler 设置 jdk8,以及使用jdk11的话注意开启交叉编译
4.scala-compiler的server也要设置jdk8
tiger <2372554...@qq.com.invalid>
Hi,
Flink 1.15 版本之后已经不支持 JDK 8 了,可以尝试使用 jdk 11 编译,另外在 idea
编译具体是怎么操作的呢?可以尝试在命令行编译,如果有问题可以发一下更多的错误日志。
源码编译可以参考文档:
https://nightlies.apache.org/flink/flink-docs-master/docs/flinkdev/building/
Best,
Weihua
On Sat, Feb 4, 2023 at 6:06 PM tiger <2372554...@qq.com.invalid> wrote:
> hi,
>
>
>
退订
你好,可以贴一下详细的异常栈吗?
可以在 FLINK_HOME/log/ 下面看到
Best regards,
Yuxia
- 原始邮件 -
发件人: "aiden" <18765295...@163.com>
收件人: "user-zh"
发送时间: 星期一, 2023年 2 月 06日 下午 4:44:02
主题: Flink SQL使用hive dialect异常
HI
我在使用Flink SQL Client开发hive时遇到一个问题,在设置set table.sql-dialect=hive时,会报如下错误
Flink SQL> CREATE
hi,
各位大佬好,在idea构建flink源码失败,吧几乎所有scala版本,sbt版本都下载下来,一一测试都失败了。
环境如下:
操作系统:Ubuntu22.04
idea:2022.3.2
jdk:
java version "1.8.0_191"
Java(TM) SE Runtime Environment (build 1.8.0_191-b12)
Java HotSpot(TM) 64-Bit Server VM (build 25.191-b12, mixed mode)
scala:
2023-02-02 19:21:21,288 WARN
org.apache.flink.client.deployment.application.DetachedApplicationRunner [] -
Could not execute application:
org.apache.flink.client.program.ProgramInvocationException: The main method
caused an error: Failed to execute job 'Flink Streaming Job'.
at
你好,可以使用FileSink,这个是基于新的sink API的。
Best regards,
Weijie
Howie Yang 于2023年2月2日周四 16:28写道:
> Hey,
>
>
> 最近想把消费日志写入到HDFS中,找这块的connector发现大部分都停留在使用 BucketingSink 的方式,这个好像是老版本的api了,
> 这块官方推荐的最新的方式是什么呢?
>
>
>
>
>
>
>
>
>
>
> --
>
> Best,
> Howie
Hey,
最近想把消费日志写入到HDFS中,找这块的connector发现大部分都停留在使用 BucketingSink 的方式,这个好像是老版本的api了,
这块官方推荐的最新的方式是什么呢?
--
Best,
Howie
Thank Martin for managing the release and all the people involved.
Best regards,
Weijie
Konstantin Knauf 于2023年2月2日周四 06:40写道:
> Great. Thanks, Martijn for managing the release.
>
> Am Mi., 1. Feb. 2023 um 20:26 Uhr schrieb Martijn Visser <
> martijnvis...@apache.org>:
>
> > The Apache
Great. Thanks, Martijn for managing the release.
Am Mi., 1. Feb. 2023 um 20:26 Uhr schrieb Martijn Visser <
martijnvis...@apache.org>:
> The Apache Flink community is very happy to announce the release of Apache
> Flink 1.16.1, which is the first bugfix release for the Apache Flink 1.16
>
The Apache Flink community is very happy to announce the release of Apache
Flink 1.16.1, which is the first bugfix release for the Apache Flink 1.16
series.
Apache Flink® is an open-source stream processing framework for
distributed, high-performing, always-available, and accurate data streaming
flink 访问hive 表,怎样实现读写权限校验?能够支持sql或者java api 任务。
现在从web ui上看,瓶颈主要在于group by 聚合函数之后去重这个逻辑。
而且SQL这个并行度是全局设置的,没法针对某一个特定的算子设置并行度,并行度多了之后,资源又感觉有点吃紧。
在 2023-01-31 17:45:15,"weijie guo" 写道:
>最好先找到导致下游处理过慢的瓶颈算子,适当扩大一下并发。如果还不行,看下jstack的情况,可能需要调整逻辑。
>
>Best regards,
>
>Weijie
>
>
>ssmq <374060...@qq.com.invalid> 于2023年1月31日周二 17:22写道:
>
最好先找到导致下游处理过慢的瓶颈算子,适当扩大一下并发。如果还不行,看下jstack的情况,可能需要调整逻辑。
Best regards,
Weijie
ssmq <374060...@qq.com.invalid> 于2023年1月31日周二 17:22写道:
> 你可以测试不写入clickhouse是否还存在反压,如果不是因为写入瓶颈的话就从你的处理逻辑优化了
>
>
> 发件人: lxk
> 发送时间: 2023年1月31日 15:16
> 收件人: user-zh@flink.apache.org
> 主题: Flink SQL 如何优化以及处理反压
>
>
你可以测试不写入clickhouse是否还存在反压,如果不是因为写入瓶颈的话就从你的处理逻辑优化了
发件人: lxk
发送时间: 2023年1月31日 15:16
收件人: user-zh@flink.apache.org
主题: Flink SQL 如何优化以及处理反压
Flink版本:1.16.0
目前在使用Flink SQL进行多流关联,并写入Clickhouse中
具体代码如下:
select \
header.id as id, \
LAST_VALUE(header.order_status), \
LAST_VALUE(header.customer_id), \
Thanks Yanfei for driving the release ! !
Best,
Leonard
> On Jan 31, 2023, at 3:43 PM, Yun Tang wrote:
>
> Thanks Yuanfei for driving the frocksdb release!
>
> Best
> Yun Tang
> From: Yuan Mei
> Sent: Tuesday, January 31, 2023 15:09
> To: Jing Ge
> Cc: Yanfei Lei ; d...@flink.apache.org
>
Thanks Yuanfei for driving the frocksdb release!
Best
Yun Tang
From: Yuan Mei
Sent: Tuesday, January 31, 2023 15:09
To: Jing Ge
Cc: Yanfei Lei ; d...@flink.apache.org
; user ; user-zh@flink.apache.org
Subject: Re: [ANNOUNCE] FRocksDB 6.20.3-ververica-2.0
Flink版本:1.16.0
目前在使用Flink SQL进行多流关联,并写入Clickhouse中
具体代码如下:
select \
header.id as id, \
LAST_VALUE(header.order_status), \
LAST_VALUE(header.customer_id), \
LAST_VALUE(header.shop_id), \
LAST_VALUE(header.parent_order_id), \
LAST_VALUE(header.order_at), \
LAST_VALUE(header.pay_at), \
Thanks Yanfei for driving the release!
Best
Yuan
On Mon, Jan 30, 2023 at 8:46 PM Jing Ge via user
wrote:
> Hi Yanfei,
>
> Thanks for your effort. Looking forward to checking it.
>
> Best regards,
> Jing
>
> On Mon, Jan 30, 2023 at 1:42 PM Yanfei Lei wrote:
>
>> It is very happy to announce
共有 16750 项搜索結果,以下是第 1101 - 1200 matches
Mail list logo