from:"贺小令\(晓令\)"

回复：如何获取算子处理一条数据记录的时间

2020-01-06 文章贺小令(晓令)

可以看看现有metrics是否满足需求，例如numRecordsInPerSecond。 
详细可以参考https://ci.apache.org/projects/flink/flink-docs-stable/monitoring/metrics.html#io


--
发件人：张江 
发送时间：2020年1月2日(星期四) 19:24
收件人：user-zh 
抄　送：user-zh 
主　题：回复：如何获取算子处理一条数据记录的时间

我其实是想知道算子的数据处理能力，得到一个算子每秒钟最多能处理多少条数据。比如说map算子，我需要知道它一秒钟最多能转换多少数据，之后根据source端的数据量来设置算子的并行度




| |
张江
|
|
邮箱：zjkingdom2...@163.com
|

签名由 网易邮箱大师 定制

在2020年01月02日 10:28，猫猫 写道：
只有如下算子支持测流输出。

ProcessFunction

CoProcessFunction

ProcessWindowFunction

ProcessAllWindowFunction

如果要计时的话，需要将你的逻辑全部放到相关函数中。在逐条处理的时候，记录数据ID和时间，写成一个新的数据流并行输出出去。
但实际上我们很少这样做，因为很难将所有逻辑全部放到一个算子中。


比较常见的方式是，在整体上数据有流入和流出，所以增加流入和流出算子，在数据经过的时候，记录数据ID，并形成新的数据流，然后写入到数据库进行合并就行了。
这种可以考虑采样的方式，例如根据ID取模获取数据，但缺点是监控嵌入了执行逻辑，并且必须有并行度为1的统计算子，可能会影响性能。

更为合理的看法是，当数据量不堆积的时候，时间也不是问题。
我们只要看kafka-offset的消费速度就行了。一定时间消费多少条，平均下来就是速率的。适用于压满性能的时候用。

可能还有更好的处理方式，我还没有了解，flink好像自身也有一定的监控能力。
但你的需求到底是什么？你为什么要知道一条数据的处理时间？而不是一批数据的处理时间?
你关心每个算子的时间，还是关心数据整体的处理时间？还是关心某个业务的执行时间？

提供一下场景为佳。






-- 原始邮件 --
发件人: "张江"

回复：请问一下：启动session 时，报错：Could not write the Yarn connection information.

2019-11-22 文章贺小令(晓令)

hi 李军, 
java的URI地址不允许带 _ , https://bugs.openjdk.java.net/browse/JDK-8221675
请将 _ 改掉后再试试

thanks,
godfrey


--
发件人：李军 
发送时间：2019年11月22日(星期五) 15:15
收件人：贺小令(晓令) 
主　题：回复：请问一下 ：启动session 时 ，报错：Could not write the Yarn connection information.

  
flink：1.9.1 
hadoop:2.8.3
 


 
李军  

hold_li...@163.com   
签名由 网易邮箱大师 定制  
在2019年11月22日 15:14，贺小令(晓令) 写道：   
请问你用的flink版本是？

thanks,
godfrey

--
发件人：李军 
发送时间：2019年11月22日(星期五) 11:10
收件人：user-zh 
主　题：请问一下 ：启动session 时 ，报错：Could not write the Yarn connection information.

报错图片和详细内容如下
https://blog.csdn.net/qq_37518574/article/details/103197224
另外启动这个之前要启动哪些，yarn 和hdfs 都已经启动了；
初学，虚心请教，感谢。

回复：请问一下：启动session 时，报错：Could not write the Yarn connection information.

2019-11-21 文章贺小令(晓令)

请问你用的flink版本是？

thanks,
godfrey


--
发件人：李军 
发送时间：2019年11月22日(星期五) 11:10
收件人：user-zh 
主　题：请问一下 ：启动session 时 ，报错：Could not write the Yarn connection information.

报错图片和详细内容如下
https://blog.csdn.net/qq_37518574/article/details/103197224
另外启动这个之前要启动哪些，yarn 和hdfs 都已经启动了；
初学，虚心请教，感谢。

回复：DML去重，translate时报错

2019-11-21 文章贺小令(晓令)

hi 叶贤勋:

你的SQL里先 ORDER BY proc desc ，然后取  rownum = 1， 等价于 last row 的逻辑。此时会产生 
retraction，但是结果表(user_dist) 没有定义 pk 信息，此时是不支持的，即报你看到的错误。

如果将 ORDER BY proc desc 改为 ORDER BY proc asc，加上 rownum = 1，等价于 first row 
的逻辑，不会产生retraction，此时的结果表(user_dist) 是可以满足要求的。 

但是 blink planner 目前处理 PROCTIME() 有问题，sql 优化过程将 PROCTIME() 属性丢掉了，被认为只是一个普通的 
timestamp 类型，不会翻译成 first row 的逻辑。我建了一个 issue  来 fix 这个问题。

thanks,
godfrey


--
发件人：JingsongLee 
发送时间：2019年11月21日(星期四) 18:44
收件人：user-zh ; Jark Wu ; godfrey he 
(JIRA) 
主　题：Re: DML去重，translate时报错

Hi 叶贤勋:

现在去重现在支持insert into select 语法。
问题在于你的这个SQL怎么没产出UniqueKey
这里面可能有blink-planner的bug。
CC: @Jark Wu @godfrey he (JIRA)

Best,
Jingsong Lee


--
From:叶贤勋 
Send Time:2019年11月21日(星期四) 16:20
To:user-zh@flink.apache.org 
Subject:DML去重，translate时报错

Hi 大家好：
Flink版本1.9.0，
SQL1：
CREATE TABLE user_log (
user_id VARCHAR,
item_id VARCHAR,
category_id VARCHAR,
behavior VARCHAR,
ts TIMESTAMP
) WITH (
'connector.type' = 'kafka',
'connector.version' = 'universal',
'connector.topic' = 'user_behavior',
'connector.startup-mode' = 'earliest-offset',
'connector.properties.0.key' = 'zookeeper.connect',
'connector.properties.0.value' = 'localhost:2181',
'connector.properties.1.key' = 'bootstrap.servers',
'connector.properties.1.value' = 'localhost:9092',
'update-mode' = 'append',
'format.type' = 'json',
'format.derive-schema' = 'true'
);
SQL2：

CREATE TABLE user_dist (
dt VARCHAR,
user_id VARCHAR,
behavior VARCHAR
) WITH (
'connector.type' = 'jdbc',
'connector.url' = 'jdbc:mysql://localhost:3306/flink-test',
'connector.table' = 'user_behavior_dup',
'connector.username' = 'root',
'connector.password' = ‘**',
'connector.write.flush.max-rows' = '1'
);
SQL3：

INSERT INTO user_dist
SELECT
  dt,
  user_id,
  behavior
FROM (
   SELECT
  dt,
  user_id,
  behavior,
 ROW_NUMBER() OVER (PARTITION BY dt, user_id, behavior ORDER BY proc desc ) 
AS rownum
   FROM (select DATE_FORMAT(ts, '-MM-dd HH:00') as 
dt,user_id,behavior,PROCTIME() as proc
from user_log) )
WHERE rownum = 1;


在对SQL3执行tableEnv.sqlUpdate(SQL3)时，报错：
Exception in thread "main" org.apache.flink.table.api.TableException: 
UpsertStreamTableSink requires that Table has a full primary keys if it is 
updated.
at 
org.apache.flink.table.planner.plan.nodes.physical.stream.StreamExecSink.translateToPlanInternal(StreamExecSink.scala:114)
at 
org.apache.flink.table.planner.plan.nodes.physical.stream.StreamExecSink.translateToPlanInternal(StreamExecSink.scala:50)
at 
org.apache.flink.table.planner.plan.nodes.exec.ExecNode$class.translateToPlan(ExecNode.scala:54)
at 
org.apache.flink.table.planner.plan.nodes.physical.stream.StreamExecSink.translateToPlan(StreamExecSink.scala:50)
at 
org.apache.flink.table.planner.delegation.StreamPlanner$$anonfun$translateToPlan$1.apply(StreamPlanner.scala:61)
at 
org.apache.flink.table.planner.delegation.StreamPlanner$$anonfun$translateToPlan$1.apply(StreamPlanner.scala:60)
at 
scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:234)
at 
scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:234)
at scala.collection.Iterator$class.foreach(Iterator.scala:891)
at scala.collection.AbstractIterator.foreach(Iterator.scala:1334)
at scala.collection.IterableLike$class.foreach(IterableLike.scala:72)
at scala.collection.AbstractIterable.foreach(Iterable.scala:54)
at scala.collection.TraversableLike$class.map(TraversableLike.scala:234)
at scala.collection.AbstractTraversable.map(Traversable.scala:104)
at 
org.apache.flink.table.planner.delegation.StreamPlanner.translateToPlan(StreamPlanner.scala:60)
at 
org.apache.flink.table.planner.delegation.PlannerBase.translate(PlannerBase.scala:149)
at 
org.apache.flink.table.api.internal.TableEnvironmentImpl.translate(TableEnvironmentImpl.java:439)
at 
org.apache.flink.table.api.internal.TableEnvironmentImpl.sqlUpdate(TableEnvironmentImpl.java:348)


请问去重现在不支持insert into select 语法吗？


| |
叶贤勋
|
|
yxx_c...@163.com
|
签名由网易邮箱大师定制

回复：如何获取算子处理一条数据记录的时间

回复：请问一下：启动session 时，报错：Could not write the Yarn connection information.

回复：请问一下：启动session 时，报错：Could not write the Yarn connection information.

回复：DML去重，translate时报错

4 matches

Site Navigation

Mail list logo

Footer information

回复：如何获取算子处理一条数据记录的时间

回复：请问一下 ：启动session 时 ，报错：Could not write the Yarn connection information.

回复：请问一下 ：启动session 时 ，报错：Could not write the Yarn connection information.

回复：DML去重，translate时报错

4 matches

Mail list logo

回复：请问一下：启动session 时，报错：Could not write the Yarn connection information.

回复：请问一下：启动session 时，报错：Could not write the Yarn connection information.