date:20201029

flink1.11 elasticsearch connector

2020-10-29 Thread 赵帅

elasticsearch7.6有账号认证，目前flink1.11 elasticsearch connector sql api如何加入账号认证？

Flink消费LDAP Kafka

2020-10-29 Thread hua mulan

Flink kafka connector可以消费开了LDAP的Kafka吗来自 Outlook

Re: flink1.11 elasticsearch connector

2020-10-29 Thread Yangze Guo

1.11版本中尚不支持username和password的设置，这两个配置在1.12中加入了新的es connector[1] [1] https://issues.apache.org/jira/browse/FLINK-18361 Best, Yangze Guo On Thu, Oct 29, 2020 at 3:37 PM 赵帅 wrote: > > elasticsearch7.6有账号认证，目前flink1.11 elasticsearch connector sql api如何加入账号认证？

JDBC 并发写入量大时挂掉

2020-10-29 Thread LittleFall

测试发了10个线程，每个线程1000次，一共1万条记录会在写入几千条的时候挂掉 2020-10-29 12:04:55,573 WARN org.apache.flink.runtime.taskmanager.Task [] - Join(joinType=[LeftOuterJoin], where=[(ID = ID1)], select=[ID, PRODUCT_SERVICE, CUSTOMER_NO, CUSTOMER_NAME, CUSTOMER_REQUEST_NO, EXTE RNAL_NO, STATUS, ORD

Re: JDBC 并发写入量大时挂掉

2020-10-29 Thread Jark Wu

看起来是这个bug，已经在1.11.3上修复，你可以自己 build 下 release-1.11 分支。 https://issues.apache.org/jira/browse/FLINK-19423 Best， Jark On Thu, 29 Oct 2020 at 16:18, LittleFall <1578166...@qq.com> wrote: > 测试发了10个线程，每个线程1000次，一共1万条记录 > > 会在写入几千条的时候挂掉 > > 2020-10-29 12:04:55,573 WARN org.apache.flink.runtime.taskman

Re: JDBC 并发写入量大时挂掉

2020-10-29 Thread LittleFall

操作中没有 DELETE 语句也会导致这个问题吗？ -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: JDBC 并发写入量大时挂掉

2020-10-29 Thread Jark Wu

LEFT JOIN 是会有 delete （retraction）发生的。 On Thu, 29 Oct 2020 at 16:36, LittleFall <1578166...@qq.com> wrote: > 操作中没有 DELETE 语句也会导致这个问题吗？ > > > > -- > Sent from: http://apache-flink.147419.n8.nabble.com/ >

Re: Checkpoint size的问题

2020-10-29 Thread Yun Tang

Hi web UI显示的是增量上传数据量，包括各个task上传的数据，而_metadata 只是一个元数据，是由JM上传的，所以不能将_metadata与checkpoint UI显示的数据量划等号。祝好唐云 From: gsralex Sent: Wednesday, October 28, 2020 19:17 To: user-zh@flink.apache.org Subject: Checkpoint size的问题 Hi, All Checkpoint 一般Web UI显示的是400MB左右，但是查

Flink程序连接Kafka类型不匹配问题

2020-10-29 Thread Natasha

hi,社区~ 我想把Flink连接Kafka封装成通用的方法，但是在使用java时，类型转换上遇到了问题（附件图），这个问题网上搜索到的资料很少，刚入门不久所以也不是很明白其中的原理，请各位同行指点我一下，不胜感激谢谢！

??????JM??????????????????

2020-10-29 Thread void

hi all flinkdatasetapi ??10jm??, jmcli ?? rest

Re:Flink程序连接Kafka类型不匹配问题

2020-10-29 Thread hailongwang

Hi Natasha, 没看到你上传的附件图呢，重新贴下不？ Best, Hailong Wang 在 2020-10-29 16:52:00，"Natasha" <13631230...@163.com> 写道： hi,社区~ 我想把Flink连接Kafka封装成通用的方法，但是在使用java时，类型转换上遇到了问题（附件图），这个问题网上搜索到的资料很少，刚入门不久所以也不是很明白其中的原理，请各位同行指点我一下，不胜感激谢谢！

回复：Flink程序连接Kafka类型不匹配问题

2020-10-29 Thread Natasha

hi,社区~ 我想把Flink连接Kafka封装成通用的方法，但是在使用java时，类型转换上遇到了问题，这个问题网上搜索到的资料很少，刚入门不久所以也不是很明白其中的原理，请各位同行指点我一下，不胜感激谢谢！在2020年10月29日 19:29，hailongwang<18868816...@163.com> 写道： Hi Natasha, 没看到你上传的附件图呢，重新贴下不？ Best, Hailong Wang 在 2020-10-29 16:52:00，"Natasha" <13631230...@163.com> 写道： hi,社区~ 我想

Re:Re: sql-client 连接hive报错 TTransportException

2020-10-29 Thread RS

Hi, 谢谢，应该是HMS的问题，原来是需要配置remote的HMS，之前都是local模式我执行了一下流程： 1. 清理了旧的数据库和数据目录 2. 重新初始化 schematool -dbType mysql -initSchema 3. 启动hive --service metastore，成功监听端口9083端口 4. 启动hiveserver2, hiveserver2一直在重试，没有监听1端口然后hiveserver2启动失败， hive版本3.1.2，请问下这个问题如何解决呢？ 2020-10-29T18:53:35,602 WARN [main

讨论分析：数据类型对于shuffle时数据传输IO速度的影响（数十倍的差距）

2020-10-29 Thread Husky Zeng

Hi all，在使用flink的shuffle功能时，我发现在operator chain中不同的位置进行shuffle，IO速度有非常明显的差距。比如我的这个例子： source-->cal--->sort--->SinkConversionToRow--->sink 从hive读数据，计算，排序，转化为外部类型行，写入hive。当我把shuffle加到cal和sort中间时， source-->cal-- （rebalance）->sort--->SinkConversionToRow--->sink shuffle的数据传输IO速度是3G/s 当我把shuffle

Re: 讨论分析：数据类型对于shuffle时数据传输IO速度的影响（数十倍的差距）

2020-10-29 Thread Husky Zeng

补充一个细节：当我把shuffle加到cal和sort中间时， source-->cal-- （rebalance）->sort--->SinkConversionToRow--->sink shuffle的数据传输IO速度是3G/s，需要传输的文件大小是370G。当我把shuffle加到SinkConversionToRow和sink中间时， source-->cal-- ->sort--->SinkConversionToRow--（rebalance）-->sink shuffle的数据传输IO速度是0.1G/s，需要传输的文件大小是250G。文件大小也是有区别

Re: 讨论分析：数据类型对于shuffle时数据传输IO速度的影响（数十倍的差距）

2020-10-29 Thread admin

HI, operator chain的作用不就是避免shuffle，减少网络间的传输吗？你为什么要手动shuffle呢？ > 2020年10月30日上午10:24，Husky Zeng <568793...@qq.com> 写道： > > 补充一个细节： > > > 当我把shuffle加到cal和sort中间时， > > source-->cal-- （rebalance）->sort--->SinkConversionToRow--->sink > > shuffle的数据传输IO速度是3G/s，需要传输的文件大小是370G。 > > 当我把shuffle加到SinkCo

flink cep超时事件的问题

2020-10-29 Thread sunfulin

hi，community，我最近有一个业务场景，需要基于消息流和具体的业务逻辑判断生成超时事件，考虑通过flink cep来实现。不过在这个场景中，需要针对输入的消息，判断如果一个小时内没有匹配的数据到来，就需要把该事件输出。目前的cep机制，应该需要下一个事件消息到来时才会输出事件。想请教下各位大神，针对这个诉求有没有啥好的方案。感谢。

Re: Flink程序连接Kafka类型不匹配问题

2020-10-29 Thread admin

Hi，怀疑你import了scala的包，把import部分也贴出来看看呢 > 2020年10月30日上午10:19，Natasha <13631230...@163.com> 写道： > > Hi,社区~ > > 我想把Flink连接Kafka封装成通用的方法，但是在使用java时，类型转换上遇到了问题，这个问题网上搜索到的资料很少，刚入门不久所以也不是很明白其中的原理，请各位同行指点我一下，不胜感激。 > > Best, > Nat

Re: flink cep超时事件的问题

2020-10-29 Thread naisili Yuan

不知道理解错没有，感觉你这个场景使用session windows能解决 sunfulin 于2020年10月30日周五上午11:01写道： > hi，community， > 我最近有一个业务场景，需要基于消息流和具体的业务逻辑判断生成超时事件，考虑通过flink > cep来实现。不过在这个场景中，需要针对输入的消息，判断如果一个小时内没有匹配的数据到来，就需要把该事件输出。 > 目前的cep机制，应该需要下一个事件消息到来时才会输出事件。想请教下各位大神，针对这个诉求有没有啥好的方案。 > 感谢。

flink实时流中如何实时获取当前时间

2020-10-29 Thread zjfpla...@hotmail.com

RT，sql方式中怎么实时取当前消息处理的时间，来插入数据库当作当前更新时间？现在用current_timestamp发现不会变，只是第一次的时间 zjfpla...@hotmail.com

回复： Flink程序连接Kafka类型不匹配问题

2020-10-29 Thread Natasha

Hi Admin, 你说的没错，我错误地import了scala的DataStream，问题已解决！感谢！ Best, Nat 在2020年10月30日 11:06，admin<17626017...@163.com> 写道： Hi，怀疑你import了scala的包，把import部分也贴出来看看呢 2020年10月30日上午10:19，Natasha <13631230...@163.com> 写道： Hi,社区~ 我想把Flink连接Kafka封装成通用的方法，但是在使用java时，类型转换上遇到了问题，这个问题网上搜索到的资料很少，刚入门不久所以也不是很明

Re: 讨论分析：数据类型对于shuffle时数据传输IO速度的影响（数十倍的差距）

2020-10-29 Thread Husky Zeng

我把operator chain和streaming dataflow的概念弄混了，不好意思。我想表达的是在整个任务流程中，选择shuffle的位置对于性能的影响。 -- Sent from: http://apache-flink.147419.n8.nabble.com/

minibatch+????ttl??????????????????????

2020-10-29 Thread ????????

hi, all ! flink??1.9?? ??select userId,sum(money) as result,ymd from ( select userId,order_id,money,DATE_FORMAT(trans_time,'MMdd') as ymd,row_number() over(partition by order_id

flink任务挂掉后自动重启

2020-10-29 Thread bradyMk

flink任务一般都是7*24h在跑的，如果挂掉，有没有什么办法自动重启任务？之前都是任务挂掉然后手动再提交一次任务，但是不可能每次挂掉都可以手动重启；另外，如果对于没做checkpoints的任务，可以通过定时脚本监控yarn，如果任务不存在，则重新提交任务，但是，对于做了checkpoints的任务，我们提交的时候就需要指定ck的目录，这个目录都是在变的，那么又该如何让任务挂掉后能自动重启呢？希望能得到大佬们的指点~ - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re:Re: flink cep超时事件的问题

2020-10-29 Thread sunfulin

hi， session window能处理这种超时事件么？不知道有没有例子可以参考参考哈。在 2020-10-30 11:12:55，"naisili Yuan" 写道： > 不知道理解错没有，感觉你这个场景使用session windows能解决 > >sunfulin 于2020年10月30日周五上午11:01写道： > >> hi，community， >> 我最近有一个业务场景，需要基于消息流和具体的业务逻辑判断生成超时事件，考虑通过flink >> cep来实现。不过在这个场景中，需要针对输入的消息，判断如果一个小时内没有匹配的数据到来，

Re: flink任务挂掉后自动重启

2020-10-29 Thread Congxian Qiu

Hi 1 Flink 的 RestartStrategy[1] 可以解决你的问题吗？ 2 从 checkpoint 恢复这个，可以尝试记录每个作业最新的 checkpoint 地址，也可以在启动的时候从 hdfs 获取一下 [1] https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/dev/task_failure_recovery.html Best, Congxian bradyMk 于2020年10月30日周五上午11:51写道： > > flink任务一般都是7*24h在跑的，如

Re: 讨论分析：数据类型对于shuffle时数据传输IO速度的影响（数十倍的差距）

2020-10-29 Thread Husky Zeng

我们的场景是这样的：从hive读数据，计算后写回hive。从hive读数据，为了加快速度，使用了650个并发subTask。向hive写数据，为了减少小文件，需要控制并发subTask数量。因此需要找一个环节进行shuffle。所以有上面的疑问。 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 讨论分析：数据类型对于shuffle时数据传输IO速度的影响（数十倍的差距）

2020-10-29 Thread admin

你是用的Filesystem connector读写hdfs的吗？数据序列化和反序列化的时间也有差异，而且source和sink的并发度也有很大差异，为了控制小文件数量，减少了sink的并发度，那写入速度肯定也是有限的。由于source和sink的并发已经确定了，中间不管哪个阶段进行shuffle，其实对首尾的处理速度应该影响不大。以上是个人愚见，欢迎大佬指正。 > 2020年10月30日下午2:30，Husky Zeng <568793...@qq.com> 写道： > > 我们的场景是这样的： > > 从hive读数据，计算后写回hive。 > > 从hive读数据，为了

TUMBLE函数不支持回撤流

2020-10-29 Thread 夜思流年梦

开发者你好：现有此场景：求每个小时的收入，打算用TUMBLE函数，但是发现不支持回撤流 select > HOUR(TUMBLE_START(write_time,interval '1' HOUR)) as ftime > ,sum(amt) as paymoney_h > from > group by TUMBLE(write_time,interval '1' HOUR); 报错： org.apache.flink.table.api.TableException: GroupWindowAggregate doesn't support cons

回复: flink实时流中如何实时获取当前时间

2020-10-29 Thread 史正超

在source表上加上 proctime AS PROCTIME()的字段，下游取的时候就用proctime转，注意时差的问题。比如用FROM_UNIXTIME(CAST(proctime AS BIGINT), '-MM-dd HH:mm:ss') 函数时，在table config里设置时区 ``` java streamTableEnv.getConfig().setLocalTimeZone(ZoneOffset.ofHours(8)); `` 发件人: zjfpla...@hotmail.com

回复: 回复: flink实时流中如何实时获取当前时间

2020-10-29 Thread zjfpla...@hotmail.com

谢谢我试试 zjfpla...@hotmail.com 发件人：史正超发送时间： 2020-10-30 14:48 收件人： user-zh@flink.apache.org 主题：回复: flink实时流中如何实时获取当前时间在source表上加上 proctime AS PROCTIME()的字段，下游取的时候就用proctime转，注意时差的问题。比如用FROM_UNIXTIME(CAST(proctime AS BIGINT), '-MM-dd HH:mm:ss') 函数时，在table config里设置时区 ``` java stream

Re: flink任务挂掉后自动重启

2020-10-29 Thread bradyMk

谢谢您的解答~ 重启策略确实可以解决任务故障重启，但是有的时候（例如集群资源不够），任务会直接被kill掉，我想问的是针对被kill掉的任务，有没有什么方法可以自动重启，特别是带有ck的任务，如果想要自动重启，如何在启动的时候自动去hdfs上获取最新的ck地址呢？ - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: TUMBLE函数不支持回撤流

2020-10-29 Thread admin

Hi, 能贴一下完整的sql吗，数据源是CDC的数据吗？ > 2020年10月30日下午2:48，夜思流年梦写道： > > 开发者你好： > 现有此场景： > 求每个小时的收入，打算用TUMBLE函数，但是发现不支持回撤流 > select > >> HOUR(TUMBLE_START(write_time,interval '1' HOUR)) as ftime > >> ,sum(amt) as paymoney_h > >> from > >> group by TUMBLE(write_time,interval '1' HOUR); > >

Re: Flink程序连接Kafka类型不匹配问题

2020-10-29 Thread wch...@163.com

在使用java时, StreamExecutionEnvironment 使用 import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment这个完全限定名的类, 你这里应该是导入了org.apache.flink.streaming.api.scala.StreamExecutionEnvironment wch...@163.com 发件人： Natasha 发送时间： 2020-10-30 10:19 收件人： user-zh@flink.apache.org 主题： Flink

flink1.11 elasticsearch connector

Flink消费LDAP Kafka

Re: flink1.11 elasticsearch connector

JDBC 并发写入量大时挂掉

Re: JDBC 并发写入量大时挂掉

Re: JDBC 并发写入量大时挂掉

Re: JDBC 并发写入量大时挂掉

Re: Checkpoint size的问题

Flink程序连接Kafka类型不匹配问题

??????JM??????????????????

Re:Flink程序连接Kafka类型不匹配问题

回复：Flink程序连接Kafka类型不匹配问题

Re:Re: sql-client 连接hive报错 TTransportException

讨论分析：数据类型对于shuffle时数据传输IO速度的影响（数十倍的差距）

Re: 讨论分析：数据类型对于shuffle时数据传输IO速度的影响（数十倍的差距）

Re: 讨论分析：数据类型对于shuffle时数据传输IO速度的影响（数十倍的差距）

flink cep超时事件的问题

Re: Flink程序连接Kafka类型不匹配问题

Re: flink cep超时事件的问题

flink实时流中如何实时获取当前时间

回复： Flink程序连接Kafka类型不匹配问题

Re: 讨论分析：数据类型对于shuffle时数据传输IO速度的影响（数十倍的差距）

minibatch+????ttl??????????????????????

flink任务挂掉后自动重启

Re:Re: flink cep超时事件的问题

Re: flink任务挂掉后自动重启

Re: 讨论分析：数据类型对于shuffle时数据传输IO速度的影响（数十倍的差距）

Re: 讨论分析：数据类型对于shuffle时数据传输IO速度的影响（数十倍的差距）

TUMBLE函数不支持回撤流

回复: flink实时流中如何实时获取当前时间

回复: 回复: flink实时流中如何实时获取当前时间

Re: flink任务挂掉后自动重启

Re: TUMBLE函数不支持回撤流

Re: Flink程序连接Kafka类型不匹配问题

34 matches

Site Navigation

Mail list logo

Footer information