CC to the Paimon community.
Best,
Jingsong
On Mon, May 20, 2024 at 9:55 AM Jingsong Li wrote:
>
> Amazing, congrats!
>
> Best,
> Jingsong
>
> On Sat, May 18, 2024 at 3:10 PM 大卫415 <2446566...@qq.com.invalid> wrote:
> >
> > 退订
> >
> >
> >
Amazing, congrats!
Best,
Jingsong
On Sat, May 18, 2024 at 3:10 PM 大卫415 <2446566...@qq.com.invalid> wrote:
>
> 退订
>
>
>
>
>
>
>
> Original Email
>
>
>
> Sender:"gongzhongqiang"< gongzhongqi...@apache.org ;
>
> Sent Time:2024/5/17 23:10
>
> To:"Qingsheng Ren"< re...@apache.org ;
>
> Cc
Congratulations!
On Mon, Mar 18, 2024 at 4:30 PM Rui Fan <1996fan...@gmail.com> wrote:
>
> Congratulations, thanks for the great work!
>
> Best,
> Rui
>
> On Mon, Mar 18, 2024 at 4:26 PM Lincoln Lee wrote:
>>
>> The Apache Flink community is very happy to announce the release of Apache
>> Flink
The Apache Flink community is very happy to announce the release of
Apache Flink Table Store 0.3.0.
Apache Flink Table Store is a unified storage to build dynamic tables
for both streaming and batch processing in Flink, supporting
high-speed data ingestion and timely data query.
Please check out
附:修复连接:https://github.com/apache/flink-table-store/commit/c1b28985ce8bc8fb80fac96380edf3b34e4126b8
Best,
Jingsong
On Tue, Oct 11, 2022 at 3:27 PM Jingsong Li wrote:
>
> Hi RS,
>
> 这是bug,已经修复了
>
> 建议使用即将发布的:0.2.1
> https://lists.apache.org/thread/n1yzpbxprnsh2m8swpsr40g
Hi RS,
这是bug,已经修复了
建议使用即将发布的:0.2.1 https://lists.apache.org/thread/n1yzpbxprnsh2m8swpsr40glt8h2b93v
具体的 jar
包在这里:https://dist.apache.org/repos/dist/dev/flink/flink-table-store-0.2.1-rc2/
Best,
Jingsong
On Tue, Oct 11, 2022 at 3:17 PM 李宇彬 wrote:
>
> 方便贴下sql吗,我在flink 1.15 + fts
Thanks Xingbo for releasing it.
Best,
Jingsong
On Wed, Sep 28, 2022 at 10:52 AM Xingbo Huang wrote:
>
> The Apache Flink community is very happy to announce the release of Apache
> Flink 1.14.6, which is the fifth bugfix release for the Apache Flink 1.14
> series.
>
> Apache Flink® is an
The Apache Flink community is very happy to announce the release of
Apache Flink Table Store 0.2.0.
Apache Flink Table Store is a unified storage to build dynamic tables
for both streaming and batch processing in Flink, supporting
high-speed data ingestion and timely data query.
Please check out
Thanks Xingtong, Jark, Martijn and Robert for making this possible!
Best,
Jingsong
On Thu, Jun 2, 2022 at 5:32 PM Jark Wu wrote:
> Thank Xingtong for making this possible!
>
> Cheers,
> Jark Wu
>
> On Thu, 2 Jun 2022 at 15:31, Xintong Song wrote:
>
> > Hi everyone,
> >
> > I'm very happy to
dxg1101300...@163.com
>
>
> *发件人:* Jingsong Li
> *发送时间:* 2022-05-26 14:47
> *收件人:* hdxg1101300123
> *抄送:* dev
> *主题:* Re: Re: flinksql关联hive维表java.lang.UnsupportedOperationException错误
> Please don't use Chinese on the dev mailing list to discuss issues, I've
> replied o
Please send to user-zh@flink.apache.org
Best,
Jingsong
On Thu, May 26, 2022 at 2:20 PM Jingsong Li wrote:
> 如果flink-table-legacy包没用到,把它删掉即可修复你的问题
>
> Best,
> Jingsong
>
> On Thu, May 26, 2022 at 2:16 PM hdxg1101300...@163.com <
> hdxg1101300...@163.com> wrote:
>
Thanks~ 非常好~
Best,
Jingsong
On Mon, May 16, 2022 at 5:24 PM 18579099...@163.com <18579099...@163.com>
wrote:
> 第一次弄,不知道这么写的对不对
>
> https://issues.apache.org/jira/projects/FLINK/issues/FLINK-27604
>
>
>
> 18579099...@163.com
>
> 发件人: Jingsong Li
> 发送时间: 2022
退订请回复到 user-zh-unsubscr...@flink.apache.org
Best,
Jingsong
On Sun, May 15, 2022 at 1:04 PM cq <17691150...@163.com> wrote:
> 退订
>
>
>
> Best Regards,
>
> Jacob.Q.Cao
>
>
> TEL:17691150986
Hi, 推荐 https://www.deepl.com/translator
非常好用
我记得对Hive Custom Storage Handler(hbase)是有问题的
Best,
Jingsong
On Fri, May 13, 2022 at 2:12 PM 18579099...@163.com <18579099...@163.com>
wrote:
> 我英文能力不允许啊
>
>
>
> 18579099...@163.com
>
> 发件人: yuxia
> 发送时间: 2022-05-11 15:11
> 收件人: user-zh
> 主题: Re:
哈喽,感谢你的关注
Tison是对的,Table Store是一个库。我们目前并没有发布maven依赖。
目前你可以有两种方式来调试:
1.在Table Store的工程里调试
2.在拿到flink-table-store-dist下的 pre bundled jar,放到你工程的classpath下来调试
入口类的话是通过SQL的方式:
TableEnvironment.executeSql("CREATE TABLE XX (...)");
当classpath下包含 table store 的 jar 时,会服务发现到 TableStore 的 factory,进而走到
理论上mini-batch就可以优化回撤流。
目前是join没有支持mini-batch。
On Thu, Dec 16, 2021 at 5:12 PM casel.chen wrote:
>
> 看了《Oceanus的实时流式计算实践与优化》https://jishuin.proginn.com/p/763bfbd5acbf
> 想问一下社区是否有意实现这里说的回撤流优化功能呢?
> 实际业务很多数据是从mysql binlog cdc接入的,在回撤流上做计算是常见的场景,能否在flink sql中支持这些优化呢?
--
Best, Jingsong Lee
d be best if a rough table could be provided.
>
> I think this is a good suggestion, we can provide those suggestions in the
> document.
>
> Best,
> Yingjie
>
> Jingsong Li 于2021年12月14日周二 14:39写道:
>>
>> Hi Yingjie,
>>
>> +1 for this FLIP. I'm p
Hi Yingjie,
+1 for this FLIP. I'm pretty sure this will greatly improve the ease
of batch jobs.
Looks like "taskmanager.memory.framework.off-heap.batch-shuffle.size"
and "taskmanager.network.sort-shuffle.min-buffers" are related to
network memory and framework.off-heap.size.
My question is,
Amazing!
Thanks Yingjie and all contributors for your great work.
Best,
Jingsong
On Wed, Dec 1, 2021 at 10:52 AM Yun Tang wrote:
>
> Great news!
> Thanks for all the guys who contributed in this project.
>
> Best
> Yun Tang
>
> On 2021/11/30 16:30:52 Till Rohrmann wrote:
> > Great news,
Hi,
不好意思,不会cherry-pick到1.12了,因为这是个feature,在1.14及其之后的版本支持
Best,
Jingsong
On Fri, Nov 12, 2021 at 3:06 PM 陈卓宇 <2572805...@qq.com.invalid> wrote:
>
> 社区您好 我通过代码debug已经定位到问题:
>
>
> 在flink1.12.5版本下flink-orc_2.11模块下的org/apache/flink/orc/vector/AbstractOrcColumnVector.java文件
>
Thanks!
+1 to pattern
Best,
Jingsong
On Wed, Nov 10, 2021 at 7:52 PM yidan zhao wrote:
>
> 我在jira回复了下,我感觉还是能配置化好一些,那个liwei貌似现在加了个basicDate这个太单一了。
>
> Jingsong Li 于2021年11月4日周四 下午12:18写道:
>
> > 你可以自定义个partition.time-extractor.class来自己解析
> >
> > Flink应该搞个对应的part
你可以自定义个partition.time-extractor.class来自己解析
Flink应该搞个对应的partition.time-extractor.kind来默认支持你的需求。
建了个JIRA: https://issues.apache.org/jira/browse/FLINK-24758
Best,
Jingsong
On Thu, Nov 4, 2021 at 11:47 AM yidan zhao wrote:
>
> 如题,我当前是select date_format(xxx, 'MMdd') as dt...
>
>
Thanks Yun Tang and everyone!
Best,
Jingsong
On Tue, Aug 10, 2021 at 9:37 AM Xintong Song wrote:
> Thanks Yun and everyone~!
>
> Thank you~
>
> Xintong Song
>
>
>
> On Mon, Aug 9, 2021 at 10:14 PM Till Rohrmann
> wrote:
>
> > Thanks Yun Tang for being our release manager and the great work!
这个参数的意思是合并后的文件最大的size,你每个文件1k多,两个文件就大于2k了,所以没有触发合并
On Fri, Aug 6, 2021 at 11:59 AM Rui Li wrote:
> 可以把这个参数调大点试试呢,调成远大于单个文件的size
>
> On Thu, Aug 5, 2021 at 1:43 PM lixin58...@163.com
> wrote:
>
> > 你好,
> > 生成的三个文件挺小的,不到2kb,1k多一点,配这个是为了合并后比2k大
> >
> > --
> >
1.14还有1-2个月
1.13.2马上就出了,估计明天或后天或周一
On Wed, Aug 4, 2021 at 4:48 PM yidan zhao wrote:
> 如题,1.14或1.13.2啥时候出呀,有人知道吗。
>
--
Best, Jingsong Lee
/zh/dev/connectors/streamfile_sink.html
>
>
>
>
> lixin58...@163.com
>
> 发件人: Jingsong Li
> 发送时间: 2021-07-27 10:30
> 收件人: user-zh
> 主题: Re: filesystem table parquet 滚动问题
> parquet因为它会在内存中攒buffer,所以文件的file-size并不能很精确。。只能等它flush了才会生效。
>
> On Sun, Jul 25, 2021 at 9:47 AM lixin5
parquet因为它会在内存中攒buffer,所以文件的file-size并不能很精确。。只能等它flush了才会生效。
On Sun, Jul 25, 2021 at 9:47 AM lixin58...@163.com
wrote:
> 大家好,
>
> 检查点配的是120s,滚动时长800s,滚动大小1kb,并行度配的2
>
>
> 不过在跑的过程中发现不管写入的多快,同时只存在一个in-progress文件,且最终生成的文件是严格按照120s生成的,这个很奇怪,似乎只有按检查点滚动生效了,与json格式的不一样。真的是这样吗?不过看官方文档没有这样说
>
> 求大佬们解惑!
Flink-Hudi版本是啥?
Flink集群版本是啥?
精确到第三位版本号
On Thu, Jul 15, 2021 at 11:39 PM Page wrote:
> 能不能把依赖和相关代码贴一下
>
>
> | |
> Page
> |
> |
> lj879933...@163.com
> |
> 签名由网易邮箱大师定制
> 在2021年7月13日 18:36,沉黙dē羔羊<736036...@qq.com.INVALID> 写道:
> 大家好,请教下,用了flink hudi 写入数据报错,如下:
> Caused by:
没用rocksdb吗?
On Thu, Jul 15, 2021 at 10:46 AM Michael Ran wrote:
> 要么内存增大,或者并行增大,要么窗口改小,同时保留数据时间减少
> 在 2021-07-15 10:23:25,"Hui Wang" <463329...@qq.com.INVALID> 写道:
> >flink大窗口缓存数据量过大导致jvm频烦full gc,并且处理速度极低,最终OOM,该如何调优
>
--
Best, Jingsong Lee
退订请发送到 user-zh-unsubscr...@flink.apache.org 而不是 user-zh@flink.apache.org
Best,
Jingsong
On Mon, Jun 28, 2021 at 5:56 PM luoye <13033709...@163.com> wrote:
> 退订
--
Best, Jingsong Lee
Hi,
你可以创建个JIRA,让Timo看看,UDAF引入了新的类型推导,可能有问题
Best,
Jingsong
On Tue, Jun 29, 2021 at 7:10 AM Roc Marshal wrote:
>
>
> Hi, All.
>
>
> 请教一个在最新的1.13.1 api升级调研中遇到的问题,谢谢大家:
>
>
> 版本: 1.13.1
> 运行模式: IDE-application
> ---
> about udf define...
Hi, 你的版本check下?集群和flink-parquet是同一个版本吗?
BEST,
Jingsong
On Mon, Jun 28, 2021 at 11:22 AM Wei JI10 季伟
wrote:
> 您好,
> 不是sql client,是在yarn环境上跑的,运行的jar包中引入了上面的依赖,然后就看到有这个报错。
>
>
--
Best, Jingsong Lee
你这个报错信息,意思是有个字段,你在DDL里声明是ROW,但是真实数据的这列却不是一个ROW。
你应该排查下是否声明对了,如果在期望中,可以通过ignoreParseErrors来跳过这行
Best,
Jingsong
On Mon, Jun 21, 2021 at 11:46 AM zhuxiaoshang
wrote:
> Json反序列化失败了,像是数据问题
> {\n \"app_time\": \"2021-06-14 10:00:00\",\n
> \"category_id\": 1,\n \"item_id\": 1,\n
> \"user_id\":
退订请发送到 user-zh-unsubscr...@flink.apache.org 而不是 user-zh@flink.apache.org
Best,
Jingsong
On Thu, Jun 17, 2021 at 2:16 PM 金晓龙 wrote:
> 退订
--
Best, Jingsong Lee
退订请发送到 user-zh-unsubscr...@flink.apache.org 而不是 user-zh@flink.apache.org
Best,
Jingsong
On Thu, Jun 17, 2021 at 9:51 AM Chongaih Hau
wrote:
> 郵箱更換,退訂
>
> Regards,
> Hau ChongAih
>
--
Best, Jingsong Lee
退订请发送到 user-zh-unsubscr...@flink.apache.org 而不是 user-zh@flink.apache.org
Best,
Jingsong
On Thu, Jun 17, 2021 at 9:29 AM wangweigu...@stevegame.cn <
wangweigu...@stevegame.cn> wrote:
>
> 邮箱变更,退订!
>
>
>
>
--
Best, Jingsong Lee
不能,除非你自己创建一个新的kafka connector。
不过,
kafka的offset、partition等信息是可以通过metadata的方式拿到的。
你是需要在DeserializationFormat里面拿到offset、partition?还是说后续的SQL拿到就行了?
Best,
Jingsong
On Thu, Jun 17, 2021 at 2:35 PM Michael Ran wrote:
> dear all :
> 目前有个小需求,由于binlog数据不同,不方便直接使用 format="json",想自定义format进行处理。
退订请发送到 user-zh-unsubscr...@flink.apache.org 而不是 user-zh@flink.apache.org
Best,
Jingsong
On Tue, Jun 15, 2021 at 5:05 PM 1049961436 <1049961...@qq.com> wrote:
> 退订
--
Best, Jingsong Lee
是有序的。
无序的mode目前并没有支持, 目前可能会影响流计算的正确性
Best,
Jingsong
On Tue, Jun 15, 2021 at 3:42 PM zilong xiao wrote:
> hi,社区大佬们好,想问下flink 1.13中hbase async lookup能否保证输出结果有序?
>
--
Best, Jingsong Lee
发送到 user-zh-unsubscr...@flink.apache.org 而不是 user-zh@flink.apache.org
Best,
Jingsong
On Tue, Jun 15, 2021 at 12:28 AM 张保淇 wrote:
> 退订
--
Best, Jingsong Lee
发送到 user-zh-unsubscr...@flink.apache.org 而不是 user-zh@flink.apache.org
Best,
Jingsong
On Tue, Jun 15, 2021 at 12:32 PM 1049961436 <1049961...@qq.com> wrote:
> 退订
--
Best, Jingsong Lee
发送到 user-zh-unsubscr...@flink.apache.org 而不是 user-zh@flink.apache.org
Best,
Jingsong
On Mon, Jun 14, 2021 at 7:51 PM 周超 <769699...@qq.com> wrote:
> 退订
--
Best, Jingsong Lee
支持。
如果只是在单个sql中复用expression,和temporary view基本一样,区别不大。
在某些优化路径上不同,一般没有实质影响。
Best,
Jingsong
On Fri, May 21, 2021 at 11:32 PM casel.chen wrote:
> flink sql支持Common Table Expression (CTE)吗?是不是可以通过 create temporary view
> xxx 来实现?CTE和temporary view的区别是什么?
> 例如
>
>
> with toronto_ppl as (
>
10 min
>
> > 2020年11月12日 下午3:22,Jingsong Li 写道:
> >
> > Hi admin,
> >
> > 不会丢弃数据哈,会重复提交Partition(所以现在partition的提交都是幂等操作)
> >
> > On Thu, Nov 12, 2020 at 3:11 PM admin <17626017...@163.com> wrote:
> >
> >> 补充一下不用partition time trigg
Hi admin,
不会丢弃数据哈,会重复提交Partition(所以现在partition的提交都是幂等操作)
On Thu, Nov 12, 2020 at 3:11 PM admin <17626017...@163.com> wrote:
> 补充一下不用partition time trigger的原因,partition
> time是基于watermark的,当数据延迟比较严重时,会丢弃数据吧,这种情况是不能接受的
>
> > 2020年11月12日 下午2:15,admin <17626017...@163.com> 写道:
> >
> > Hi ,kandy
> >
- 你可以用 proc-time
- 或者在你的Source上添加 **UTC时区的Watermark**,注意是 **UTC**,SQL的watermark都是 **UTC**的
On Mon, Nov 2, 2020 at 10:38 AM Rui Li wrote:
> Hi,
>
> 正常情况是可以自动提交分区的,我看你commit policy指定了metastore+success-file,可以检查一下分区目录下success
> file是否创建了。如果success file也没有的话说明没有触发分区提交。另外提交分区时会打印类似这样的日志,可以在log中查找一下
erinfo类型的ts是时间戳,所以watermark 使用的是他提取的
>
>
>
> hdxg1101300...@163.com
>
> 发件人: Jingsong Li
> 发送时间: 2020-10-28 16:29
> 收件人: user-zh
> 主题: Re: flink hive Streaming查询不到数据的问题
> Hi,
>
> 你的Source看起来并没有产出watermark,所以:
>
> 你可以考虑使得Source产出正确的watermark,或者使用'sink.partiti
Hi,
你的Source看起来并没有产出watermark,所以:
你可以考虑使得Source产出正确的watermark,或者使用'sink.partition-commit.trigger'的默认值proc-time。
Best,
Jingsong
On Wed, Oct 28, 2020 at 4:13 PM hdxg1101300...@163.com <
hdxg1101300...@163.com> wrote:
> 你好:
> 我现在在使用flink 1.11.2版本 hive1.1.0 版本;
> 当我在使用flink hive
writer的并行度是根据上游并行度来的
committer的并行度才是1
On Thu, Oct 22, 2020 at 5:22 PM 酷酷的浑蛋 wrote:
> 我用flink sql实时写入hive表时发现sink的并行度为1?
> 我看了FileSystemTableSink类的226行,确实设置了1,这是为什么呢? 并行度1的写入速度很慢
>
>
>
>
--
Best, Jingsong Lee
Hi,
是Hive表吧?
https://issues.apache.org/jira/browse/FLINK-19121 在1.11.3中才fix,这个是影响性能的
可以下载最新的1.11分支的Hive依赖来试下:
https://repository.apache.org/snapshots/org/apache/flink/
(比如你用hive-1.2.2依赖,你可以下载
Hi devs and users:
After the 1.11 release, I heard some voices recently: How can't Hive's
documents be found in the "Table & SQL Connectors".
Actually, Hive's documents are in the "Table API & SQL". Since the "Table &
SQL Connectors" document was extracted separately, Hive is a little out of
Hi,
不好意思,麻烦试下
试下最新的release-1.11分支编译出来的Hive依赖 (flink-connector-hive的 改动)
> 顺便问一下,你们1.12版本,针对小文件合并,会有改进么 ?
这是1.12的目标,这两天会出来JIRA和设计方案,类似会加上"auto-compaction"的配置,sink中自动合并
Best,
Jingsong
On Fri, Sep 18, 2020 at 10:18 AM kandy.wang wrote:
>
>
>
>
>
>
> @Jings
你仔细看看这两个数据源是不是有什么不同
只要有一点不同,Blink 就 reuse 不了
On Thu, Sep 17, 2020 at 11:10 AM Kevin Dai <154434...@qq.com> wrote:
> 场景描述:
> 通过Flink SQL创建两个Kafka数据源,对数据源去重处理,然后Union ALL合并,并创建临时视图
> 然后通过Flink SQL读取临时视图进行聚合计算指标,结果写入Redis
> 问题描述:
> Flink SQL 解析器会为每个聚合运算创建相同的两个数据源
>
> 在下面Blink
> 改成false是可以满足我们的写hive需求了
> 还有一个问题,之前问过你,你还没回复:
> HiveRollingPolicy为什么 shouldRollOnCheckpoint true 为何要强制滚动文件,这个可以抽取成一个配置参数么?
> 如果强制滚动的话,基本上sink.rolling-policy.rollover-interval、
> sink.rolling-policy.rollover-interval参数就不work了,如果5min一个分区,2min做一次checkpoint,那文件还不到几十M就滚动了。配置的参数就没意义了
> 在
OG.info("Hive streaming sink: Use MapReduce RecordWriter writer because
> BulkWriter Factory not available.");
> }
> }
> 在 2020-09-17 13:21:40,"Jingsong Li" 写道:
> >是最新的代码吗?
> >1.11.2解了一个bug:https://issues.apache.org/jira/browse/FLINK-19121
> >它是影响性能的
Thanks ZhuZhu for driving the release.
Best,
Jingsong
On Thu, Sep 17, 2020 at 1:29 PM Zhu Zhu wrote:
> The Apache Flink community is very happy to announce the release of Apache
> Flink 1.11.2, which is the second bugfix release for the Apache Flink 1.11
> series.
>
> Apache Flink® is an
是最新的代码吗?
1.11.2解了一个bug:https://issues.apache.org/jira/browse/FLINK-19121
它是影响性能的,1.11.2已经投票通过,即将发布
On Thu, Sep 17, 2020 at 12:46 PM kandy.wang wrote:
> @Jingsong Li
>
> public TableSink createTableSink(TableSinkFactory.Context context) {
>CatalogTable table = checkNotNull(cont
s,hdfs 这边已经是ssd hdfs了,kafka的分区数=40
> ,算子并行度=40,tps也就达到6-7万这样子,并行度放大,性能并无提升。
> 就是flink sql可以
> 改局部某个算子的并行度,想单独改一下StreamingFileWriter算子的并行度,有什么好的办法么?然后StreamingFileWriter
> 这块,有没有什么可以提升性能相关的优化参数?
>
>
>
>
> 在 2020-09-16 19:29:50,"Jingsong Li" 写道:
> >Hi,
>
你指的可能是控制sink的并行度,这个一直在讨论中
On Wed, Sep 16, 2020 at 10:26 PM wangenbao <156827...@qq.com> wrote:
> 感谢回复
> 目前确实使用keyBy,能把并行度提高,分散数据到多个TaskManager中,但遇见个问题
> <
> http://apache-flink.147419.n8.nabble.com/file/t959/QQ%E6%88%AA%E5%9B%BE20200916221935.png>
>
> <
>
Hi,
可以分享下具体的测试场景吗?有对比吗?比如使用手写的DataStream作业来对比下,性能的差距?
另外,压测时是否可以看下jstack?
Best,
Jingsong
On Wed, Sep 16, 2020 at 2:03 PM kandy.wang wrote:
> 压测下来,发现streaming方式写入hive StreamingFileWriter ,在kafka partition=40 ,source
> writer算子并行度 =40的情况下,kafka从头消费,tps只能达到 7w
> 想了解一下,streaming方式写Hive
可以考虑在写之前按照hashtid keyBy下吗?
Best,
Jingsong
On Wed, Sep 16, 2020 at 9:36 AM wangenbao <156827...@qq.com> wrote:
> 求教各位大佬:
> 有遇到如下问题的吗?
>
> 1、我首先通过TableAPI读取Kafka中PB格式数据,转换成POJO对象,然后注册成View;
> 2、然后Insert into到三分区(日,小时,hashtid)的Hive表(Parquet格式Snappy压缩)中;
> 3、数据的分区相对分散些就会出现OOM问题,具体表现为
>
Hi kandy~
有可能是https://issues.apache.org/jira/browse/FLINK-19166
这个问题导致的,即将发布的1.11.2会Fix它,希望你可以确认重试下~
Best,
Jingsong
On Fri, Aug 14, 2020 at 7:22 PM kandy.wang wrote:
> @Jingsong orc格式,都看过了,还是没有commit。感觉你们可以测一下这个场景
>
> 在 2020-08-12 16:04:13,"Jingsong Li" 写道:
> >另外问一下
非常感谢你的反馈,应该是真的有问题,我建个JIRA追踪下
https://issues.apache.org/jira/browse/FLINK-19166
会包含在即将发布的1.11.2中
Best,
Jingsong
On Wed, Sep 9, 2020 at 10:44 AM MuChen <9329...@qq.com> wrote:
> hi,Rui Li:
> 没有提交分区的目录是commited状态,手动add partition是可以正常查询的
>
>
插入Hive表的SQL也发下?
On Tue, Sep 8, 2020 at 9:44 PM Rui Li wrote:
> 另外也list一下没有提交的分区目录吧,看看里面的文件是什么状态
>
> On Tue, Sep 8, 2020 at 9:19 PM Rui Li wrote:
>
> > 作业有发生failover么?还是说作业能成功结束但是某些partition始终没提交?
> >
> > On Tue, Sep 8, 2020 at 5:20 PM MuChen <9329...@qq.com> wrote:
> >
> >> hi, Rui Li:
> >>
Hi,
flink-sql-orc_2.11-1.11.0.jar 和 flink-sql-connector-hive-2.2.0_2.11-1.11.0.jar
目前是不能共存的,不然会冲突,你试试去掉flink-sql-orc看看?
On Tue, Sep 8, 2020 at 4:55 PM 大罗 wrote:
> Hi ,我例子中的hive orc表,不是事务表,如图:
>
> createtab_stmt
> CREATE TABLE `dest_orc`(
> `i` int)
> PARTITIONED BY (
> `ts` string)
> ROW
Hi,
flink-orc实现的OrcBulkWriterFactory,是有点“ 深入“的,重写了部分ORC的代码,所以没那么好做版本兼容。
你可以考虑使用Hive的streaming写,它使用native的hive orc writer[1],可以对应你需要的那个版本。
[1]
https://ci.apache.org/projects/flink/flink-docs-master/dev/table/hive/hive_streaming.html#streaming-writing
Best,
Jingsong
On Mon, Sep 7, 2020 at 2:11
另外,可能和使用本地文件系统有关?换成HDFS试试?
On Mon, Sep 7, 2020 at 11:15 AM Jingsong Li wrote:
> Hi,
>
> 可以在JobMaster里面看一下jstack吗?看下具体卡在哪里?
>
> On Sat, Sep 5, 2020 at 11:11 PM Peihui He wrote:
>
>> Hi, all
>>
>> 经过这几天的测试发现,当hdfs目录下的文件比较多的时候就是出现上述情况,比如我这边文件个数接近2k个。
>>
Hi,
可以在JobMaster里面看一下jstack吗?看下具体卡在哪里?
On Sat, Sep 5, 2020 at 11:11 PM Peihui He wrote:
> Hi, all
>
> 经过这几天的测试发现,当hdfs目录下的文件比较多的时候就是出现上述情况,比如我这边文件个数接近2k个。
> 简单的测试当文件个数为1到2个的时候会很快提交job,并且flink session web 页面也没有感觉到卡着。
>
> 请问有什么好的解决方式没呢?
>
> Best Wishes.
>
> Peihui He 于2020年9月4日周五 下午6:25写道:
>
>>
失败的图没有呢。。具体什么异常?
On Mon, Sep 7, 2020 at 10:23 AM MuChen <9329...@qq.com> wrote:
> hi, all:
> 麻烦大佬们帮看个问题,多谢!
>
> 处理逻辑如下
> 1. 使用DataStream API读取kafka中的数据,写入DataStream ds1中
> 2. 新建一个tableEnv,并注册hive catalog:
> tableEnv.registerCatalog(catalogName, catalog);
>
是的
On Fri, Aug 21, 2020 at 1:30 PM wrote:
> flink hive表的方式是什么意思?hive streaming吗?
>
> 发自我的iPhone
>
> > 在 2020年8月21日,13:27,Jingsong Li 写道:
> >
> > Flink filesystem connector 或者 DataStream用flink-orc
> 的版本是比较新的版本,所以老版本的ORC读不了。
> >
> > 建议你用Flink hive表的方
Flink filesystem connector 或者 DataStream用flink-orc 的版本是比较新的版本,所以老版本的ORC读不了。
建议你用Flink hive表的方式来写orc
On Fri, Aug 21, 2020 at 12:25 PM wrote:
> Flink是指定orc版本的,并没有用hive的。所以写进去之后,hive读不出来。
>
> 发自我的iPhone
>
> > 在 2020年8月21日,12:15,Jingsong Li 写道:
> >
> > 如果是hive table
如果是hive table的写,flink sql是使用hive对应版本的orc的,所以理论上效果和hive sql写orc是一样的。
确定这个版本hive写出的数据可以被读取吗?
On Fri, Aug 21, 2020 at 10:17 AM wrote:
> 使用版本是flink 1.11
> Hive 2.1.1
> flink sql写到orc后,创建外部表发现无法正常读取,这个怎么解决,各位大佬?
>
>
>
--
Best, Jingsong Lee
这是bug,已经修复了,待发布
On Fri, Aug 14, 2020 at 6:05 PM flink小猪 <18579099...@163.com> wrote:
> 根据我在IDE上面的测试,如果是写入parquet表的话,不添加您发的这段代码,程序依然在运行,并且每间隔checkpoint-interval的时间
> 会打印parquet相关的日志,但是如果是写入orc表的话,则没有任何日志输出,程序依然在运行。另外我通过sql client提交相同的任务,
> parquet表依然没有任何问题,而orc表任务无限重启。并报错。
>
>
具体什么错呢
On Tue, Aug 18, 2020 at 8:34 PM smq <374060...@qq.com> wrote:
>
> 大家好,在网上找了个制作parcel的工具,flink1.9版本打好之后可以正常通过cm安装运行,但是1.10和1.11安装之后都是启动不了,请问大家有这方面的经验可以传授下吗,感激不尽!
--
Best, Jingsong Lee
1.11 就用新的source sink接口吧
On Wed, Aug 19, 2020 at 12:43 AM 赵 建云 wrote:
> 补充图片链接
> 创建连接器
> http://image.zhaojianyun.com/mweb/bug1.png
> TableSourceSinkFactory中的创建sink
> http://image.zhaojianyun.com/mweb/bug2.png
> TableSchema的运行时物理信息
> http://image.zhaojianyun.com/mweb/bug3.png
>
>
>
> 2020年8月18日
取决于你为啥要做血缘关系
On Wed, Aug 19, 2020 at 1:17 AM guaishushu1...@163.com <
guaishushu1...@163.com> wrote:
> 哪位大佬知道,如果要做Flink SQL血缘关系是在sqlNode中拿表之间关系好,还是在Transformation 算子中拿血缘关系好
>
>
>
> guaishushu1...@163.com
>
--
Best, Jingsong Lee
只要你继承CheckpointRollingPolicy,想怎么实现shouldRollOnEvent和shouldRollOnProcessingTime都行
On Wed, Aug 19, 2020 at 6:20 PM guoliang_wang1335
wrote:
> 请问,Flink StreamingFileSink使用批量写Hadoop SequenceFile
> format,能自定义滚动策略吗?我想指定文件大小、文件最长未更新时间和checponit来进行滚动,可以通过实现RollingPolicy接口来定制吗?谢谢!
>
>
> 看文档<
>
你可以贴下异常栈,
估计是ORC版本问题,如果你用file system的orc writer,那是比较新的版本。
建议你用下Hive的表来写,这样你可以选版本。
Best,
Jingsong
On Thu, Aug 20, 2020 at 12:10 PM wrote:
> 使用flink sql写到orc文件,以后,flink能读取出来,但是spark和hive均不能读取出来,impala能读取。
>
> 发自我的iPhone
--
Best, Jingsong Lee
Hi,
最新的版本(1.11+)已经有这个属性可以配置了:
https://ci.apache.org/projects/flink/flink-docs-master/dev/table/connectors/formats/json.html#format-options
Best,
Jingsong
On Tue, Aug 18, 2020 at 2:42 PM 赵一旦 wrote:
> 我刚刚接触flinksql,主要是感觉这个问题很明显,大家如果生产中使用的话,应该都已经有方案才对,但是好像没啥人有回应。
>
> shizk233 于2020年8月18日周二
>
>
>
> 在 2020-08-12 14:26:53,"Jingsong Li" 写道:
> >那你之前的分区除了in-progress文件,有已完成的文件吗?
> >
> >On Wed, Aug 12, 2020 at 1:57 PM kandy.wang wrote:
> >
> >>
> >>
> >>
> >> source就是kafka
> >>
> json格式,是exactly-onc
完,理论上源头数据需要回退消费,那为什么你重启后作业不会再写这个分区了呢?
>
>
>
> in-progress还在,就证明了这个分区的数据还没写完,理论上源头数据需要回退消费,那为什么你重启后作业不会再写这个分区了呢?
>
> 在 2020-08-12 13:28:01,"Jingsong Li" 写道:
> >你的source是exactly-once的source吗?
> >
> >in-progress还在,就证明了这个分区的数据还没写完,理论上源头数据需要回退
rogress文件对没影响,但是影响了分区提交。就没地方触发之前12:35分区提交逻辑了。相当于丢了一个分区。这种情况我试了一下,手动add
> partition 也能查了。
> >
> >
> >
> >在 2020-08-12 12:11:53,"Jingsong Li" 写道:
> >>in-progress文件带来了什么具体问题吗?它们是多余的文件,对流程没有影响
> >>
> >>On Wed, Aug 12, 2020 at 11:05 AM Jark
in-progress文件带来了什么具体问题吗?它们是多余的文件,对流程没有影响
On Wed, Aug 12, 2020 at 11:05 AM Jark Wu wrote:
> 与我所知,(2) & (3) 有希望能在 1.12 中支持。
>
> On Tue, 11 Aug 2020 at 21:15, kandy.wang wrote:
>
> > 1.StreamingFileWriter 测试下来目前发现,sql方式提交任务,不能从checkpoint、savepoint恢复。
> >举例:5min产生一个分区,数据按照process_time来落,hm=
Hi,
我觉得是时候考虑把hive文档移到connector里了,我们没必要割裂它们
Best,
Jingsong
On Tue, Aug 11, 2020 at 10:39 AM Zhao,Yi(SEC) wrote:
> 是的。我更多是纠结文档结构容易造成混淆。我认为catalog和connector是相对独立的概念。最对算是有点关系。
> 但是根据其他人的回答,目前来看,这2者还真没办法完全独立。比如jdbc connector就是不支持hive表。读写hive表还就是需要hive
>
Hi,
1.checkpoint会强制滚动
2.目前最简单的思路是加大checkpoint interval,另一个思路是在partition commit时触发hive去compaction。
3.success文件的生成依赖checkpoint interval,所以会有一定延迟。
Best,
Jingsong
On Thu, Jul 30, 2020 at 1:14 PM kandy.wang wrote:
> 现象:
> CREATE TABLE test.xxx_5min (
>
> ..
>
> ) PARTITIONED BY (dt string , hm
可以看下Flink 1.11的UDF type inference.
在TypeInference中有input的type,这个type应该是包含字段信息的。
Best,
Jingsong
On Thu, Jul 23, 2020 at 2:09 PM Dream-底限 wrote:
> hi
> 是的,我们的数据场景比较尴尬,那我想其他方式实现一下
>
> Benchao Li 于2020年7月23日周四 下午12:55写道:
>
> > 这个应该是做不到的。name只是SQL plan过程的东西,在运行时它就没有什么实际意义了。
> >
相同操作我也没有复现。。是可以成功执行的
你的HDFS是什么版本?是否可以考虑换个来测试下
On Thu, Jul 23, 2020 at 11:34 AM Jun Zhang
wrote:
> hi,jinsong:
>
> 这个问题不知道你后来有没有做过测试,我这里一直不行,就是并发度是1的时候,文件写入是正常的,就是没有生成success文件,如果是hive的话,就没有自动生成分区和更新分区数据。
>
> Jun Zhang 于2020年7月23日周四 上午11:15写道:
>
>> hi,夏帅:
>>
>>
Thanks for being the release manager for the 1.11.1 release, Dian.
Best,
Jingsong
On Thu, Jul 23, 2020 at 10:12 AM Zhijiang
wrote:
> Thanks for being the release manager and the efficient work, Dian!
>
> Best,
> Zhijiang
>
> --
>
殊Source Sink,他们会和KeyBy操作组合(对用户透明),我们也是在DataStream层面上去做的
>
>
> 如果可以的话,能让我在API层面拿到Transformation也是能满足我需求的
>
>
>
> 发件人: Jingsong Li
> 发送时间: 2020年7月22日 13:26:00
> 收件人: user-zh
> 抄送: imj...@gmail.com
> 主题: Re: 关于1.11Flink SQL 全新API设计的一些
可以分享下你们为啥要拿到DataStream吗?什么场景一定离不开DataStream吗?
Best
Jingsong
On Wed, Jul 22, 2020 at 12:36 PM 刘首维 wrote:
> Hi all,
>
>
>
> 很高兴看到Flink 1.11的发布,FLIP95和FLIP105也成功落地~
>
> 我们最近在调研基于1.11的SQL/Table API对我们旧有的SQL
>
Hi,
HiveCatalog就是官方唯一的可以保存所有表的持久化Catalog,包括kafka,jdbc,hbase等等connectors。
> 后续有可能转正为flink 默认的catalog实现吗?
目前不太可能,你看,Flink连Hadoop的依赖都没有打进来。Hive的依赖更不会默认打进来。 依赖都没有,也不会成为默认的。
> hive catalog是不支持大小写敏感的
是的,就像Godfrey说的,特别是JDBC对接的某些大小写敏感的db,这可能导致字段名对应不了。
Best,
Jingsong
On Wed, Jul 22, 2020 at 10:39 AM
你的Source表是怎么定义的?确定有watermark前进吗?(可以看Flink UI)
'sink.partition-commit.trigger'='partition-time' 去掉试试?
Best,
Jingsong
On Wed, Jul 22, 2020 at 12:02 AM Leonard Xu wrote:
> HI,
>
> Hive 表时在flink里建的吗? 如果是建表时使用了hive dialect吗?可以参考[1]设置下
>
> Best
> Leonard Xu
> [1]
>
默认创建的是Flink表,Hive端不可见。
你想创建Hive表的话,用Hive dialect。
Best,
Jingsong
On Tue, Jul 21, 2020 at 11:31 AM felixzh wrote:
> 参照文档
> https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/hive/#connecting-to-hive
> 通过flink创建表:CREATE TABLE Orders (product STRING, amount INT)
>
是的。
但是不管怎么滚动,最终都是checkpoint完成后文件才可见
On Mon, Jul 20, 2020 at 7:10 PM Dream-底限 wrote:
> hi、
> 对于下面这两个的滚动方式,是选优先到达的吗,就是1min的checkpoint和128mb的file size,不管哪个先到都会滚动生成新的文件
>
> 》可以,默认下 128MB 滚动,Checkpoint 滚动
>
> Jingsong Li 于2020年7月20日周一 下午6:12写道:
>
> > Hi Dream,
>
Hi Dream,
> 1.一定要在flink内部先建立hive表吗?
不用,哪边建无所谓
> 2、如果直接写hive内(hue建表)已经建好的hive表可以吗,文件会有滚动策略吗
可以,默认下 128MB 滚动,Checkpoint 滚动。
Best,
Jingsong
On Mon, Jul 20, 2020 at 5:15 PM Dream-底限 wrote:
> hi
> 好的,想问一下stream写hive表的时候:
> 1、一定要在flink内部先建立hive表吗?
> 2、如果直接写hive内(hue建表)已经建好的hive表可以吗,文件会有滚动策略吗
>
Hi Dream,
可以详述下你的测试场景吗?
Best,
Jingsong
On Mon, Jul 20, 2020 at 5:40 PM Dream-底限 wrote:
> hi、
> 请问这个问题最后怎么解决了,数据能滚动写入hive了嘛,我这面开启了checkpoint之后hive也是没数据
>
> 李佳宸 于2020年7月16日周四 下午10:39写道:
>
> > 好的,谢谢~~~
> >
> > JasonLee <17610775...@163.com> 于2020年7月16日周四 下午8:22写道:
> >
> > > hi
> > >
用bundle jar可以搞定吗?
[1]
https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/hive/#using-bundled-hive-jar
Best,
Jingsong
On Fri, Jul 17, 2020 at 5:14 PM Dream-底限 wrote:
> hi:
>
>
CREATE TEMPORARY TABLE kafka_table...
好像没文档,我建个JIRA跟踪下
https://issues.apache.org/jira/browse/FLINK-18624
Best,
Jingsong
On Fri, Jul 17, 2020 at 5:05 PM Dream-底限 wrote:
> hi:
>
>
还要添加flink-json
Best,
Jingsong
On Tue, Jul 14, 2020 at 2:38 PM amen...@163.com wrote:
> hi, everyone
>
> 环境信息:flink-1.11.0, blink-planner, 本地ide开发测试(IDEA)
>
> 问题描述:使用executeSql()方法执行DDL语句,控制台打印如下异常信息。(flink-connector-kafka_2.11依赖已添加)
>
> 我不确定是否还有某个必要的依赖没有添加,还是有其他的地方没有考虑完整,请大佬赐教。
>
>
>
Hi
退订应该发这个邮箱:user-zh-unsubscr...@flink.apache.org
Best
Jingsong
On Tue, Jul 14, 2020 at 12:36 PM 成欢晴 wrote:
> 退订
>
>
> | |
> chq19970719
> |
> |
> 邮箱:chq19970...@163.com
> |
>
> Signature is customized by Netease Mail Master
--
Best, Jingsong Lee
共有 200 项搜索結果,以下是第 1 - 100 matches
Mail list logo