from:"孙啸龙"

Flink etl 的应用场景

2021-05-13 Thread 孙啸龙

大家好：
   方向:ETL
   除了延迟上的区别，离线能实现的，flink 实时实现不了的应用场景有哪些或者有缺陷的点？

Re: Catalog(Kafka Connectors 的ddl)持久化到hive metastore，groupid一样的问题

2021-02-01 Thread 孙啸龙

非常谢谢

> 在 2021年1月30日，下午9:18，JasonLee <17610775...@163.com> 写道：
> 
> hi
> 
> 社区以及提供了动态修改表属性的功能,具体使用可以参考 https://mp.weixin.qq.com/s/nWKVGmAtENlQ80mdETZzDw
> 
> 
> 
> -
> Best Wishes
> JasonLee
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/

Catalog(Kafka Connectors 的ddl)持久化到hive metastore，groupid一样的问题

2021-01-27 Thread 孙啸龙

Hi:
版本：1.12.0
DDL 语句持久化到hive metastore，
创建语句如下，
CREATE TABLE KafkaTable (
  `user_id` BIGINT,
  `item_id` BIGINT,
  `behavior` STRING,
  `ts` TIMESTAMP(3) METADATA FROM 'timestamp'
) WITH (
  'connector' = 'kafka',
  'topic' = 'user_behavior',
  'properties.bootstrap.servers' = 'localhost:9092',
  'properties.group.id' = 'testGroup',
  'scan.startup.mode' = 'earliest-offset',
  'format' = 'csv'
)
那多个应用使用的时候，groupid都是一样的，'properties.group.id' = ‘testGroup’
   这个是不是会有问题，大家是怎么处理的？

Re: Flink sql 状态过期后，checkpoint 大小没变化

2021-01-14 Thread 孙啸龙

你好：
非常谢谢，
本地的数据是过期了。
不好意思，还有几个疑问想请教下。
1.看文档，开启cleanFullSnapshot是只能对单个状态设置吗，没查到flink sql 
开启cleanFullSnapshot的配置的地方？因为只看到StateTtlConfig是对于单个状态的设置，没有对job或者对table的config设置。
2.cleanFullSnapshot 开启后，从checkpoint恢复才会触发清理,不是在checkpoint过程中触发清理掉过期数据？


> 在 2021年1月14日，下午4:48，Yun Tang  写道：
> 
> Hi,
> 
> 你本地的数据肯定是过期了，checkpoint 
> size没有变化是因为你的数据总量83MB，且之后没有插入新数据，导致没有触发RocksDB的compaction，所以本地的数据没有物理上清理，而在full
>  snapshot时候，估计你并没有开启cleanFullSnapshot [1]，所以导致full snapshot时候并没有删除掉过期数据。
> 
> 其实你可以查询一下状态，默认情况下，已经过期的数据是无法再查询到了。
> 
> 建议开启增量checkpoint即可，过期数据即使物理不删除，也因为过期而无法再读取到了，没必要过分关注UI上的checkpoint size。
> 
> 
> [1] 
> https://ci.apache.org/projects/flink/flink-docs-stable/dev/stream/state/state.html#cleanup-in-full-snapshot
> 
> 祝好
> 唐云
> 
> From: 孙啸龙 
> Sent: Thursday, January 14, 2021 16:11
> To: user-zh@flink.apache.org 
> Subject: Re: Flink sql 状态过期后，checkpoint 大小没变化
> 
> 你好：
> 使用的state backend是rocksdb，没有开启增量，后续没有再插入过数据。
> 
>> 在 2021年1月14日，下午4:07，Yun Tang  写道：
>> 
>> 使用的state backend，以及对应的checkpoint 类型是什么（是否开启incremental checkpoint）？
>> 
>> 在一开始插入数据后，直到state TTL超过，期间均没有再插入数据过么？还是说一直在以一定的数据量在插入数据？
>> 
>> 
>> 祝好
>> 唐云
>> 
>> From: 孙啸龙 
>> Sent: Thursday, January 14, 2021 15:52
>> To: user-zh@flink.apache.org 
>> Subject: Flink sql 状态过期后，checkpoint 大小没变化
>> 
>> 大家好：
>>   版本：1.12.0
>>   方式：flink sql
>>   测试sql：
>>   select a.id,b.money,b.createTime from test_state_from a
>>   full join test_state_from1 b on a.id=b.id;
>>   问题：
>>  test_state_from和test_state_from1 分别插入50万条数据，查看 checkpoint 大小为83m，state 
>> ttl 设  置为16分钟，30分钟后查看checkpoint的值还是83m，状态过期清理后的checkpoint为什么没变小？
>

Re: Flink sql 状态过期后，checkpoint 大小没变化

2021-01-14 Thread 孙啸龙

你好：
 使用的state backend是rocksdb，没有开启增量，后续没有再插入过数据。

> 在 2021年1月14日，下午4:07，Yun Tang  写道：
> 
> 使用的state backend，以及对应的checkpoint 类型是什么（是否开启incremental checkpoint）？
> 
> 在一开始插入数据后，直到state TTL超过，期间均没有再插入数据过么？还是说一直在以一定的数据量在插入数据？
> 
> 
> 祝好
> 唐云
> ________
> From: 孙啸龙 
> Sent: Thursday, January 14, 2021 15:52
> To: user-zh@flink.apache.org 
> Subject: Flink sql 状态过期后，checkpoint 大小没变化
> 
> 大家好：
>版本：1.12.0
>方式：flink sql
>测试sql：
>select a.id,b.money,b.createTime from test_state_from a
>full join test_state_from1 b on a.id=b.id;
>问题：
>   test_state_from和test_state_from1 分别插入50万条数据，查看 checkpoint 大小为83m，state 
> ttl 设  置为16分钟，30分钟后查看checkpoint的值还是83m，状态过期清理后的checkpoint为什么没变小？

Flink sql 状态过期后，checkpoint 大小没变化

2021-01-13 Thread 孙啸龙

大家好：
版本：1.12.0
方式：flink sql
测试sql：
select a.id,b.money,b.createTime from test_state_from a
full join test_state_from1 b on a.id=b.id;
问题：
   test_state_from和test_state_from1 分别插入50万条数据，查看 checkpoint 大小为83m，state 
ttl 设  置为16分钟，30分钟后查看checkpoint的值还是83m，状态过期清理后的checkpoint为什么没变小？

Re: 回撤流-窗口计算

2020-12-30 Thread 孙啸龙

非常感谢回复，
疑问1:实时ETL中，涉及join的操作的很多，一join之后，聚合操作就只能用非窗口计算了吗,这样不是实时etl里基本不能用到窗口和interval 
join?
疑问2: 
Connector='upset-kafka’,读到的是回撤流，
如果后面的操作不能使用到窗口和interval join,是不是在这种情况下 watermark用不到？

> 在 2020年12月30日，下午8:31，hailongwang <18868816...@163.com> 写道：
> 
> 需要的 window size 大吗，可以使用 min-batch 的 no-window agg 绕过？
> 
> 
> Best,
> Hailong
> 在 2020-12-30 17:41:50，"孙啸龙"  写道：
>> Hi,大家好：
>> 
>> 版本：1.12.0
>> 方式：Flink sql
>> 问题：双流join后是回撤流，不能窗口计算,这种应用场景是怎么处理的？

回撤流-窗口计算

2020-12-30 Thread 孙啸龙

Hi,大家好：

版本：1.12.0
方式：Flink sql
问题：双流join后是回撤流，不能窗口计算,这种应用场景是怎么处理的？

Flink etl 的应用场景

Re: Catalog(Kafka Connectors 的ddl)持久化到hive metastore，groupid一样的问题

Catalog(Kafka Connectors 的ddl)持久化到hive metastore，groupid一样的问题

Re: Flink sql 状态过期后，checkpoint 大小没变化

Re: Flink sql 状态过期后，checkpoint 大小没变化

Flink sql 状态过期后，checkpoint 大小没变化

Re: 回撤流-窗口计算

回撤流-窗口计算

8 matches

Site Navigation

Mail list logo

Footer information