@Jimmy Zhang
了解下checkpoint/savepoint 中间计算的结果可以间隔时间写入外部hdfs等
在 2021-08-09 09:51:21,"Jimmy Zhang" 写道:
>您好,看到你们在用kafka相关metrics,我想咨询一个问题。你们是否遇见过在重启一个kafka sink
>job后,相关指标清零的情况?这样是不是就无法持续的进行数据想加?我们想做一个数据对账,查询不同时间段的输出量统计,这样可能中间归零就有问题,所以想咨询下,任何的回复都非常感谢!
>
>
>
>
>|
>Best,
>Jimmy
>|
>
>Signature is
1. metric指标每次都会清0的2. 数据对账的话, 可以将每次的统计数据按时间点保存起来, 然后查询时间范围的时候, 做sum求和来对账
在 2021-08-09 09:51:43,"Jimmy Zhang" 写道:
>您好,看到你们在用kafka相关metrics,我想咨询一个问题。你们是否遇见过在重启一个kafka sink
>job后,相关指标清零的情况?这样是不是就无法持续的进行数据想加?我们想做一个数据对账,查询不同时间段的输出量统计,这样可能中间归零就有问题,所以想咨询下,任何的回复都非常感谢!
>
>
>
>
>|
>Best,
>Jimmy
>|
>
您好,看到你们在用kafka相关metrics,我想咨询一个问题。你们是否遇见过在重启一个kafka sink
job后,相关指标清零的情况?这样是不是就无法持续的进行数据想加?我们想做一个数据对账,查询不同时间段的输出量统计,这样可能中间归零就有问题,所以想咨询下,任何的回复都非常感谢!
|
Best,
Jimmy
|
Signature is customized by Netease Mail Master
在2021年07月28日 17:58,jie mei 写道:
hi,all
我们是通过 grafana 对采集到的 flink kafka 的
sorry, metrics
项没复制全,应该是taskmanager_job_task_operator_KafkaConsumer_records-lag-max。
我们主要是通过 grafana
的图标来展现来监控延迟等信息,简单的报警页可以通过grafana来配置。细粒度到任务级别的报警,grafana配置起来有点繁琐,不过可能可以通过grafana
的 rest api 自动生成。
jie mei 于2021年7月28日周三 下午5:58写道:
> hi,all
>
> 我们是通过 grafana 对采集到的 flink kafka 的
>
hi,all
我们是通过 grafana 对采集到的 flink kafka 的
metrics(taskmanager_job_task_operator_KafkaConsumer_records) 配置报警规则来报警的。
xuhaiLong 于2021年7月28日周三 下午5:46写道:
> 参考下kafka_exporter,获取所有的 group 的消费情况,然后配置不同的规则去监控。
>
>
> 在2021年7月28日 17:39,laohu<2372554...@qq.com.INVALID> 写道:
> Hi comsir
>
>
参考下kafka_exporter,获取所有的 group 的消费情况,然后配置不同的规则去监控。
在2021年7月28日 17:39,laohu<2372554...@qq.com.INVALID> 写道:
Hi comsir
kafka的控制台能力比较弱,想知道延迟只能自己维护。
维护方式:
1. 每个服务的topic的offset 减去 groupid的offset
2. 尽量可以计算出各种消费速度
3. rocketmq控制台,可看到消费进度,可以参照下。
在 2021/7/28 上午11:02, 龙逸尘 写道:
Hi comsir,
采用 kafka 集群元数据
Hi comsir
kafka的控制台能力比较弱,想知道延迟只能自己维护。
维护方式:
1. 每个服务的topic的offset 减去 groupid的offset
2. 尽量可以计算出各种消费速度
3. rocketmq控制台,可看到消费进度,可以参照下。
在 2021/7/28 上午11:02, 龙逸尘 写道:
Hi comsir,
采用 kafka 集群元数据 的 offset 信息和当前 group offset 相减得到的 lag 是比较准确的。
group id 需要自己维护。
comsir <609326...@qq.com.invalid>
Hi comsir,
采用 kafka 集群元数据 的 offset 信息和当前 group offset 相减得到的 lag 是比较准确的。
group id 需要自己维护。
comsir <609326...@qq.com.invalid> 于2021年7月20日周二 下午12:41写道:
> hi all
> 以kafka为source的flink任务,各位都是如何监控kafka的延迟情况??
> 监控这个延迟的目的:1.大盘展示,2.延迟后报警
> 小问题:
> 1.发现flink原生的相关metric指标很多,研究后都不是太准确,大家都用哪个指标?
>