请问可否详细列出需求?
是只需要找出性能瓶颈?还是需要参数架构重构并至项目上线? | | Jeff | | zilong0...@126.com | ---- 回复的原邮件 ---- | 发件人 | len...@126.com<len...@126.com> | | 发送日期 | 2024年12月2日 22:13 | | 收件人 | mackliu007<mackliu...@gmail.com> | | 抄送人 | user-zh<user-zh@flink.apache.org> | | 主题 | Re: Re: 寻找pyflink技术专家,做有偿技术咨询 | 感谢回复!!! 架构: 主要使用DataStream,状态后端为fsStateBackend,没有使用原生的flink窗口,目前主要针对单台设备的状态计算,因此在keyby进行计算; 性能瓶颈: CPU消耗很高,内存占用还好,可以接受,单个TM节点消耗60%的内存,没有网络延迟; 内存泄漏: 主要是在python中大量使用了mapstate,在主动删除key后,有大量的已删除key仍然在内存中存在,但是,这些删除key对应的value已经删除,在实时计算场景中,经过几天的运行,内存增长最终会触发OOM,目前缓解方式,就是调低python.state.cache-size的默认值,由默认1000改为500,延缓触发OOM的时间,但是,CPU消耗随之增高,容易出现反压。 抱歉,因为公司电脑安全限制,我无法提供有效的日志文件,这封邮件是在个人电脑中编写的, 附件中是架构详细信息,如果需要的话,我再重建内存泄漏现场,然后向安全部门申请导出日志。 如果需要详聊可以加微信:132 6048 0916(手机同号) 如下是架构简图: len...@126.com 发件人: Mack Liu 发送时间: 2024-12-02 21:23 收件人: user-zh 主题: Re: 寻找pyflink技术专家,做有偿技术咨询 你好,仿便给出以下详细的信息吗: - 当前作业设计架构(如算子类型、状态后端使用、窗口设计、数据流设计等)。 - 性能瓶颈的表现(如 CPU 利用率、内存占用、网络延迟)。 - 内存泄漏的场景和日志信息。 len...@126.com <len...@126.com> 于2024年12月2日周一 20:10写道: > Dear All: > > 我司最近在大规模使用pyflink > 1.16.2(单个作业5000核,pyflink集群作业需要约70000核)时,遇见了一些性能问题,测试了很多文章提到的优化项,目前效果有待提高, > > 也遇见了pyflink的mapstate内存泄漏问题,但是尚未定位根因。 > > 我们部门计划通过付费咨询,请教apache flink社区的技术专家来我们公司,指导我们解决架构设计,性能等问题。 > > 技术专家所耗费的时间和咨询费用(预算超过20W),都可以商量,我们申请了足够的预算做这件事儿。 > > 邮件列表中的任何人都可以向我推荐pyflink技术专家,非常感谢!!! > > 联系方式: > len...@126.com > > 手机号: > 132 6048 0916 > > > > len...@126.com >