请问可否详细列出需求?

是只需要找出性能瓶颈?还是需要参数架构重构并至项目上线?








| |
Jeff
|
|
zilong0...@126.com
|
---- 回复的原邮件 ----
| 发件人 | len...@126.com<len...@126.com> |
| 发送日期 | 2024年12月2日 22:13 |
| 收件人 | mackliu007<mackliu...@gmail.com> |
| 抄送人 | user-zh<user-zh@flink.apache.org> |
| 主题 | Re: Re: 寻找pyflink技术专家,做有偿技术咨询 |
感谢回复!!!


架构:
    
主要使用DataStream,状态后端为fsStateBackend,没有使用原生的flink窗口,目前主要针对单台设备的状态计算,因此在keyby进行计算;


性能瓶颈:
    CPU消耗很高,内存占用还好,可以接受,单个TM节点消耗60%的内存,没有网络延迟;


内存泄漏:
    
主要是在python中大量使用了mapstate,在主动删除key后,有大量的已删除key仍然在内存中存在,但是,这些删除key对应的value已经删除,在实时计算场景中,经过几天的运行,内存增长最终会触发OOM,目前缓解方式,就是调低python.state.cache-size的默认值,由默认1000改为500,延缓触发OOM的时间,但是,CPU消耗随之增高,容易出现反压。


抱歉,因为公司电脑安全限制,我无法提供有效的日志文件,这封邮件是在个人电脑中编写的,


附件中是架构详细信息,如果需要的话,我再重建内存泄漏现场,然后向安全部门申请导出日志。


如果需要详聊可以加微信:132 6048 0916(手机同号)


如下是架构简图:




len...@126.com
 
发件人: Mack Liu
发送时间: 2024-12-02 21:23
收件人: user-zh
主题: Re: 寻找pyflink技术专家,做有偿技术咨询
你好,仿便给出以下详细的信息吗:
- 当前作业设计架构(如算子类型、状态后端使用、窗口设计、数据流设计等)。
- 性能瓶颈的表现(如 CPU 利用率、内存占用、网络延迟)。
- 内存泄漏的场景和日志信息。
 
len...@126.com <len...@126.com> 于2024年12月2日周一 20:10写道:
 
> Dear All:
>
> 我司最近在大规模使用pyflink
> 1.16.2(单个作业5000核,pyflink集群作业需要约70000核)时,遇见了一些性能问题,测试了很多文章提到的优化项,目前效果有待提高,
>
> 也遇见了pyflink的mapstate内存泄漏问题,但是尚未定位根因。
>
> 我们部门计划通过付费咨询,请教apache flink社区的技术专家来我们公司,指导我们解决架构设计,性能等问题。
>
> 技术专家所耗费的时间和咨询费用(预算超过20W),都可以商量,我们申请了足够的预算做这件事儿。
>
> 邮件列表中的任何人都可以向我推荐pyflink技术专家,非常感谢!!!
>
> 联系方式:
> len...@126.com
>
> 手机号:
> 132 6048 0916
>
>
>
> len...@126.com
>

回复