Re: flink1.11日志上报

2020-10-27 文章 zhisheng
弱弱的问一下,你们集群作业数量大概多少?因为用户可能打印原始数据在日志里面,这个数据量确实还是很大的,全部将日志打到 ES 每月需要多少成本啊? Storm☀️ 于2020年10月27日周二 下午8:37写道: > 我们也是用的kafkaappender进行日志上报,然后在ES中提供日志检索 > > > > -- > Sent from: http://apache-flink.147419.n8.nabble.com/ >

Re: flink1.11日志上报

2020-10-27 文章 Storm☀️
我们也是用的kafkaappender进行日志上报,然后在ES中提供日志检索 -- Sent from: http://apache-flink.147419.n8.nabble.com/

请问批处理有反压嘛?

2020-10-27 文章 请叫我雷锋
如题

LocalBufferPoo????

2020-10-27 文章 1548069580
??jstack??source?? "Legacy Source Thread - Source: Custom Source (1/2)" #95 prio=5 os_prio=0 tid=0x7fafa4018000 nid=0x57d waiting on condition

Re: sql-client 连接hive报错 TTransportException

2020-10-27 文章 Rui Li
你好,我看log里连接的是1端口,这个是HS2的端口吧?Flink的HiveCatalog需要连接的是HMS,可以启动一个HMS再试试哈。 On Tue, Oct 27, 2020 at 9:57 AM RS wrote: > Hi, 请教下 > 我尝试使用sql-client连接hive, hive正常, 使用beeline -u jdbc:hive2://x.x.x.x:1 > 可以正常连接 > > > sql-client-defaults.yaml配置内容: > tables: [] > functions: [] > catalogs: > - name:

??????LocalBufferPoo????

2020-10-27 文章 ??????
memory segment??channel?? 1. 2.keybykey??key??keybykeyby?? | | ?? | | ??xiongyun...@163.com | ??

Re: pyflink读取csv源表时,如何跳过标题行?如何选取特定的列?

2020-10-27 文章 Xingbo Huang
Hi, 1. CsvTableSource的构造方法里面有参数ignore_first_line帮你跳过首行的标题,你可以查看一下。 2. 只想读取那四列应该没办法,主要在于你那几个列不是头部的几个列,比如10列的数据,你要前四列,那是可以的,因为正常读一行数据进来,我解析完前四列就行了,剩下可以不解析,可是要是你的列是1,3,5,7,9这样的,你不指定2,4,6,8列的类型,根本没法帮你把一行的数据给解析出来。 Best, XIngbo 洗你的头 <1264386...@qq.com> 于2020年10月27日周二 下午2:36写道: > 尊敬的开发者您好, >

Re: Re: pyflink1.11.0 如果elasticsearch host有访问权限,connector如何写入用户名密码

2020-10-27 文章 Xingbo Huang
Hi, Pyflink 1.11还不支持datastream,1.12才有 Best, Xingbo whh_960101 于2020年10月27日周二 下午2:58写道: > 有没有其他方式可以写入username和password,我了解java > flink访问elasticsearch是有username和password入口的,pyflink是调用java来执行,应该是有这个入口的吧,有没有大佬可以指点一下,谢谢啦! > > > > > > > > 在 2020-10-22 16:34:56,"Yangze Guo" 写道: >

LocalBufferPoo????

2020-10-27 文章 1548069580
??jstack??source?? "Legacy Source Thread - Source: Custom Source (1/2)" #95 prio=5 os_prio=0 tid=0x7fafa4018000 nid=0x57d waiting on condition

Re: flink state.savepoints.dir 目录配置问题

2020-10-27 文章 Congxian Qiu
Hi 这个你可以尝试把这个信息记录到哪里,或者在启动的时候从这个 jobId 的目录下去查找所有的 chk-xxx 然后选择一个合适的 目录进行恢复 Best, Congxian marble.zh...@coinflex.com.INVALID 于2020年10月27日周二 下午4:54写道: > 刚钉钉群里建议我把路径指到jobId/chk-xx目录,这样就可以恢复了。 > > 但是如果这样,这个xx随着checkpoint的变化而变化,这样怎么做到自动提交job? > > > > -- > Sent from:

Re: Re:无法从checkpoint中恢复state

2020-10-27 文章 Congxian Qiu
Hi 从报错看,你知道的是一个目录,这个目录下面没有 _metadata 文件,这不是一个完整的 checkpoint/savepoint 因此不能用于恢复 Best, Congxian marble.zh...@coinflex.com.INVALID 于2020年10月27日周二 下午4:06写道: > /opt/flink/bin/flink run -d -s /opt/flink/savepoints -c > com.xxx.flink.ohlc.kafka.OrderTickCandleView >

Re: Heartbeat of TaskManager with id xxx timed out

2020-10-27 文章 Xintong Song
TM 心跳超时有以下几种常见的原因: 1. 网络抖动 2. TM 丢失,进程挂掉了、被杀了之类的 3. JM 或 TM 由于 GC 等原因,未能及时响应处理心跳 建议排查下对应 TM 的日志,以及 JM/TM 的 GC 日志。 Thank you~ Xintong Song On Tue, Oct 27, 2020 at 1:46 PM freeza1...@outlook.com < freeza1...@outlook.com> wrote: > Hi all: > flink standalone模式, 3节点,1master,3slave,

Re: 关于flink-sql 维表join问题

2020-10-27 文章 Jark Wu
我觉得这个更像是一个周期性调度的批处理需求。因为你流处理,只能一直读取员工表的增量,没法每天读个全量。 是不是用 flink batch + 调度更好一点呢? Best, Jark On Tue, 27 Oct 2020 at 16:08, 夜思流年梦 wrote: > 目前在准备搞实时数仓:碰到一个问题: > 比如统计一个所有员工所有的业绩的报表,这个报表需要关联1个员工维表,4个业绩相关流表; > 如果是正常SQL的话是这样join : > > > 维表 left join 流表 1 > left join 流表 2 > left join 流表 3 > left join

Re: flink state.savepoints.dir 目录配置问题

2020-10-27 文章 marble.zh...@coinflex.com.INVALID
刚钉钉群里建议我把路径指到jobId/chk-xx目录,这样就可以恢复了。 但是如果这样,这个xx随着checkpoint的变化而变化,这样怎么做到自动提交job? -- Sent from: http://apache-flink.147419.n8.nabble.com/

关于flink-sql 维表join问题

2020-10-27 文章 夜思流年梦
目前在准备搞实时数仓:碰到一个问题: 比如统计一个所有员工所有的业绩的报表,这个报表需要关联1个员工维表,4个业绩相关流表; 如果是正常SQL的话是这样join : 维表 left join 流表 1 left join 流表 2 left join 流表 3 left join 流表 4 因为flink-sql 的temporal join 不支持 维表在左边 left join 流表, 故只能 流表在左,维表在右来join 即:select * from table a left join dim_XXX FOR SYSTEM_TIME AS OF

Re: Re:无法从checkpoint中恢复state

2020-10-27 文章 marble.zh...@coinflex.com.INVALID
/opt/flink/bin/flink run -d -s /opt/flink/savepoints -c com.xxx.flink.ohlc.kafka.OrderTickCandleView /home/service-ohlc-*-SNAPSHOT.jar 在启动job时,已经指定这个目录,但会报以下错, Caused by: org.apache.flink.runtime.client.JobExecutionException: Could not instantiate JobManager. at

Re: flink state.savepoints.dir 目录配置问题

2020-10-27 文章 marble.zh...@coinflex.com.INVALID
谢谢, 我把这个folder 设置为一个755就可以了。 但现在我遇到一个问题,我目前的环境是用docker 创建了一个jobmanager, 二个taskmanager, 这三个container都map到了主机上的一个地址, 用于放checkpoints/savepoints,理论上这三个container都可以访问得到。 但尝试用这个命令恢复state启动job时报以下错误, /opt/flink/bin/flink run -d -s /opt/flink/savepoints -c

Re:Re: pyflink1.11.0 如果elasticsearch host有访问权限,connector如何写入用户名密码

2020-10-27 文章 whh_960101
有没有其他方式可以写入username和password,我了解java flink访问elasticsearch是有username和password入口的,pyflink是调用java来执行,应该是有这个入口的吧,有没有大佬可以指点一下,谢谢啦! 在 2020-10-22 16:34:56,"Yangze Guo" 写道: >1.11版本中尚不支持username和password的设置,这两个配置在1.12中加入了新的es connector[1] > >[1] https://issues.apache.org/jira/browse/FLINK-18361 >

pyflink????csv??????????????????????????????????????????

2020-10-27 文章 ????????
, ??csv?? t_env.register_table_source("mySource", CsvTableSource(r'data\trip\yellow_tripdata_2014-01.csv', ['vendor_id','pickup_datetime','dropoff_datetime','passenger_count', 'trip_distance','pickup_longitude','pickup_latitude','rate_code',

????????checkpoint????????23????????????????????????????kafka?????????????????????????? ??????????23??????????????

2020-10-27 文章 sun
checkpoint23kafka?? ??23?? nohup /opt/flink-1.10.2/bin/flink run -c com.toonyoo.app.data.realcomputation.Application /home/test/ty-app-data-real-computation-1.0.jar -s