date:20201223

Re: Flink catalog+hive问题

2020-12-23 Thread 19916726683

spark是可以通过配置来确定是用hive的acl还是用自己的acl，不清楚flink是不是也是这种模式 Original Message Sender:guaishushu1103@163.comguaishushu1...@163.com Recipient:user-zhuser...@flink.apache.org Date:Wednesday, Dec 23, 2020 15:53 Subject:Flink catalog+hive问题在用flink catalog+hive做元数据持久化的时候，发现hive的ACL权限没有起作用，麻烦问下知道的大佬，flink是会

flink sql cdc流（1.11.2），双流join长时间运行后，试着取消job后，再从从checkpoint处恢复运行，报outofmemorry, tm的参数配置也没有变过，rocksdb后端。这个可能原因是啥？运行的时候没报，为啥恢复的时间报了？

2020-12-23 Thread jindy_liu

java.lang.OutOfMemoryError: Java heap space at java.util.Arrays.copyOf(Arrays.java:3181) at java.util.ArrayList.grow(ArrayList.java:261) at java.util.ArrayList.ensureExplicitCapacity(ArrayList.java:235) at java.util.ArrayList.ensureCapacityInternal(ArrayList.java:2

dml????????Error during disposal of stream operator. java.lang.NullPointerException

2020-12-23 Thread bigdata

??ddl??dml??

pyflink query 语句执行获取数据速度很慢，where子句不过滤数据么？

2020-12-23 Thread 肖越

connector 从数据库读取整张表格，执行： env.sql_query("select a , b, c from table1 left join table2 on a = d where b = '103' and c = '203' and e = 'AC' and a between 20160701 and 20170307 order by biz_date") 其中表 a 的数据量很大，能有1千万条，但匹配出来的数据只有250条，本机执行要10分钟！了解到 flink 1.11存在where子句不会先过滤数据，请问flink1.12 仍存在这个问题么？怎么优化呢？

dml????????Error during disposal of stream operator. java.lang.NullPointerException

2020-12-23 Thread bigdata

??ddl??dml??

Re: Flink catalog+hive问题

2020-12-23 Thread Rui Li

hive的ACL用的是哪种呢？目前flink没有专门做ACL的对接，只有HMS端storage based authorization [1] 会生效 [1] https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Authorization#LanguageManualAuthorization-1StorageBasedAuthorizationintheMetastoreServer On Wed, Dec 23, 2020 at 4:34 PM 19916726683 <19916726...@163.com

Re: flink 1.11.2 创建hive表的问题

2020-12-23 Thread Rui Li

只是日志里有异常信息还是说DDL会执行失败呢？另外可以贴一下日志里的异常堆栈，看看是哪里打出来的。 On Tue, Dec 22, 2020 at 2:41 PM 曹武 <14701319...@163.com> wrote: > 大佬好,我在使用create table if not > exists创建hive表时,对于已存在的hive表,在hive的日志中会抛出AlreadyExistsException(message:Table > bm_tsk_001 already exists异常,查看源码发现if not > exists貌似只是用于判断捕获异常后是否抛出,对于这个问题

flink1.10.1??idea????dml????????Error during disposal of stream operator. java.lang.NullPointerException

2020-12-23 Thread bigdata

2020-12-23 19:43:01,588 ERROR org.apache.flink.streaming.runtime.tasks.StreamTask - Error during disposal of stream operator. java.lang.NullPointerException at org.apache.flink.api.java.io.jdbc.JDBCUpsertOutputFormat.close(JDBCUpsertOutputFo

Re: Re: flink1.11.2写hive分区表，hive识别不到分区

2020-12-23 Thread Rui Li

流数据写hive分区表是需要额外的参数配置的。Flink 1.11里具体的参数可以参考这两个文档： https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/hive/hive_streaming.html#streaming-writing https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/connectors/filesystem.html#streaming-sink On Wed, Dec 23, 2020

Re: Flink 操作hive 一些疑问

2020-12-23 Thread Rui Li

Hi，是说写数据的是一个流作业，读数据的是一个批作业么？ On Tue, Dec 22, 2020 at 5:51 PM Jacob <17691150...@163.com> wrote: > Dear all, > > 我目前有个Flink job，执行完所以业务逻辑后生成了一些业务数据，然后将这些数据以ORC格式写到hdfs上，并调用hive api > 将orc文件load到Hive表，至此flink job的工作结束。 > > 后面，其他Java定时程序做Mapreduce，对上一步写进hive的数据进行后续操作。 > > 现在升级了Flink版本，Flink可以直接操作h

flink on yarn启动失败

2020-12-23 Thread magichuang

机器参数：三台 32C64G centos 7.8，cdh集群在这上面先部署 flink版本：1.11.2，在三台集群上搭建的集群 hadoop集群是用cdh搭建的启动命令：flink run -m yarn-cluster -ynm traffic -s 2 -p 2 -ytm 1024 -py traffic.py 程序使用pyflink开发的，从kafka读取数据，然后用滚动窗口聚合每分钟的数据在写入kafka 这个程序在local模式下是正常运行的，但是用per-job模式提交总是失败测试官方例子 flink run -m yarn-cluster ex

Re: flink1.11.2写hive分区表，hive识别不到分区

2020-12-23 Thread admin

Hi, Hive 自动添加分区依赖于分区提交策略 metastore，所以得添加policy配置才能生效 > 2020年12月23日上午9:27，kingdomad 写道： > > 是的。开启了checkpoint。 > 消费kafka，用tableEnv把stream注册成TemporaryView。 > 然后执行sql写入到hive的表中。 > > > > > > > > > > > > > > -- > > kingdomad > > > > > > > > 在 2020-12-23 09:22:48，"范瑞" <836961...@q

Re: flink1.10.1/1.11.1 使用sql 进行group 和时间窗口操作后状态越来越大

2020-12-23 Thread Yun Tang

Hi @Storm checkpoint的增量模式目前仅对RocksDB生效，这里的增量是指上传新产生的DB sst文件。而RocksDB的全量模式是将DB的有效kv进行序列化写出，除非有大量的数据没有compaction清理掉，否则不可能出现增量checkpoint size无限膨胀，而全量checkpoint正常的问题，你这里的无限膨胀的size范围是多大呢？祝好唐云 From: Storm☀️ Sent: Tuesday, December 22, 2020 19:52 To: user-zh@flink.

Re: Flink catalog+hive问题

2020-12-23 Thread 19916726683

hive的官网有介绍ACL，如何继承权限关系。源码在Hive-> HDFSUtils类中核心代码应该是上面的这点。 Original Message Sender: Rui Li Recipient: user-zh Date: Wednesday, Dec 23, 2020 19:41 Subject: Re: Flink catalog+hive问题 hive的ACL用的是哪种呢？目前flink没有专门做ACL的对接，只有HMS端storage based authorization [1] 会生效 [1] https://cwiki.apache.org/conflue

Re: flink on yarn启动失败

2020-12-23 Thread Yang Wang

你这个命令写的有点问题，flink run -m yarn-cluster -ynm traffic -s 2 -p 2 -ytm 1024 -py traffic.py 应该是-ys，而不是-s -s是从savepoints恢复，所以报错里面会有找不到savepoints目录 Best, Yang magichuang 于2020年12月23日周三下午8:29写道： > 机器参数：三台 32C64G centos 7.8，cdh集群在这上面先部署 > flink版本：1.11.2，在三台集群上搭建的集群 > > hadoop集群是用cdh搭建的 > > > 启动命令：f

pyflink query 语句执行获取数据速度很慢，where子句不过滤数据么？

2020-12-23 Thread 肖越

connector 从数据库读取整张表格，执行： env.sql_query("select a , b, c from table1 left join table2 on a = d where b = '103' and c = '203' and e = 'AC' and a between 20160701 and 20170307 order a") 其中表 a 的数据量很大，能有1千万条，但匹配出来的数据只有250条，本机执行要10分钟~ 了解到 flink 1.11存在where子句不会先过滤数据，请问flink1.12 仍存在这个问题么？怎么优化呢？

Re: pyflink query 语句执行获取数据速度很慢，where子句不过滤数据么？

2020-12-23 Thread r pp

表a 在 sql 语句的哪里呢？关心的真的是过滤问题么？如果你对你的业务十分熟悉，且了解到 flink1.11 不过过滤，那为什么不自行过滤优化下呢？如果，不是过滤问题，是大数 join 小数问题，或者大数 join 大数问题，是不是可以考虑广播传播或者并行度的优化方向？是不是应该先分析好业务问题，在去看 flink1.12 能否解决问题。肖越 <18242988...@163.com> 于2020年12月24日周四上午11:16写道： > connector 从数据库读取整张表格，执行： > env.sql_query("select a , b, c

Re: Flink catalog+hive问题

2020-12-23 Thread r pp

gmail 可能有些不兼容，看不到截图 19916726683 <19916726...@163.com> 于2020年12月24日周四上午10:51写道： > hive的官网有介绍ACL，如何继承权限关系。源码在Hive-> HDFSUtils类中核心代码应该是上面的这点。 > > Original Message > *Sender:* Rui Li > *Recipient:* user-zh > *Date:* Wednesday, Dec 23, 2020 19:41 > *Subject:* Re: Flink catalog+hive问题 > > hive的ACL用

Re: Flink catalog+hive问题

2020-12-23 Thread Rui Li

Hello，你贴的图看不到了。可以贴一下参考的官网链接。hive至少支持三种不同的authorization模式，flink目前对接hive时只有用storage based authorization会生效。 On Thu, Dec 24, 2020 at 10:51 AM 19916726683 <19916726...@163.com> wrote: > hive的官网有介绍ACL，如何继承权限关系。源码在Hive-> HDFSUtils类中核心代码应该是上面的这点。 > > Original Message > *Sender:* Rui Li > *Recipient:

proctime in yaml ,sql-cli start throws exception

2020-12-23 Thread su_...@cjspd.com

Exception in thread "main" org.apache.flink.table.client.SqlClientException: Unexpected exception. This is a bug. Please consider filing an issue.Exception in thread "main" org.apache.flink.table.client.SqlClientException: Unexpected exception. This is a bug. Please consider filing an issue. at

flink.client.program.ProgramInvocationException: The main method caused an error: Unable to instantiate java compiler

2020-12-23 Thread bigdata

flink1.10.1?? org.apache.flink.client.program.ProgramInvocationException: The main method caused an error: Unable to instantiate java compiler at org.apache.flink.client.program.PackagedProgram.callMainMethod(PackagedProgram.java:335) at org.apache.flink.

pyflink1.12 使用connector read.query参数报错

2020-12-23 Thread 肖越

使用DDL 定义connector连接Mysql数据库，想通过发送sql的方式直接获取数据: source_ddl = """ CREATE TABLE source_table( yldrate DECIMAL, pf_id VARCHAR, symbol_id VARCHAR) WITH( 'connector' = 'jdbc', 'url' = 'jdbc:mysql://ip/db', 'dr

Re: Flink catalog+hive问题

2020-12-23 Thread 19916726683

可以参考下这个 https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsPermissionsGuide.html 贴的代码是org.apache.hadoop.hive.io.HdfsUtils 的setFullFileStatus 方法 Original Message Sender:Rui lilirui.fu...@gmail.com Recipient:user-zhuser...@flink.apache.org Date:Thursday, Dec 24, 2020 11:33 Sub

Re: Re: flink on yarn启动失败

2020-12-23 Thread magichuang

感谢感谢感谢！！！原来是这样，以为solt 缩写就是-s了，，，感谢这位朋友的解答，已经可以提交了~ > -- 原始邮件 -- > 发件人："Yang Wang" > 发送时间：2020-12-24 11:01:46 > 收件人：user-zh > 抄送： > 主题：Re: flink on yarn启动失败 > > 你这个命令写的有点问题，flink run -m yarn-cluster -ynm traffic -s 2 -p 2 -ytm 1024 -py > traffic.py > > 应该是

Re: Flink catalog+hive问题

flink sql cdc流（1.11.2），双流join长时间运行后，试着取消job后，再从从checkpoint处恢复运行，报outofmemorry, tm的参数配置也没有变过，rocksdb后端。这个可能原因是啥？运行的时候没报，为啥恢复的时间报了？

dml????????Error during disposal of stream operator. java.lang.NullPointerException

pyflink query 语句执行获取数据速度很慢，where子句不过滤数据么？

dml????????Error during disposal of stream operator. java.lang.NullPointerException

Re: Flink catalog+hive问题

Re: flink 1.11.2 创建hive表的问题

flink1.10.1??idea????dml????????Error during disposal of stream operator. java.lang.NullPointerException

Re: Re: flink1.11.2写hive分区表，hive识别不到分区

Re: Flink 操作hive 一些疑问

flink on yarn启动失败

Re: flink1.11.2写hive分区表，hive识别不到分区

Re: flink1.10.1/1.11.1 使用sql 进行group 和时间窗口操作后状态越来越大

Re: Flink catalog+hive问题

Re: flink on yarn启动失败

pyflink query 语句执行获取数据速度很慢，where子句不过滤数据么？

Re: pyflink query 语句执行获取数据速度很慢，where子句不过滤数据么？

Re: Flink catalog+hive问题

Re: Flink catalog+hive问题

proctime in yaml ,sql-cli start throws exception

flink.client.program.ProgramInvocationException: The main method caused an error: Unable to instantiate java compiler

pyflink1.12 使用connector read.query参数报错

Re: Flink catalog+hive问题

Re: Re: flink on yarn启动失败

24 matches

Site Navigation

Mail list logo

Footer information