Re: Re:[进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs
感谢 博闻的回复,由于邮件中不能添加图片。这个钉钉图片显示出来是broken的。我将钉钉二维码图片转换成百度图库的链接地址了,链接如下: https://graph.baidu.com/resource/1021841c75097798b444301553925752.jpg 欢迎各位加入 Flink-Hive 官方用户钉钉群讨论和反馈问题 前进 Bowen Li 于2019年3月30日周六 下午1:14写道: > 感谢大家的回复!下一步我会整理好各位的反馈并转达给我们的团队。 > > 同时欢迎加入 Flink-Hive 官方用户钉钉群讨论和反馈问题 > [image: image.png] > > On Wed, Mar 20, 2019 at 8:39 AM ChangTong He wrote: > >> >- *各位在使用哪个版本的Hive?有计划升级Hive吗?* >> >> 目前我维护的两套批处理系统分别是CDH5.10.0 >> >> 和CDH5.13.1,均是hive-1.1.0;去年底搭了一套CDH6给开发做测试,但是目前我们调度大概有5000多个,有可能今年我们做IDC迁移的时候,顺便把集群都升到6的话,应该会升到对应的hive-2.1.1; >> >> >- *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?* >> >> >> 没有计划,由于我们平台是启用了sentry,所以不知道Flink和sentry的契合度怎么样,批处理的话大部分任务都集中在夜间3-5点,也是最容易出问题的时段,如果Flink能够提供更好的failover能力以及对资源的把控性能更好,应该会考虑 >> >> >- *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?* >> >> >> 当初我了解Flink-Hive的动机,确实是希望只维护一套数据处理系统,目前我维护公司两个部门的大数据平台,他们批处理各一套,实时又各一套,hive还会通过phoenix写到另外一套hbase集群,脑壳疼 >> >> >- *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?* >> >> 大部分都MR2,hive on spark的任务较少但是不稳定,数据量TB级,读写都有 >> >> >- *有多少Hive UDF?都是什么类型?* >> >> 有80多个UDF,看了一下他们的命名感觉大部分都是一些业务逻辑的判断 >> >> >- *对项目有什么问题或者建议?* >> >> 主要还是追求稳定,以及对hive低版本的兼容吧(之前在给公司做spark-sql >> cli测试的时候,可以很明显的感觉到,开发其实是不愿意去改之前的代码的,他们希望的是能不动现有代码的情况下就能平滑的切换到新引擎) >> > >> >> 王志明 于2019年3月20日周三 下午8:47写道: >> >> > Hi, >> > “Integrating Flink with Hive”确实是一个很大、很好的话题。针对以下几点,我结合自己的工作,pao'zhua >> > - *各位在使用哪个版本的Hive?有计划升级Hive吗?* >> > 目前用的是Apache Hive1.2,暂无升级Hive的计划 >> > >> > - *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?* >> > 一个是夜间会大批量跑任务,如果Flink读写Hive速度快,可处理数据量大,就会考虑用。 >> > >> > - *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?* >> > 希望流处理和批处理的核心代码是一套,方便开发,维护、以及数据准确性。 >> > >> > - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?* >> > 希望是用 Flink on Hive 的方式,数据量有TB级,读写都有 >> > >> > >> > >> > >> > >> > >> > >> > >> > 在 2019-03-20 09:28:55,"董鹏" 写道: >> > >1、首先对flink纳入阿里麾下表示很兴奋,针对以下问题,根据我的一些经验,抛砖引玉: >> > >hive太重要了,稳定,夜间跑任务,可以满足。 >> > > - *各位在使用哪个版本的Hive?有计划升级Hive吗?*// cdh5版本 无计划升级 >> > > - >> > >> *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*//尝试spark引擎跑夜间任务,不稳定。对于性能,不是特别追求,稳定了,就会尝试flink >> > on hive >> > > - >> > >> *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*//技术迭代,当然理想的状况是批流统一,只维护一套数据处理系统。spark的性能已经很棒了,所以追求更好的性能这个对我们不需要。 >> > > - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*//大的表 数据量不小,主要是读 >> > > - *有多少Hive UDF?都是什么类型?*//挺多 >> > > - *对项目有什么问题或者建议?*//1)flink on hive >> > 准实时场景下,对性能要求越高越好,相对的数据量不大。2)离线场景下,稳定,而后是性能。3)社区的活跃,排查问题的手段 >> > > >> > > >> > >-- Original -- >> > >From: "Bowen Li"; >> > >Date: Wed, Mar 20, 2019 08:09 AM >> > >To: "user-zh"; >> > > >> > >Subject: [进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs >> > > >> > > >> > >Flink中文频道的童鞋们,大家好, >> > > >> > >*我们想收集下大家对Flink兼容Hive方面的需求和意见*。 >> > > >> > >背景:去年12月的Flink Forward 中国站上,社区宣布了将推动Flink兼容Hive。今年2.21,在西雅图 Flink >> Meetup >> > >上我们做了 “Integrating Flink with Hive” >> > >的演讲,并进行了现场演示,收到很好的反响。现在已到三月中,我们已经在内部完成了构建Flink崭新的catalog架构,对Hive >> > >元数据的兼容,和常见的通过Flink 读写 >> > >> > >> >Hive数据的工作。我们已开始提交相关的PR和设计文档,将已开发的功能输送回社区。欢迎大家参与到项目的各项工作中,如评审设计文档和PR,参与开发和测试。 >> > > >> > >*当前最重要的事,是我们希望社区的同学们能分享各自对Hive的用法,并给我们的项目提供反馈和建议。* >> > >> > >> >我们已开始深入的在某些领域使Flink兼容Hive,各位的反馈和建议可以帮助我们更好地评估各个工作的优先度,从而使我们的用户能更快地得到各位需要的功能。比如,如果绝大多数用户都是以读Hive数据为主,我们就会高优优化读功能。 >> > > >> > >快速回顾下我们内部已经完成的工作: >> > > >> > > - Flink/Hive 元数据兼容 >> > > - 统一的、可查简化的catalog架构,用以管理catalog,database,tables, views, >> functions, >> > > partitions, table/partition stats 等元数据 >> > > - 三种catalog实现:一种默认的内存catalog;HiveCatalog >> > > 用以兼容Hive生态的元数据;GenericHiveMetastoreCatalog 用以在Hive metastore中持久化 >> > Flink >> > > 流和批的元数据 >> > > - 在SQL和table api中支持基于 ..<元数据名称> 的引用方式 >> > > - 统一的function catalog,并支持Hive 简单的 UDF >> > > - Flink/Hive 数据兼容 >> > > - Hive connector 支持:读取分区和非分去表,partition >> pruning,Hive简单和复杂数据类型,简单的写 >> > > - 集成了了上述功能的SQL 客户端 >> > > >> > >*我们想要了解的是:各位现在如何使用Hive?我们怎么能帮助各位解决问题?各位期待 Flink在兼容Hive中提供哪些功能?比如,* >> > > >> > > - *各位在使用哪个版本的Hive?有计划升级Hive吗?* >> > > - *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?* >> > > - *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?* >> > > - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?* >> > > - *有多少Hive UDF?都是什么类型?* >> > > - *对项目有什么问题或者建议?* >> > > >> > >大家的建议对我们很重要。我们希望这些工作能真正的尽快惠及社区用户。我们争取这周做个调查问卷,更全面的收集各位的反馈和建议。 >> > > >> > >Bowen >> > >> >
Re: Re:[进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs
感谢大家的回复!下一步我会整理好各位的反馈并转达给我们的团队。 同时欢迎加入 Flink-Hive 官方用户钉钉群讨论和反馈问题 [image: image.png] On Wed, Mar 20, 2019 at 8:39 AM ChangTong He wrote: > >- *各位在使用哪个版本的Hive?有计划升级Hive吗?* > > 目前我维护的两套批处理系统分别是CDH5.10.0 > > 和CDH5.13.1,均是hive-1.1.0;去年底搭了一套CDH6给开发做测试,但是目前我们调度大概有5000多个,有可能今年我们做IDC迁移的时候,顺便把集群都升到6的话,应该会升到对应的hive-2.1.1; > > >- *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?* > > > 没有计划,由于我们平台是启用了sentry,所以不知道Flink和sentry的契合度怎么样,批处理的话大部分任务都集中在夜间3-5点,也是最容易出问题的时段,如果Flink能够提供更好的failover能力以及对资源的把控性能更好,应该会考虑 > > >- *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?* > > > 当初我了解Flink-Hive的动机,确实是希望只维护一套数据处理系统,目前我维护公司两个部门的大数据平台,他们批处理各一套,实时又各一套,hive还会通过phoenix写到另外一套hbase集群,脑壳疼 > > >- *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?* > > 大部分都MR2,hive on spark的任务较少但是不稳定,数据量TB级,读写都有 > > >- *有多少Hive UDF?都是什么类型?* > > 有80多个UDF,看了一下他们的命名感觉大部分都是一些业务逻辑的判断 > > >- *对项目有什么问题或者建议?* > > 主要还是追求稳定,以及对hive低版本的兼容吧(之前在给公司做spark-sql > cli测试的时候,可以很明显的感觉到,开发其实是不愿意去改之前的代码的,他们希望的是能不动现有代码的情况下就能平滑的切换到新引擎) > > > > 王志明 于2019年3月20日周三 下午8:47写道: > > > Hi, > > “Integrating Flink with Hive”确实是一个很大、很好的话题。针对以下几点,我结合自己的工作,pao'zhua > > - *各位在使用哪个版本的Hive?有计划升级Hive吗?* > > 目前用的是Apache Hive1.2,暂无升级Hive的计划 > > > > - *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?* > > 一个是夜间会大批量跑任务,如果Flink读写Hive速度快,可处理数据量大,就会考虑用。 > > > > - *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?* > > 希望流处理和批处理的核心代码是一套,方便开发,维护、以及数据准确性。 > > > > - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?* > > 希望是用 Flink on Hive 的方式,数据量有TB级,读写都有 > > > > > > > > > > > > > > > > > > 在 2019-03-20 09:28:55,"董鹏" 写道: > > >1、首先对flink纳入阿里麾下表示很兴奋,针对以下问题,根据我的一些经验,抛砖引玉: > > >hive太重要了,稳定,夜间跑任务,可以满足。 > > > - *各位在使用哪个版本的Hive?有计划升级Hive吗?*// cdh5版本 无计划升级 > > > - > > > *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*//尝试spark引擎跑夜间任务,不稳定。对于性能,不是特别追求,稳定了,就会尝试flink > > on hive > > > - > > > *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*//技术迭代,当然理想的状况是批流统一,只维护一套数据处理系统。spark的性能已经很棒了,所以追求更好的性能这个对我们不需要。 > > > - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*//大的表 数据量不小,主要是读 > > > - *有多少Hive UDF?都是什么类型?*//挺多 > > > - *对项目有什么问题或者建议?*//1)flink on hive > > 准实时场景下,对性能要求越高越好,相对的数据量不大。2)离线场景下,稳定,而后是性能。3)社区的活跃,排查问题的手段 > > > > > > > > >-- Original -- > > >From: "Bowen Li"; > > >Date: Wed, Mar 20, 2019 08:09 AM > > >To: "user-zh"; > > > > > >Subject: [进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs > > > > > > > > >Flink中文频道的童鞋们,大家好, > > > > > >*我们想收集下大家对Flink兼容Hive方面的需求和意见*。 > > > > > >背景:去年12月的Flink Forward 中国站上,社区宣布了将推动Flink兼容Hive。今年2.21,在西雅图 Flink Meetup > > >上我们做了 “Integrating Flink with Hive” > > >的演讲,并进行了现场演示,收到很好的反响。现在已到三月中,我们已经在内部完成了构建Flink崭新的catalog架构,对Hive > > >元数据的兼容,和常见的通过Flink 读写 > > > > > >Hive数据的工作。我们已开始提交相关的PR和设计文档,将已开发的功能输送回社区。欢迎大家参与到项目的各项工作中,如评审设计文档和PR,参与开发和测试。 > > > > > >*当前最重要的事,是我们希望社区的同学们能分享各自对Hive的用法,并给我们的项目提供反馈和建议。* > > > > > >我们已开始深入的在某些领域使Flink兼容Hive,各位的反馈和建议可以帮助我们更好地评估各个工作的优先度,从而使我们的用户能更快地得到各位需要的功能。比如,如果绝大多数用户都是以读Hive数据为主,我们就会高优优化读功能。 > > > > > >快速回顾下我们内部已经完成的工作: > > > > > > - Flink/Hive 元数据兼容 > > > - 统一的、可查简化的catalog架构,用以管理catalog,database,tables, views, > functions, > > > partitions, table/partition stats 等元数据 > > > - 三种catalog实现:一种默认的内存catalog;HiveCatalog > > > 用以兼容Hive生态的元数据;GenericHiveMetastoreCatalog 用以在Hive metastore中持久化 > > Flink > > > 流和批的元数据 > > > - 在SQL和table api中支持基于 ..<元数据名称> 的引用方式 > > > - 统一的function catalog,并支持Hive 简单的 UDF > > > - Flink/Hive 数据兼容 > > > - Hive connector 支持:读取分区和非分去表,partition pruning,Hive简单和复杂数据类型,简单的写 > > > - 集成了了上述功能的SQL 客户端 > > > > > >*我们想要了解的是:各位现在如何使用Hive?我们怎么能帮助各位解决问题?各位期待 Flink在兼容Hive中提供哪些功能?比如,* > > > > > > - *各位在使用哪个版本的Hive?有计划升级Hive吗?* > > > - *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?* > > > - *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?* > > > - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?* > > > - *有多少Hive UDF?都是什么类型?* > > > - *对项目有什么问题或者建议?* > > > > > >大家的建议对我们很重要。我们希望这些工作能真正的尽快惠及社区用户。我们争取这周做个调查问卷,更全面的收集各位的反馈和建议。 > > > > > >Bowen > > >
Re: Re:[进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs
>- *各位在使用哪个版本的Hive?有计划升级Hive吗?* 目前我维护的两套批处理系统分别是CDH5.10.0 和CDH5.13.1,均是hive-1.1.0;去年底搭了一套CDH6给开发做测试,但是目前我们调度大概有5000多个,有可能今年我们做IDC迁移的时候,顺便把集群都升到6的话,应该会升到对应的hive-2.1.1; >- *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?* 没有计划,由于我们平台是启用了sentry,所以不知道Flink和sentry的契合度怎么样,批处理的话大部分任务都集中在夜间3-5点,也是最容易出问题的时段,如果Flink能够提供更好的failover能力以及对资源的把控性能更好,应该会考虑 >- *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?* 当初我了解Flink-Hive的动机,确实是希望只维护一套数据处理系统,目前我维护公司两个部门的大数据平台,他们批处理各一套,实时又各一套,hive还会通过phoenix写到另外一套hbase集群,脑壳疼 >- *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?* 大部分都MR2,hive on spark的任务较少但是不稳定,数据量TB级,读写都有 >- *有多少Hive UDF?都是什么类型?* 有80多个UDF,看了一下他们的命名感觉大部分都是一些业务逻辑的判断 >- *对项目有什么问题或者建议?* 主要还是追求稳定,以及对hive低版本的兼容吧(之前在给公司做spark-sql cli测试的时候,可以很明显的感觉到,开发其实是不愿意去改之前的代码的,他们希望的是能不动现有代码的情况下就能平滑的切换到新引擎) > 王志明 于2019年3月20日周三 下午8:47写道: > Hi, > “Integrating Flink with Hive”确实是一个很大、很好的话题。针对以下几点,我结合自己的工作,pao'zhua > - *各位在使用哪个版本的Hive?有计划升级Hive吗?* > 目前用的是Apache Hive1.2,暂无升级Hive的计划 > > - *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?* > 一个是夜间会大批量跑任务,如果Flink读写Hive速度快,可处理数据量大,就会考虑用。 > > - *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?* > 希望流处理和批处理的核心代码是一套,方便开发,维护、以及数据准确性。 > > - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?* > 希望是用 Flink on Hive 的方式,数据量有TB级,读写都有 > > > > > > > > > 在 2019-03-20 09:28:55,"董鹏" 写道: > >1、首先对flink纳入阿里麾下表示很兴奋,针对以下问题,根据我的一些经验,抛砖引玉: > >hive太重要了,稳定,夜间跑任务,可以满足。 > > - *各位在使用哪个版本的Hive?有计划升级Hive吗?*// cdh5版本 无计划升级 > > - > *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*//尝试spark引擎跑夜间任务,不稳定。对于性能,不是特别追求,稳定了,就会尝试flink > on hive > > - > *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*//技术迭代,当然理想的状况是批流统一,只维护一套数据处理系统。spark的性能已经很棒了,所以追求更好的性能这个对我们不需要。 > > - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*//大的表 数据量不小,主要是读 > > - *有多少Hive UDF?都是什么类型?*//挺多 > > - *对项目有什么问题或者建议?*//1)flink on hive > 准实时场景下,对性能要求越高越好,相对的数据量不大。2)离线场景下,稳定,而后是性能。3)社区的活跃,排查问题的手段 > > > > > >-- Original -- > >From: "Bowen Li"; > >Date: Wed, Mar 20, 2019 08:09 AM > >To: "user-zh"; > > > >Subject: [进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs > > > > > >Flink中文频道的童鞋们,大家好, > > > >*我们想收集下大家对Flink兼容Hive方面的需求和意见*。 > > > >背景:去年12月的Flink Forward 中国站上,社区宣布了将推动Flink兼容Hive。今年2.21,在西雅图 Flink Meetup > >上我们做了 “Integrating Flink with Hive” > >的演讲,并进行了现场演示,收到很好的反响。现在已到三月中,我们已经在内部完成了构建Flink崭新的catalog架构,对Hive > >元数据的兼容,和常见的通过Flink 读写 > > >Hive数据的工作。我们已开始提交相关的PR和设计文档,将已开发的功能输送回社区。欢迎大家参与到项目的各项工作中,如评审设计文档和PR,参与开发和测试。 > > > >*当前最重要的事,是我们希望社区的同学们能分享各自对Hive的用法,并给我们的项目提供反馈和建议。* > > >我们已开始深入的在某些领域使Flink兼容Hive,各位的反馈和建议可以帮助我们更好地评估各个工作的优先度,从而使我们的用户能更快地得到各位需要的功能。比如,如果绝大多数用户都是以读Hive数据为主,我们就会高优优化读功能。 > > > >快速回顾下我们内部已经完成的工作: > > > > - Flink/Hive 元数据兼容 > > - 统一的、可查简化的catalog架构,用以管理catalog,database,tables, views, functions, > > partitions, table/partition stats 等元数据 > > - 三种catalog实现:一种默认的内存catalog;HiveCatalog > > 用以兼容Hive生态的元数据;GenericHiveMetastoreCatalog 用以在Hive metastore中持久化 > Flink > > 流和批的元数据 > > - 在SQL和table api中支持基于 ..<元数据名称> 的引用方式 > > - 统一的function catalog,并支持Hive 简单的 UDF > > - Flink/Hive 数据兼容 > > - Hive connector 支持:读取分区和非分去表,partition pruning,Hive简单和复杂数据类型,简单的写 > > - 集成了了上述功能的SQL 客户端 > > > >*我们想要了解的是:各位现在如何使用Hive?我们怎么能帮助各位解决问题?各位期待 Flink在兼容Hive中提供哪些功能?比如,* > > > > - *各位在使用哪个版本的Hive?有计划升级Hive吗?* > > - *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?* > > - *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?* > > - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?* > > - *有多少Hive UDF?都是什么类型?* > > - *对项目有什么问题或者建议?* > > > >大家的建议对我们很重要。我们希望这些工作能真正的尽快惠及社区用户。我们争取这周做个调查问卷,更全面的收集各位的反馈和建议。 > > > >Bowen >
Re: [进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs
非常感谢博闻发起的关于hive的讨论,hive在离线数据仓库处理这块占了我们80%的离线处理使用。 *各位在使用哪个版本的Hive?有计划升级Hive吗?我们目前生产使用的是cdh5.12.1集成的hive1.1.0的版本。 *各位计划切换Hive引擎吗?有时间点吗?主要是追求稳定输出,版本升级需要对应一系列测试,我们暂时还不打算升级。 *各位使用Flink-Hive的动机是什么?想只是用一套Flink技术栈,批流合一,方便维护和学习。 *各位如何使用Hive?数据量有多大?读写都有,一天2T左右。 *有多少Hive UDF?都是什么类型? 主要GPS行程数据相关的与geo相关的比较多。 *对项目有什么问题或者建议?flink on hive优先稳定和兼容性。 前进 董鹏 于2019年3月20日周三 上午9:29写道: > 1、首先对flink纳入阿里麾下表示很兴奋,针对以下问题,根据我的一些经验,抛砖引玉: > hive太重要了,稳定,夜间跑任务,可以满足。 >- *各位在使用哪个版本的Hive?有计划升级Hive吗?*// cdh5版本 无计划升级 >- > *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*//尝试spark引擎跑夜间任务,不稳定。对于性能,不是特别追求,稳定了,就会尝试flink > on hive >- > *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*//技术迭代,当然理想的状况是批流统一,只维护一套数据处理系统。spark的性能已经很棒了,所以追求更好的性能这个对我们不需要。 >- *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*//大的表 数据量不小,主要是读 >- *有多少Hive UDF?都是什么类型?*//挺多 >- *对项目有什么问题或者建议?*//1)flink on hive > 准实时场景下,对性能要求越高越好,相对的数据量不大。2)离线场景下,稳定,而后是性能。3)社区的活跃,排查问题的手段 > > > -- Original -- > From: "Bowen Li"; > Date: Wed, Mar 20, 2019 08:09 AM > To: "user-zh"; > > Subject: [进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs > > > Flink中文频道的童鞋们,大家好, > > *我们想收集下大家对Flink兼容Hive方面的需求和意见*。 > > 背景:去年12月的Flink Forward 中国站上,社区宣布了将推动Flink兼容Hive。今年2.21,在西雅图 Flink Meetup > 上我们做了 “Integrating Flink with Hive” > 的演讲,并进行了现场演示,收到很好的反响。现在已到三月中,我们已经在内部完成了构建Flink崭新的catalog架构,对Hive > 元数据的兼容,和常见的通过Flink 读写 > > Hive数据的工作。我们已开始提交相关的PR和设计文档,将已开发的功能输送回社区。欢迎大家参与到项目的各项工作中,如评审设计文档和PR,参与开发和测试。 > > *当前最重要的事,是我们希望社区的同学们能分享各自对Hive的用法,并给我们的项目提供反馈和建议。* > > 我们已开始深入的在某些领域使Flink兼容Hive,各位的反馈和建议可以帮助我们更好地评估各个工作的优先度,从而使我们的用户能更快地得到各位需要的功能。比如,如果绝大多数用户都是以读Hive数据为主,我们就会高优优化读功能。 > > 快速回顾下我们内部已经完成的工作: > >- Flink/Hive 元数据兼容 > - 统一的、可查简化的catalog架构,用以管理catalog,database,tables, views, functions, > partitions, table/partition stats 等元数据 > - 三种catalog实现:一种默认的内存catalog;HiveCatalog > 用以兼容Hive生态的元数据;GenericHiveMetastoreCatalog 用以在Hive metastore中持久化 > Flink > 流和批的元数据 > - 在SQL和table api中支持基于 ..<元数据名称> 的引用方式 > - 统一的function catalog,并支持Hive 简单的 UDF >- Flink/Hive 数据兼容 > - Hive connector 支持:读取分区和非分去表,partition pruning,Hive简单和复杂数据类型,简单的写 >- 集成了了上述功能的SQL 客户端 > > *我们想要了解的是:各位现在如何使用Hive?我们怎么能帮助各位解决问题?各位期待 Flink在兼容Hive中提供哪些功能?比如,* > >- *各位在使用哪个版本的Hive?有计划升级Hive吗?* >- *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?* >- *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?* >- *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?* >- *有多少Hive UDF?都是什么类型?* >- *对项目有什么问题或者建议?* > > 大家的建议对我们很重要。我们希望这些工作能真正的尽快惠及社区用户。我们争取这周做个调查问卷,更全面的收集各位的反馈和建议。 > > Bowen
Re: [进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs
非常感谢博闻发起的关于hive的讨论,hive在离线数据仓库处理这块占了我们80%的离线处理使用。 *各位在使用哪个版本的Hive?有计划升级Hive吗?我们目前生产使用的是cdh5.12.1集成的hive1.1.0的版本。 *各位计划切换Hive引擎吗?有时间点吗?主要是追求稳定输出,版本升级需要对应一系列测试,我们暂时还不打算升级。 *各位使用Flink-Hive的动机是什么?想只是用一套Flink技术栈,批流合一,方便维护和学习。 *各位如何使用Hive?数据量有多大?读写都有,一天2T左右。 *有多少Hive UDF?都是什么类型? 主要GPS行程数据相关的与geo相关的比较多。 *对项目有什么问题或者建议?flink on hive优先稳定和兼容性。 前进
Re:[进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs
1、首先对flink纳入阿里麾下表示很兴奋,针对以下问题,根据我的一些经验,抛砖引玉: hive太重要了,稳定,夜间跑任务,可以满足。 - *各位在使用哪个版本的Hive?有计划升级Hive吗?*// cdh5版本 无计划升级 - *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?*//尝试spark引擎跑夜间任务,不稳定。对于性能,不是特别追求,稳定了,就会尝试flink on hive - *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?*//技术迭代,当然理想的状况是批流统一,只维护一套数据处理系统。spark的性能已经很棒了,所以追求更好的性能这个对我们不需要。 - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?*//大的表 数据量不小,主要是读 - *有多少Hive UDF?都是什么类型?*//挺多 - *对项目有什么问题或者建议?*//1)flink on hive 准实时场景下,对性能要求越高越好,相对的数据量不大。2)离线场景下,稳定,而后是性能。3)社区的活跃,排查问题的手段 -- Original -- From: "Bowen Li"; Date: Wed, Mar 20, 2019 08:09 AM To: "user-zh"; Subject: [进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs Flink中文频道的童鞋们,大家好, *我们想收集下大家对Flink兼容Hive方面的需求和意见*。 背景:去年12月的Flink Forward 中国站上,社区宣布了将推动Flink兼容Hive。今年2.21,在西雅图 Flink Meetup 上我们做了 “Integrating Flink with Hive” 的演讲,并进行了现场演示,收到很好的反响。现在已到三月中,我们已经在内部完成了构建Flink崭新的catalog架构,对Hive 元数据的兼容,和常见的通过Flink 读写 Hive数据的工作。我们已开始提交相关的PR和设计文档,将已开发的功能输送回社区。欢迎大家参与到项目的各项工作中,如评审设计文档和PR,参与开发和测试。 *当前最重要的事,是我们希望社区的同学们能分享各自对Hive的用法,并给我们的项目提供反馈和建议。* 我们已开始深入的在某些领域使Flink兼容Hive,各位的反馈和建议可以帮助我们更好地评估各个工作的优先度,从而使我们的用户能更快地得到各位需要的功能。比如,如果绝大多数用户都是以读Hive数据为主,我们就会高优优化读功能。 快速回顾下我们内部已经完成的工作: - Flink/Hive 元数据兼容 - 统一的、可查简化的catalog架构,用以管理catalog,database,tables, views, functions, partitions, table/partition stats 等元数据 - 三种catalog实现:一种默认的内存catalog;HiveCatalog 用以兼容Hive生态的元数据;GenericHiveMetastoreCatalog 用以在Hive metastore中持久化 Flink 流和批的元数据 - 在SQL和table api中支持基于 ..<元数据名称> 的引用方式 - 统一的function catalog,并支持Hive 简单的 UDF - Flink/Hive 数据兼容 - Hive connector 支持:读取分区和非分去表,partition pruning,Hive简单和复杂数据类型,简单的写 - 集成了了上述功能的SQL 客户端 *我们想要了解的是:各位现在如何使用Hive?我们怎么能帮助各位解决问题?各位期待 Flink在兼容Hive中提供哪些功能?比如,* - *各位在使用哪个版本的Hive?有计划升级Hive吗?* - *各位计划切换Hive引擎吗?有时间点吗?当Flink具备什么功能以后你才会考虑使用Flink读写Hive?* - *各位使用Flink-Hive的动机是什么?只维护一套数据处理系统?使用Flink获取更好的性能?* - *各位如何使用Hive?数据量有多大?主要是读,还是读写都有?* - *有多少Hive UDF?都是什么类型?* - *对项目有什么问题或者建议?* 大家的建议对我们很重要。我们希望这些工作能真正的尽快惠及社区用户。我们争取这周做个调查问卷,更全面的收集各位的反馈和建议。 Bowen