Re: Re:[进度更新] [讨论] Flink 对 Hive 的兼容和 Catalogs

qianjin Xu Fri, 29 Mar 2019 23:14:09 -0700

感谢 博闻的回复，由于邮件中不能添加图片。这个钉钉图片显示出来是broken的。我将钉钉二维码图片转换成百度图库的链接地址了，链接如下：
https://graph.baidu.com/resource/1021841c75097798b444301553925752.jpg
欢迎各位加入 Flink-Hive 官方用户钉钉群讨论和反馈问题
前进


Bowen Li <bowenl...@gmail.com> 于2019年3月30日周六 下午1:14写道：

> 感谢大家的回复！下一步我会整理好各位的反馈并转达给我们的团队。
>
> 同时欢迎加入 Flink-Hive 官方用户钉钉群讨论和反馈问题
> [image: image.png]
>
> On Wed, Mar 20, 2019 at 8:39 AM ChangTong He <jfjfh...@gmail.com> wrote:
>
>> >    - *各位在使用哪个版本的Hive？有计划升级Hive吗？*
>>
>> 目前我维护的两套批处理系统分别是CDH5.10.0
>>
>> 和CDH5.13.1，均是hive-1.1.0；去年底搭了一套CDH6给开发做测试，但是目前我们调度大概有5000多个，有可能今年我们做IDC迁移的时候，顺便把集群都升到6的话，应该会升到对应的hive-2.1.1；
>>
>> >    - *各位计划切换Hive引擎吗？有时间点吗？当Flink具备什么功能以后你才会考虑使用Flink读写Hive？*
>>
>>
>> 没有计划，由于我们平台是启用了sentry，所以不知道Flink和sentry的契合度怎么样，批处理的话大部分任务都集中在夜间3-5点，也是最容易出问题的时段，如果Flink能够提供更好的failover能力以及对资源的把控性能更好，应该会考虑
>>
>> >    - *各位使用Flink-Hive的动机是什么？只维护一套数据处理系统？使用Flink获取更好的性能？*
>>
>>
>> 当初我了解Flink-Hive的动机，确实是希望只维护一套数据处理系统，目前我维护公司两个部门的大数据平台，他们批处理各一套，实时又各一套，hive还会通过phoenix写到另外一套hbase集群，脑壳疼
>>
>> >    - *各位如何使用Hive？数据量有多大？主要是读，还是读写都有？*
>>
>> 大部分都MR2，hive on spark的任务较少但是不稳定，数据量TB级，读写都有
>>
>> >    - *有多少Hive UDF？都是什么类型？*
>>
>> 有80多个UDF，看了一下他们的命名感觉大部分都是一些业务逻辑的判断
>>
>> >    - *对项目有什么问题或者建议？*
>>
>> 主要还是追求稳定，以及对hive低版本的兼容吧(之前在给公司做spark-sql
>> cli测试的时候，可以很明显的感觉到，开发其实是不愿意去改之前的代码的，他们希望的是能不动现有代码的情况下就能平滑的切换到新引擎)
>> >
>>
>> 王志明 <wangzmk...@163.com>于2019年3月20日周三 下午8:47写道：
>>
>> > Hi，
>> >      “Integrating Flink with Hive”确实是一个很大、很好的话题。针对以下几点，我结合自己的工作，pao'zhua
>> > - *各位在使用哪个版本的Hive？有计划升级Hive吗？*
>> > 目前用的是Apache Hive1.2，暂无升级Hive的计划
>> >
>> > - *各位计划切换Hive引擎吗？有时间点吗？当Flink具备什么功能以后你才会考虑使用Flink读写Hive？*
>> > 一个是夜间会大批量跑任务，如果Flink读写Hive速度快，可处理数据量大，就会考虑用。
>> >
>> > - *各位使用Flink-Hive的动机是什么？只维护一套数据处理系统？使用Flink获取更好的性能？*
>> > 希望流处理和批处理的核心代码是一套，方便开发，维护、以及数据准确性。
>> >
>> > - *各位如何使用Hive？数据量有多大？主要是读，还是读写都有？*
>> > 希望是用 Flink on Hive 的方式，数据量有TB级，读写都有
>> >
>> >
>> >
>> >
>> >
>> >
>> >
>> >
>> > 在 2019-03-20 09:28:55，"董鹏" <dongp...@imdada.cn> 写道：
>> > >1、首先对flink纳入阿里麾下表示很兴奋，针对以下问题，根据我的一些经验，抛砖引玉：
>> > >hive太重要了，稳定，夜间跑任务，可以满足。
>> > >   - *各位在使用哪个版本的Hive？有计划升级Hive吗？*// cdh5版本 无计划升级
>> > >   -
>> >
>> *各位计划切换Hive引擎吗？有时间点吗？当Flink具备什么功能以后你才会考虑使用Flink读写Hive？*//尝试spark引擎跑夜间任务，不稳定。对于性能，不是特别追求，稳定了，就会尝试flink
>> > on hive
>> > >   -
>> >
>> *各位使用Flink-Hive的动机是什么？只维护一套数据处理系统？使用Flink获取更好的性能？*//技术迭代，当然理想的状况是批流统一，只维护一套数据处理系统。spark的性能已经很棒了，所以追求更好的性能这个对我们不需要。
>> > >   - *各位如何使用Hive？数据量有多大？主要是读，还是读写都有？*//大的表 数据量不小，主要是读
>> > >   - *有多少Hive UDF？都是什么类型？*//挺多
>> > >   - *对项目有什么问题或者建议？*//1）flink on hive
>> > 准实时场景下，对性能要求越高越好，相对的数据量不大。2）离线场景下，稳定，而后是性能。3）社区的活跃，排查问题的手段
>> > >
>> > >
>> > >------------------ Original ------------------
>> > >From:  "Bowen Li"<bowenl...@gmail.com>;
>> > >Date:  Wed, Mar 20, 2019 08:09 AM
>> > >To:  "user-zh"<user-zh@flink.apache.org>;
>> > >
>> > >Subject:  [进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs
>> > >
>> > >
>> > >Flink中文频道的童鞋们，大家好，
>> > >
>> > >*我们想收集下大家对Flink兼容Hive方面的需求和意见*。
>> > >
>> > >背景：去年12月的Flink Forward 中国站上，社区宣布了将推动Flink兼容Hive。今年2.21，在西雅图 Flink
>> Meetup
>> > >上我们做了 “Integrating Flink with Hive”
>> > >的演讲，并进行了现场演示，收到很好的反响。现在已到三月中，我们已经在内部完成了构建Flink崭新的catalog架构，对Hive
>> > >元数据的兼容，和常见的通过Flink 读写
>> >
>> >
>> >Hive数据的工作。我们已开始提交相关的PR和设计文档，将已开发的功能输送回社区。欢迎大家参与到项目的各项工作中，如评审设计文档和PR，参与开发和测试。
>> > >
>> > >*当前最重要的事，是我们希望社区的同学们能分享各自对Hive的用法，并给我们的项目提供反馈和建议。*
>> >
>> >
>> >我们已开始深入的在某些领域使Flink兼容Hive，各位的反馈和建议可以帮助我们更好地评估各个工作的优先度，从而使我们的用户能更快地得到各位需要的功能。比如，如果绝大多数用户都是以读Hive数据为主，我们就会高优优化读功能。
>> > >
>> > >快速回顾下我们内部已经完成的工作：
>> > >
>> > >   - Flink/Hive 元数据兼容
>> > >      - 统一的、可查简化的catalog架构，用以管理catalog，database，tables, views,
>> functions,
>> > >      partitions, table/partition stats 等元数据
>> > >      - 三种catalog实现：一种默认的内存catalog；HiveCatalog
>> > >      用以兼容Hive生态的元数据；GenericHiveMetastoreCatalog 用以在Hive metastore中持久化
>> > Flink
>> > >      流和批的元数据
>> > >      - 在SQL和table api中支持基于 <catalog>.<database>.<元数据名称> 的引用方式
>> > >      - 统一的function catalog，并支持Hive 简单的 UDF
>> > >   - Flink/Hive 数据兼容
>> > >      - Hive connector 支持：读取分区和非分去表，partition
>> pruning，Hive简单和复杂数据类型，简单的写
>> > >   - 集成了了上述功能的SQL 客户端
>> > >
>> > >*我们想要了解的是：各位现在如何使用Hive？我们怎么能帮助各位解决问题？各位期待 Flink在兼容Hive中提供哪些功能？比如，*
>> > >
>> > >   - *各位在使用哪个版本的Hive？有计划升级Hive吗？*
>> > >   - *各位计划切换Hive引擎吗？有时间点吗？当Flink具备什么功能以后你才会考虑使用Flink读写Hive？*
>> > >   - *各位使用Flink-Hive的动机是什么？只维护一套数据处理系统？使用Flink获取更好的性能？*
>> > >   - *各位如何使用Hive？数据量有多大？主要是读，还是读写都有？*
>> > >   - *有多少Hive UDF？都是什么类型？*
>> > >   - *对项目有什么问题或者建议？*
>> > >
>> > >大家的建议对我们很重要。我们希望这些工作能真正的尽快惠及社区用户。我们争取这周做个调查问卷，更全面的收集各位的反馈和建议。
>> > >
>> > >Bowen
>> >
>>
>

Re: Re:[进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs

回复

Re: Re:[进度更新] [讨论] Flink 对 Hive 的兼容和 Catalogs