[进度更新] [讨论] Flink 对 Hive 的兼容和 Catalogs

Bowen Li Tue, 19 Mar 2019 17:19:33 -0700

Flink中文频道的童鞋们，大家好，

*我们想收集下大家对Flink兼容Hive方面的需求和意见*。


背景：去年12月的Flink Forward 中国站上，社区宣布了将推动Flink兼容Hive。今年2.21，在西雅图 Flink Meetup
上我们做了 “Integrating Flink with Hive”
的演讲，并进行了现场演示，收到很好的反响。现在已到三月中，我们已经在内部完成了构建Flink崭新的catalog架构，对Hive
元数据的兼容，和常见的通过Flink 读写
Hive数据的工作。我们已开始提交相关的PR和设计文档，将已开发的功能输送回社区。欢迎大家参与到项目的各项工作中，如评审设计文档和PR，参与开发和测试。

*当前最重要的事，是我们希望社区的同学们能分享各自对Hive的用法，并给我们的项目提供反馈和建议。*
我们已开始深入的在某些领域使Flink兼容Hive，各位的反馈和建议可以帮助我们更好地评估各个工作的优先度，从而使我们的用户能更快地得到各位需要的功能。比如，如果绝大多数用户都是以读Hive数据为主，我们就会高优优化读功能。

快速回顾下我们内部已经完成的工作：

   - Flink/Hive 元数据兼容
      - 统一的、可查简化的catalog架构，用以管理catalog，database，tables, views, functions,
      partitions, table/partition stats 等元数据
      - 三种catalog实现：一种默认的内存catalog；HiveCatalog
      用以兼容Hive生态的元数据；GenericHiveMetastoreCatalog 用以在Hive metastore中持久化 Flink
      流和批的元数据
      - 在SQL和table api中支持基于 <catalog>.<database>.<元数据名称> 的引用方式
      - 统一的function catalog，并支持Hive 简单的 UDF
   - Flink/Hive 数据兼容
      - Hive connector 支持：读取分区和非分去表，partition pruning，Hive简单和复杂数据类型，简单的写
   - 集成了了上述功能的SQL 客户端

*我们想要了解的是：各位现在如何使用Hive？我们怎么能帮助各位解决问题？各位期待 Flink在兼容Hive中提供哪些功能？比如，*

   - *各位在使用哪个版本的Hive？有计划升级Hive吗？*
   - *各位计划切换Hive引擎吗？有时间点吗？当Flink具备什么功能以后你才会考虑使用Flink读写Hive？*
   - *各位使用Flink-Hive的动机是什么？只维护一套数据处理系统？使用Flink获取更好的性能？*
   - *各位如何使用Hive？数据量有多大？主要是读，还是读写都有？*
   - *有多少Hive UDF？都是什么类型？*
   - *对项目有什么问题或者建议？*

大家的建议对我们很重要。我们希望这些工作能真正的尽快惠及社区用户。我们争取这周做个调查问卷，更全面的收集各位的反馈和建议。

Bowen

[进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs

回复

[进度更新] [讨论] Flink 对 Hive 的兼容和 Catalogs