date:20190320

Re: [进度更新] [讨论] Flink 对 Hive 的兼容和 Catalogs

2019-03-20 Thread qianjin Xu

非常感谢博闻发起的关于hive的讨论，hive在离线数据仓库处理这块占了我们80%的离线处理使用。

*各位在使用哪个版本的Hive？有计划升级Hive吗？我们目前生产使用的是cdh5.12.1集成的hive1.1.0的版本。
*各位计划切换Hive引擎吗？有时间点吗？主要是追求稳定输出，版本升级需要对应一系列测试，我们暂时还不打算升级。
*各位使用Flink-Hive的动机是什么？想只是用一套Flink技术栈，批流合一，方便维护和学习。
*各位如何使用Hive？数据量有多大？读写都有，一天2T左右。
*有多少Hive UDF？都是什么类型？ 主要GPS行程数据相关的与geo相关的比较多。
*对项目有什么问题或者建议？flink on hive优先稳定和兼容性。

前进

董鹏  于2019年3月20日周三 上午9:29写道：

> 1、首先对flink纳入阿里麾下表示很兴奋，针对以下问题，根据我的一些经验，抛砖引玉：
> hive太重要了，稳定，夜间跑任务，可以满足。
>- *各位在使用哪个版本的Hive？有计划升级Hive吗？*// cdh5版本 无计划升级
>-
> *各位计划切换Hive引擎吗？有时间点吗？当Flink具备什么功能以后你才会考虑使用Flink读写Hive？*//尝试spark引擎跑夜间任务，不稳定。对于性能，不是特别追求，稳定了，就会尝试flink
> on hive
>-
> *各位使用Flink-Hive的动机是什么？只维护一套数据处理系统？使用Flink获取更好的性能？*//技术迭代，当然理想的状况是批流统一，只维护一套数据处理系统。spark的性能已经很棒了，所以追求更好的性能这个对我们不需要。
>- *各位如何使用Hive？数据量有多大？主要是读，还是读写都有？*//大的表 数据量不小，主要是读
>- *有多少Hive UDF？都是什么类型？*//挺多
>- *对项目有什么问题或者建议？*//1）flink on hive
> 准实时场景下，对性能要求越高越好，相对的数据量不大。2）离线场景下，稳定，而后是性能。3）社区的活跃，排查问题的手段
>
>
> -- Original --
> From:  "Bowen Li";
> Date:  Wed, Mar 20, 2019 08:09 AM
> To:  "user-zh";
>
> Subject:  [进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs
>
>
> Flink中文频道的童鞋们，大家好，
>
> *我们想收集下大家对Flink兼容Hive方面的需求和意见*。
>
> 背景：去年12月的Flink Forward 中国站上，社区宣布了将推动Flink兼容Hive。今年2.21，在西雅图 Flink Meetup
> 上我们做了 “Integrating Flink with Hive”
> 的演讲，并进行了现场演示，收到很好的反响。现在已到三月中，我们已经在内部完成了构建Flink崭新的catalog架构，对Hive
> 元数据的兼容，和常见的通过Flink 读写
>
> Hive数据的工作。我们已开始提交相关的PR和设计文档，将已开发的功能输送回社区。欢迎大家参与到项目的各项工作中，如评审设计文档和PR，参与开发和测试。
>
> *当前最重要的事，是我们希望社区的同学们能分享各自对Hive的用法，并给我们的项目提供反馈和建议。*
>
> 我们已开始深入的在某些领域使Flink兼容Hive，各位的反馈和建议可以帮助我们更好地评估各个工作的优先度，从而使我们的用户能更快地得到各位需要的功能。比如，如果绝大多数用户都是以读Hive数据为主，我们就会高优优化读功能。
>
> 快速回顾下我们内部已经完成的工作：
>
>- Flink/Hive 元数据兼容
>   - 统一的、可查简化的catalog架构，用以管理catalog，database，tables, views, functions,
>   partitions, table/partition stats 等元数据
>   - 三种catalog实现：一种默认的内存catalog；HiveCatalog
>   用以兼容Hive生态的元数据；GenericHiveMetastoreCatalog 用以在Hive metastore中持久化
> Flink
>   流和批的元数据
>   - 在SQL和table api中支持基于 ..<元数据名称> 的引用方式
>   - 统一的function catalog，并支持Hive 简单的 UDF
>- Flink/Hive 数据兼容
>   - Hive connector 支持：读取分区和非分去表，partition pruning，Hive简单和复杂数据类型，简单的写
>- 集成了了上述功能的SQL 客户端
>
> *我们想要了解的是：各位现在如何使用Hive？我们怎么能帮助各位解决问题？各位期待 Flink在兼容Hive中提供哪些功能？比如，*
>
>- *各位在使用哪个版本的Hive？有计划升级Hive吗？*
>- *各位计划切换Hive引擎吗？有时间点吗？当Flink具备什么功能以后你才会考虑使用Flink读写Hive？*
>- *各位使用Flink-Hive的动机是什么？只维护一套数据处理系统？使用Flink获取更好的性能？*
>- *各位如何使用Hive？数据量有多大？主要是读，还是读写都有？*
>- *有多少Hive UDF？都是什么类型？*
>- *对项目有什么问题或者建议？*
>
> 大家的建议对我们很重要。我们希望这些工作能真正的尽快惠及社区用户。我们争取这周做个调查问卷，更全面的收集各位的反馈和建议。
>
> Bowen

Re: [进度更新] [讨论] Flink 对 Hive 的兼容和 Catalogs

2019-03-20 Thread qianjin Xu

非常感谢博闻发起的关于hive的讨论，hive在离线数据仓库处理这块占了我们80%的离线处理使用。

*各位在使用哪个版本的Hive？有计划升级Hive吗？我们目前生产使用的是cdh5.12.1集成的hive1.1.0的版本。
*各位计划切换Hive引擎吗？有时间点吗？主要是追求稳定输出，版本升级需要对应一系列测试，我们暂时还不打算升级。
*各位使用Flink-Hive的动机是什么？想只是用一套Flink技术栈，批流合一，方便维护和学习。
*各位如何使用Hive？数据量有多大？读写都有，一天2T左右。
*有多少Hive UDF？都是什么类型？ 主要GPS行程数据相关的与geo相关的比较多。
*对项目有什么问题或者建议？flink on hive优先稳定和兼容性。

前进

Re: FlinkKafkaConsumer 为什么不支持制定分区消费

2019-03-20 Thread Biao Liu

Hi,
构造函数中的 topics, topicPattern 不能满足你的需求吗？

yuqingshui  于2019年3月18日周一 下午10:33写道：

> 如题：FlinkKafkaConsumer 为什么不支持制定分区消费？

Re: [PROGRESS UPDATE] [DISCUSS] Flink-Hive Integration and Catalogs

2019-03-20 Thread chai

Here is my production environment，the version is CDH 5.9 and hive 1.2.1 ,hive 
2.3.4 is too new for me.

> 在 2019年3月20日，11:44，Shaoxuan Wang  写道：
> 
> Hi Bowen,
> Thanks for driving this. I am CCing this email/survey to user-zh@
> flink.apache.org as well.
> I heard there are lots of interests on Flink-Hive from the field. One of
> the biggest requests the hive users are raised is "the support of
> out-of-date hive version". A large amount of users are still working on the
> cluster with CDH/HDP installed with old hive version, say 1.2.1/2.1.1. We
> need ensure the support of these Hive version when planning the work on
> Flink-Hive integration.
> 
> *@all. "We want to get your feedbacks on Flink-Hive integration." *
> 
> Regards,
> Shaoxuan
> 
> On Wed, Mar 20, 2019 at 7:16 AM Bowen Li  wrote:
> 
>> Hi Flink users and devs,
>> 
>> We want to get your feedbacks on integrating Flink with Hive.
>> 
>> Background: In Flink Forward in Beijing last December, the community
>> announced to initiate efforts on integrating Flink and Hive. On Feb 21 
>> Seattle
>> Flink Meetup , We
>> presented Integrating Flink with Hive
>> 
>>  with
>> a live demo to local community and got great response. As of mid March now,
>> we have internally finished building Flink's brand-new catalog
>> infrastructure, metadata integration with Hive, and most common cases of
>> Flink reading/writing against Hive, and will start to submit more design
>> docs/FLIP and contribute code back to community. The reason for doing it
>> internally first and then in community is to ensure our proposed solutions
>> are fully validated and tested, gain hands-on experience and not miss
>> anything in design. You are very welcome to join this effort, from
>> design/code review, to development and testing.
>> 
>> *The most important thing we believe you, our Flink users/devs, can help
>> RIGHT NOW is to share your Hive use cases and give us feedbacks for this
>> project. As we start to go deeper on specific areas of integration, you
>> feedbacks and suggestions will help us to refine our backlogs and
>> prioritize our work, and you can get the features you want sooner! *Just
>> for example, if most users is mainly only reading Hive data, then we can
>> prioritize tuning read performance over implementing write capability.
>> A quick review of what we've finished building internally and is ready to
>> contribute back to community:
>> 
>>   - Flink/Hive Metadata Integration
>>  - Unified, pluggable catalog infra that manages meta-objects,
>>  including catalogs, databases, tables, views, functions, partitions,
>>  table/partition stats
>>  - Three catalog impls - A in-memory catalog, HiveCatalog for
>>  embracing Hive ecosystem, GenericHiveMetastoreCatalog for persisting
>>  Flink's streaming/batch metadata in Hive metastore
>>  - Hierarchical metadata reference as
>>  .. in SQL and Table API
>>  - Unified function catalog based on new catalog infra, also support
>>  Hive simple UDF
>>   - Flink/Hive Data Integration
>>  - Hive data connector that reads partitioned/non-partitioned Hive
>>  tables, and supports partition pruning, both Hive simple and complex 
>> data
>>  types, and basic write
>>   - More powerful SQL Client fully integrated with the above features
>>   and more Hive-compatible SQL syntax for better end-to-end SQL experience
>> 
>> *Given above info, we want to learn from you on: How do you use Hive
>> currently? How can we solve your pain points? What features do you expect
>> from Flink-Hive integration? Those can be details like:*
>> 
>>   - *Which Hive version are you using? Do you plan to upgrade Hive?*
>>   - *Are you planning to switch Hive engine? What timeline are you
>>   looking at? Until what capabilities Flink has will you consider using Flink
>>   with Hive?*
>>   - *What's your motivation to try Flink-Hive? Maintain only one data
>>   processing system across your teams for simplicity and maintainability?
>>   Better performance of Flink over Hive itself?*
>>   - *What are your Hive use cases? How large is your Hive data size? Do
>>   you mainly do reading, or both reading and writing?*
>>   - *How many Hive user defined functions do you have? Are they mostly
>>   UDF, GenericUDF, or UDTF, or UDAF?*
>>   - any questions or suggestions you have? or as simple as how you feel
>>   about the project
>> 
>> Again, your input will be really valuable to us, and we hope, with all of
>> us working together, the project can benefits our end users. Please feel
>> free to either reply to this thread or just to me. I'm also working on
>> creating a questionnaire to better gather your feedbacks, watch for the
>> maillist in the next couple days.
>> 
>> Thanks,
>> Bowen
>> 
>> 
>> 
>> 
>>

Re:Re: [进度更新] [讨论] Flink 对 Hive 的兼容和 Catalogs

2019-03-20 Thread Michael Ran

- *各位在使用哪个版本的Hive？有计划升级Hive吗？*我们是cdh5.8.3 hive 1.1吧。目前稳定考虑升级到CDH6 
hive2.1 但是估计时间会比较久- 
*各位计划切换Hive引擎吗？有时间点吗？当Flink具备什么功能以后你才会考虑使用Flink读写Hive？*
目前大部分是hive，因为稳定，一部分是spark 。  希望flink 首先SQL 支持最好兼容hive语法，稳定、稳定很重要。最好能有接口获取血缘 
执行计划分析之类的，方便做工具- 
*各位使用Flink-Hive的动机是什么？只维护一套数据处理系统？使用Flink获取更好的性能？*想实时 
离线引擎尽量一套搞定吧，维护方便些，当然也考虑性能各方面，以及实时过程中对hive 的一些加载等- 
*各位如何使用Hive？数据量有多大？主要是读，还是读写都有？*目前还是脚本任务，数据量一天估计2-4T吧， 
批量导入，小时级别导入，然后分析 导出，读写都有 - *有多少Hive UDF？都是什么类型？*udf 
不多，就一些UUID 单字段分割多列 ，雪花算法 等等- *对项目有什么问题或者建议？*   API 
尽量简单些。有接口处理血缘这块，包括优化分析的，能图形化 最好 哈哈   其次都有一些用例 demo之类的，尽量完整吧   
有空可以周末约一下呗，杭州地区的
在 2019-03-20 15:21:48，"qianjin Xu"  写道：
>非常感谢博闻发起的关于hive的讨论，hive在离线数据仓库处理这块占了我们80%的离线处理使用。
>
>*各位在使用哪个版本的Hive？有计划升级Hive吗？我们目前生产使用的是cdh5.12.1集成的hive1.1.0的版本。
>*各位计划切换Hive引擎吗？有时间点吗？主要是追求稳定输出，版本升级需要对应一系列测试，我们暂时还不打算升级。
>*各位使用Flink-Hive的动机是什么？想只是用一套Flink技术栈，批流合一，方便维护和学习。
>*各位如何使用Hive？数据量有多大？读写都有，一天2T左右。
>*有多少Hive UDF？都是什么类型？ 主要GPS行程数据相关的与geo相关的比较多。
>*对项目有什么问题或者建议？flink on hive优先稳定和兼容性。
>
>前进
>
>董鹏  于2019年3月20日周三 上午9:29写道：
>
>> 1、首先对flink纳入阿里麾下表示很兴奋，针对以下问题，根据我的一些经验，抛砖引玉：
>> hive太重要了，稳定，夜间跑任务，可以满足。
>>- *各位在使用哪个版本的Hive？有计划升级Hive吗？*// cdh5版本 无计划升级
>>-
>> *各位计划切换Hive引擎吗？有时间点吗？当Flink具备什么功能以后你才会考虑使用Flink读写Hive？*//尝试spark引擎跑夜间任务，不稳定。对于性能，不是特别追求，稳定了，就会尝试flink
>> on hive
>>-
>> *各位使用Flink-Hive的动机是什么？只维护一套数据处理系统？使用Flink获取更好的性能？*//技术迭代，当然理想的状况是批流统一，只维护一套数据处理系统。spark的性能已经很棒了，所以追求更好的性能这个对我们不需要。
>>- *各位如何使用Hive？数据量有多大？主要是读，还是读写都有？*//大的表 数据量不小，主要是读
>>- *有多少Hive UDF？都是什么类型？*//挺多
>>- *对项目有什么问题或者建议？*//1）flink on hive
>> 准实时场景下，对性能要求越高越好，相对的数据量不大。2）离线场景下，稳定，而后是性能。3）社区的活跃，排查问题的手段
>>
>>
>> -- Original --
>> From:  "Bowen Li";
>> Date:  Wed, Mar 20, 2019 08:09 AM
>> To:  "user-zh";
>>
>> Subject:  [进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs
>>
>>
>> Flink中文频道的童鞋们，大家好，
>>
>> *我们想收集下大家对Flink兼容Hive方面的需求和意见*。
>>
>> 背景：去年12月的Flink Forward 中国站上，社区宣布了将推动Flink兼容Hive。今年2.21，在西雅图 Flink Meetup
>> 上我们做了 “Integrating Flink with Hive”
>> 的演讲，并进行了现场演示，收到很好的反响。现在已到三月中，我们已经在内部完成了构建Flink崭新的catalog架构，对Hive
>> 元数据的兼容，和常见的通过Flink 读写
>>
>> Hive数据的工作。我们已开始提交相关的PR和设计文档，将已开发的功能输送回社区。欢迎大家参与到项目的各项工作中，如评审设计文档和PR，参与开发和测试。
>>
>> *当前最重要的事，是我们希望社区的同学们能分享各自对Hive的用法，并给我们的项目提供反馈和建议。*
>>
>> 我们已开始深入的在某些领域使Flink兼容Hive，各位的反馈和建议可以帮助我们更好地评估各个工作的优先度，从而使我们的用户能更快地得到各位需要的功能。比如，如果绝大多数用户都是以读Hive数据为主，我们就会高优优化读功能。
>>
>> 快速回顾下我们内部已经完成的工作：
>>
>>- Flink/Hive 元数据兼容
>>   - 统一的、可查简化的catalog架构，用以管理catalog，database，tables, views, functions,
>>   partitions, table/partition stats 等元数据
>>   - 三种catalog实现：一种默认的内存catalog；HiveCatalog
>>   用以兼容Hive生态的元数据；GenericHiveMetastoreCatalog 用以在Hive metastore中持久化
>> Flink
>>   流和批的元数据
>>   - 在SQL和table api中支持基于 ..<元数据名称> 的引用方式
>>   - 统一的function catalog，并支持Hive 简单的 UDF
>>- Flink/Hive 数据兼容
>>   - Hive connector 支持：读取分区和非分去表，partition pruning，Hive简单和复杂数据类型，简单的写
>>- 集成了了上述功能的SQL 客户端
>>
>> *我们想要了解的是：各位现在如何使用Hive？我们怎么能帮助各位解决问题？各位期待 Flink在兼容Hive中提供哪些功能？比如，*
>>
>>- *各位在使用哪个版本的Hive？有计划升级Hive吗？*
>>- *各位计划切换Hive引擎吗？有时间点吗？当Flink具备什么功能以后你才会考虑使用Flink读写Hive？*
>>- *各位使用Flink-Hive的动机是什么？只维护一套数据处理系统？使用Flink获取更好的性能？*
>>- *各位如何使用Hive？数据量有多大？主要是读，还是读写都有？*
>>- *有多少Hive UDF？都是什么类型？*
>>- *对项目有什么问题或者建议？*
>>
>> 大家的建议对我们很重要。我们希望这些工作能真正的尽快惠及社区用户。我们争取这周做个调查问卷，更全面的收集各位的反馈和建议。
>>
>> Bowen

?????? FlinkKafkaConsumer ????????????????????????

2019-03-20 Thread yuess_coder

??partitionOffset ??offset
FlinkKafkaConsumer011 consumer = ...
 Map partitionOffset = ... 
consumer.setStartFromSpecificOffsets(partitionOffset);






--  --
??: "Biao Liu";
: 2019??3??20??(??) 3:24
??: "user-zh";

: Re: FlinkKafkaConsumer 



Hi,
 topics, topicPattern 

yuqingshui  ??2019??3??18?? 10:33??

> ??FlinkKafkaConsumer ??

Re:Re:[进度更新] [讨论] Flink 对 Hive 的兼容和 Catalogs

2019-03-20 Thread 王志明

Hi，
 “Integrating Flink with Hive”确实是一个很大、很好的话题。针对以下几点，我结合自己的工作，pao'zhua
- *各位在使用哪个版本的Hive？有计划升级Hive吗？*
目前用的是Apache Hive1.2，暂无升级Hive的计划

- *各位计划切换Hive引擎吗？有时间点吗？当Flink具备什么功能以后你才会考虑使用Flink读写Hive？*
一个是夜间会大批量跑任务，如果Flink读写Hive速度快，可处理数据量大，就会考虑用。

- *各位使用Flink-Hive的动机是什么？只维护一套数据处理系统？使用Flink获取更好的性能？*
希望流处理和批处理的核心代码是一套，方便开发，维护、以及数据准确性。

- *各位如何使用Hive？数据量有多大？主要是读，还是读写都有？*
希望是用 Flink on Hive 的方式，数据量有TB级，读写都有








在 2019-03-20 09:28:55，"董鹏"  写道：
>1、首先对flink纳入阿里麾下表示很兴奋，针对以下问题，根据我的一些经验，抛砖引玉：
>hive太重要了，稳定，夜间跑任务，可以满足。
>   - *各位在使用哪个版本的Hive？有计划升级Hive吗？*// cdh5版本 无计划升级
>   - 
> *各位计划切换Hive引擎吗？有时间点吗？当Flink具备什么功能以后你才会考虑使用Flink读写Hive？*//尝试spark引擎跑夜间任务，不稳定。对于性能，不是特别追求，稳定了，就会尝试flink
>  on hive
>   - 
> *各位使用Flink-Hive的动机是什么？只维护一套数据处理系统？使用Flink获取更好的性能？*//技术迭代，当然理想的状况是批流统一，只维护一套数据处理系统。spark的性能已经很棒了，所以追求更好的性能这个对我们不需要。
>   - *各位如何使用Hive？数据量有多大？主要是读，还是读写都有？*//大的表 数据量不小，主要是读
>   - *有多少Hive UDF？都是什么类型？*//挺多
>   - *对项目有什么问题或者建议？*//1）flink on hive 
> 准实时场景下，对性能要求越高越好，相对的数据量不大。2）离线场景下，稳定，而后是性能。3）社区的活跃，排查问题的手段
> 
> 
>-- Original --
>From:  "Bowen Li";
>Date:  Wed, Mar 20, 2019 08:09 AM
>To:  "user-zh"; 
>
>Subject:  [进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs
>
> 
>Flink中文频道的童鞋们，大家好，
>
>*我们想收集下大家对Flink兼容Hive方面的需求和意见*。
>
>背景：去年12月的Flink Forward 中国站上，社区宣布了将推动Flink兼容Hive。今年2.21，在西雅图 Flink Meetup
>上我们做了 “Integrating Flink with Hive”
>的演讲，并进行了现场演示，收到很好的反响。现在已到三月中，我们已经在内部完成了构建Flink崭新的catalog架构，对Hive
>元数据的兼容，和常见的通过Flink 读写
>Hive数据的工作。我们已开始提交相关的PR和设计文档，将已开发的功能输送回社区。欢迎大家参与到项目的各项工作中，如评审设计文档和PR，参与开发和测试。
>
>*当前最重要的事，是我们希望社区的同学们能分享各自对Hive的用法，并给我们的项目提供反馈和建议。*
>我们已开始深入的在某些领域使Flink兼容Hive，各位的反馈和建议可以帮助我们更好地评估各个工作的优先度，从而使我们的用户能更快地得到各位需要的功能。比如，如果绝大多数用户都是以读Hive数据为主，我们就会高优优化读功能。
>
>快速回顾下我们内部已经完成的工作：
>
>   - Flink/Hive 元数据兼容
>  - 统一的、可查简化的catalog架构，用以管理catalog，database，tables, views, functions,
>  partitions, table/partition stats 等元数据
>  - 三种catalog实现：一种默认的内存catalog；HiveCatalog
>  用以兼容Hive生态的元数据；GenericHiveMetastoreCatalog 用以在Hive metastore中持久化 Flink
>  流和批的元数据
>  - 在SQL和table api中支持基于 ..<元数据名称> 的引用方式
>  - 统一的function catalog，并支持Hive 简单的 UDF
>   - Flink/Hive 数据兼容
>  - Hive connector 支持：读取分区和非分去表，partition pruning，Hive简单和复杂数据类型，简单的写
>   - 集成了了上述功能的SQL 客户端
>
>*我们想要了解的是：各位现在如何使用Hive？我们怎么能帮助各位解决问题？各位期待 Flink在兼容Hive中提供哪些功能？比如，*
>
>   - *各位在使用哪个版本的Hive？有计划升级Hive吗？*
>   - *各位计划切换Hive引擎吗？有时间点吗？当Flink具备什么功能以后你才会考虑使用Flink读写Hive？*
>   - *各位使用Flink-Hive的动机是什么？只维护一套数据处理系统？使用Flink获取更好的性能？*
>   - *各位如何使用Hive？数据量有多大？主要是读，还是读写都有？*
>   - *有多少Hive UDF？都是什么类型？*
>   - *对项目有什么问题或者建议？*
>
>大家的建议对我们很重要。我们希望这些工作能真正的尽快惠及社区用户。我们争取这周做个调查问卷，更全面的收集各位的反馈和建议。
>
>Bowen

Re: Re:[进度更新] [讨论] Flink 对 Hive 的兼容和 Catalogs

2019-03-20 Thread ChangTong He

>- *各位在使用哪个版本的Hive？有计划升级Hive吗？*

目前我维护的两套批处理系统分别是CDH5.10.0
和CDH5.13.1，均是hive-1.1.0；去年底搭了一套CDH6给开发做测试，但是目前我们调度大概有5000多个，有可能今年我们做IDC迁移的时候，顺便把集群都升到6的话，应该会升到对应的hive-2.1.1；

>- *各位计划切换Hive引擎吗？有时间点吗？当Flink具备什么功能以后你才会考虑使用Flink读写Hive？*

没有计划，由于我们平台是启用了sentry，所以不知道Flink和sentry的契合度怎么样，批处理的话大部分任务都集中在夜间3-5点，也是最容易出问题的时段，如果Flink能够提供更好的failover能力以及对资源的把控性能更好，应该会考虑

>- *各位使用Flink-Hive的动机是什么？只维护一套数据处理系统？使用Flink获取更好的性能？*

当初我了解Flink-Hive的动机，确实是希望只维护一套数据处理系统，目前我维护公司两个部门的大数据平台，他们批处理各一套，实时又各一套，hive还会通过phoenix写到另外一套hbase集群，脑壳疼

>- *各位如何使用Hive？数据量有多大？主要是读，还是读写都有？*

大部分都MR2，hive on spark的任务较少但是不稳定，数据量TB级，读写都有

>- *有多少Hive UDF？都是什么类型？*

有80多个UDF，看了一下他们的命名感觉大部分都是一些业务逻辑的判断

>- *对项目有什么问题或者建议？*

主要还是追求稳定，以及对hive低版本的兼容吧(之前在给公司做spark-sql
cli测试的时候，可以很明显的感觉到，开发其实是不愿意去改之前的代码的，他们希望的是能不动现有代码的情况下就能平滑的切换到新引擎)
>

王志明 于2019年3月20日周三 下午8:47写道：

> Hi，
>  “Integrating Flink with Hive”确实是一个很大、很好的话题。针对以下几点，我结合自己的工作，pao'zhua
> - *各位在使用哪个版本的Hive？有计划升级Hive吗？*
> 目前用的是Apache Hive1.2，暂无升级Hive的计划
>
> - *各位计划切换Hive引擎吗？有时间点吗？当Flink具备什么功能以后你才会考虑使用Flink读写Hive？*
> 一个是夜间会大批量跑任务，如果Flink读写Hive速度快，可处理数据量大，就会考虑用。
>
> - *各位使用Flink-Hive的动机是什么？只维护一套数据处理系统？使用Flink获取更好的性能？*
> 希望流处理和批处理的核心代码是一套，方便开发，维护、以及数据准确性。
>
> - *各位如何使用Hive？数据量有多大？主要是读，还是读写都有？*
> 希望是用 Flink on Hive 的方式，数据量有TB级，读写都有
>
>
>
>
>
>
>
>
> 在 2019-03-20 09:28:55，"董鹏"  写道：
> >1、首先对flink纳入阿里麾下表示很兴奋，针对以下问题，根据我的一些经验，抛砖引玉：
> >hive太重要了，稳定，夜间跑任务，可以满足。
> >   - *各位在使用哪个版本的Hive？有计划升级Hive吗？*// cdh5版本 无计划升级
> >   -
> *各位计划切换Hive引擎吗？有时间点吗？当Flink具备什么功能以后你才会考虑使用Flink读写Hive？*//尝试spark引擎跑夜间任务，不稳定。对于性能，不是特别追求，稳定了，就会尝试flink
> on hive
> >   -
> *各位使用Flink-Hive的动机是什么？只维护一套数据处理系统？使用Flink获取更好的性能？*//技术迭代，当然理想的状况是批流统一，只维护一套数据处理系统。spark的性能已经很棒了，所以追求更好的性能这个对我们不需要。
> >   - *各位如何使用Hive？数据量有多大？主要是读，还是读写都有？*//大的表 数据量不小，主要是读
> >   - *有多少Hive UDF？都是什么类型？*//挺多
> >   - *对项目有什么问题或者建议？*//1）flink on hive
> 准实时场景下，对性能要求越高越好，相对的数据量不大。2）离线场景下，稳定，而后是性能。3）社区的活跃，排查问题的手段
> >
> >
> >-- Original --
> >From:  "Bowen Li";
> >Date:  Wed, Mar 20, 2019 08:09 AM
> >To:  "user-zh";
> >
> >Subject:  [进度更新] [讨论] Flink 对 Hive 的兼容 和 Catalogs
> >
> >
> >Flink中文频道的童鞋们，大家好，
> >
> >*我们想收集下大家对Flink兼容Hive方面的需求和意见*。
> >
> >背景：去年12月的Flink Forward 中国站上，社区宣布了将推动Flink兼容Hive。今年2.21，在西雅图 Flink Meetup
> >上我们做了 “Integrating Flink with Hive”
> >的演讲，并进行了现场演示，收到很好的反响。现在已到三月中，我们已经在内部完成了构建Flink崭新的catalog架构，对Hive
> >元数据的兼容，和常见的通过Flink 读写
>
> >Hive数据的工作。我们已开始提交相关的PR和设计文档，将已开发的功能输送回社区。欢迎大家参与到项目的各项工作中，如评审设计文档和PR，参与开发和测试。
> >
> >*当前最重要的事，是我们希望社区的同学们能分享各自对Hive的用法，并给我们的项目提供反馈和建议。*
>
> >我们已开始深入的在某些领域使Flink兼容Hive，各位的反馈和建议可以帮助我们更好地评估各个工作的优先度，从而使我们的用户能更快地得到各位需要的功能。比如，如果绝大多数用户都是以读Hive数据为主，我们就会高优优化读功能。
> >
> >快速回顾下我们内部已经完成的工作：
> >
> >   - Flink/Hive 元数据兼容
> >  - 统一的、可查简化的catalog架构，用以管理catalog，database，tables, views, functions,
> >  partitions, table/partition stats 等元数据
> >  - 三种catalog实现：一种默认的内存catalog；HiveCatalog
> >  用以兼容Hive生态的元数据；GenericHiveMetastoreCatalog 用以在Hive metastore中持久化
> Flink
> >  流和批的元数据
> >  - 在SQL和table api中支持基于 ..<元数据名称> 的引用方式
> >  - 统一的function catalog，并支持Hive 简单的 UDF
> >   - Flink/Hive 数据兼容
> >  - Hive connector 支持：读取分区和非分去表，partition pruning，Hive简单和复杂数据类型，简单的写
> >   - 集成了了上述功能的SQL 客户端
> >
> >*我们想要了解的是：各位现在如何使用Hive？我们怎么能帮助各位解决问题？各位期待 Flink在兼容Hive中提供哪些功能？比如，*
> >
> >   - *各位在使用哪个版本的Hive？有计划升级Hive吗？*
> >   - *各位计划切换Hive引擎吗？有时间点吗？当Flink具备什么功能以后你才会考虑使用Flink读写Hive？*
> >   - *各位使用Flink-Hive的动机是什么？只维护一套数据处理系统？使用Flink获取更好的性能？*
> >   - *各位如何使用Hive？数据量有多大？主要是读，还是读写都有？*
> >   - *有多少Hive UDF？都是什么类型？*
> >   - *对项目有什么问题或者建议？*
> >
> >大家的建议对我们很重要。我们希望这些工作能真正的尽快惠及社区用户。我们争取这周做个调查问卷，更全面的收集各位的反馈和建议。
> >
> >Bowen
>

Re: [PROGRESS UPDATE] [DISCUSS] Flink-Hive Integration and Catalogs

2019-03-20 Thread Bowen Li

Thanks, Shaoxuan! I've sent a Chinese version to user-zh at the same time
yesterday.

>From feedbacks we received so far, supporting multiple older hive versions
is definitely one of our focuses next.

*More feedbacks are welcome from our community!*


On Tue, Mar 19, 2019 at 8:44 PM Shaoxuan Wang  wrote:

> Hi Bowen,
> Thanks for driving this. I am CCing this email/survey to user-zh@
> flink.apache.org as well.
> I heard there are lots of interests on Flink-Hive from the field. One of
> the biggest requests the hive users are raised is "the support of
> out-of-date hive version". A large amount of users are still working on the
> cluster with CDH/HDP installed with old hive version, say 1.2.1/2.1.1. We
> need ensure the support of these Hive version when planning the work on
> Flink-Hive integration.
>
> *@all. "We want to get your feedbacks on Flink-Hive integration." *
>
> Regards,
> Shaoxuan
>
> On Wed, Mar 20, 2019 at 7:16 AM Bowen Li  wrote:
>
>> Hi Flink users and devs,
>>
>> We want to get your feedbacks on integrating Flink with Hive.
>>
>> Background: In Flink Forward in Beijing last December, the community
>> announced to initiate efforts on integrating Flink and Hive. On Feb 21 
>> Seattle
>> Flink Meetup ,
>> We presented Integrating Flink with Hive
>> 
>>  with
>> a live demo to local community and got great response. As of mid March now,
>> we have internally finished building Flink's brand-new catalog
>> infrastructure, metadata integration with Hive, and most common cases of
>> Flink reading/writing against Hive, and will start to submit more design
>> docs/FLIP and contribute code back to community. The reason for doing it
>> internally first and then in community is to ensure our proposed solutions
>> are fully validated and tested, gain hands-on experience and not miss
>> anything in design. You are very welcome to join this effort, from
>> design/code review, to development and testing.
>>
>> *The most important thing we believe you, our Flink users/devs, can help
>> RIGHT NOW is to share your Hive use cases and give us feedbacks for this
>> project. As we start to go deeper on specific areas of integration, you
>> feedbacks and suggestions will help us to refine our backlogs and
>> prioritize our work, and you can get the features you want sooner! *Just
>> for example, if most users is mainly only reading Hive data, then we can
>> prioritize tuning read performance over implementing write capability.
>> A quick review of what we've finished building internally and is ready to
>> contribute back to community:
>>
>>- Flink/Hive Metadata Integration
>>   - Unified, pluggable catalog infra that manages meta-objects,
>>   including catalogs, databases, tables, views, functions, partitions,
>>   table/partition stats
>>   - Three catalog impls - A in-memory catalog, HiveCatalog for
>>   embracing Hive ecosystem, GenericHiveMetastoreCatalog for persisting
>>   Flink's streaming/batch metadata in Hive metastore
>>   - Hierarchical metadata reference as
>>   .. in SQL and Table API
>>   - Unified function catalog based on new catalog infra, also
>>   support Hive simple UDF
>>- Flink/Hive Data Integration
>>   - Hive data connector that reads partitioned/non-partitioned Hive
>>   tables, and supports partition pruning, both Hive simple and complex 
>> data
>>   types, and basic write
>>- More powerful SQL Client fully integrated with the above features
>>and more Hive-compatible SQL syntax for better end-to-end SQL experience
>>
>> *Given above info, we want to learn from you on: How do you use Hive
>> currently? How can we solve your pain points? What features do you expect
>> from Flink-Hive integration? Those can be details like:*
>>
>>- *Which Hive version are you using? Do you plan to upgrade Hive?*
>>- *Are you planning to switch Hive engine? What timeline are you
>>looking at? Until what capabilities Flink has will you consider using 
>> Flink
>>with Hive?*
>>- *What's your motivation to try Flink-Hive? Maintain only one data
>>processing system across your teams for simplicity and maintainability?
>>Better performance of Flink over Hive itself?*
>>- *What are your Hive use cases? How large is your Hive data size? Do
>>you mainly do reading, or both reading and writing?*
>>- *How many Hive user defined functions do you have? Are they mostly
>>UDF, GenericUDF, or UDTF, or UDAF?*
>>- any questions or suggestions you have? or as simple as how you feel
>>about the project
>>
>> Again, your input will be really valuable to us, and we hope, with all of
>> us working together, the project can benefits our end users. Please feel
>> free to either reply to this thread or just to me. I'm also working on
>>

Re: [进度更新] [讨论] Flink 对 Hive 的兼容和 Catalogs

Re: [进度更新] [讨论] Flink 对 Hive 的兼容和 Catalogs

Re: FlinkKafkaConsumer 为什么不支持制定分区消费

Re: [PROGRESS UPDATE] [DISCUSS] Flink-Hive Integration and Catalogs

Re:Re: [进度更新] [讨论] Flink 对 Hive 的兼容和 Catalogs

?????? FlinkKafkaConsumer ????????????????????????

Re:Re:[进度更新] [讨论] Flink 对 Hive 的兼容和 Catalogs

Re: Re:[进度更新] [讨论] Flink 对 Hive 的兼容和 Catalogs

Re: [PROGRESS UPDATE] [DISCUSS] Flink-Hive Integration and Catalogs

9 matches

Site Navigation

Mail list logo

Footer information