回复:flink 历史数据join

2020-05-16 文章 jimandlice
使用sql api的方式




| |
jimandlice
|
|
邮箱:jimandl...@163.com
|

Signature is customized by Netease Mail Master

在2020年05月16日 22:51,jimandlice 写道:
大佬 你好 ! kafka 写入hive 您这边demo么 我这边 只完成了hdfs 应该可以写到hive上去 能提供一个demo么
在 2020-05-15 19:41:59,"zhisheng"  写道:
>看看 Flink UI 上 作业 task 的 sent 和 receive
>的数据是否还在变更一般可以知道作业是否还在进行,等不动了,则意味着你这两个表固定的数据都已经 join 完了,等 checkpoint 也
>complete 完成了即可以停掉作业。
>
>实在不放心,不知道啥时候跑完,可以晚上开始跑,第二天白天再去看看就好了
>
>jimandlice  于2020年5月15日周五 下午7:38写道:
>
>> 是的 我想用datastrem 来做  join停的话 需要注意什么
>>
>>
>>
>>
>> | |
>> jimandlice
>> |
>> |
>> 邮箱:jimandl...@163.com
>> |
>>
>> Signature is customized by Netease Mail Master
>>
>> 在2020年05月15日 19:36,zhisheng 写道:
>> 所以现在纠结的是使用 DataStream 还是 DataSet ?
>>
>> 可以使用 DataStream,作业 join 完了停掉作业就行了。
>>
>> 小黑  于2020年5月15日周五 下午3:28写道:
>>
>> >
>> > 先工作上有一个需求  2个数据源 一个是mysql 一个是Hbase 2者上 有很多历史数据 这2个数据源上 已经没有数据写入了 都是历史数据
>> > 现在要把这2个数据源的某两张张表 进行join 生成之后的数据 存在放在hdfs上 导入到hive上去现在就是不知道
>> > 是用datatream还是dataset  没有一个很好的 解决方案 望给与回复
>> >
>> >
>> >
>> >
>> >
>>


回复:flink 历史数据join

2020-05-15 文章 jimandlice
好的 谢谢哈 我先试一试 有问题在和你说哈




| |
jimandlice
|
|
邮箱:jimandl...@163.com
|

Signature is customized by Netease Mail Master

在2020年05月15日 19:41,zhisheng 写道:
看看 Flink UI 上 作业 task 的 sent 和 receive
的数据是否还在变更一般可以知道作业是否还在进行,等不动了,则意味着你这两个表固定的数据都已经 join 完了,等 checkpoint 也
complete 完成了即可以停掉作业。

实在不放心,不知道啥时候跑完,可以晚上开始跑,第二天白天再去看看就好了

jimandlice  于2020年5月15日周五 下午7:38写道:

> 是的 我想用datastrem 来做  join停的话 需要注意什么
>
>
>
>
> | |
> jimandlice
> |
> |
> 邮箱:jimandl...@163.com
> |
>
> Signature is customized by Netease Mail Master
>
> 在2020年05月15日 19:36,zhisheng 写道:
> 所以现在纠结的是使用 DataStream 还是 DataSet ?
>
> 可以使用 DataStream,作业 join 完了停掉作业就行了。
>
> 小黑  于2020年5月15日周五 下午3:28写道:
>
> >
> > 先工作上有一个需求  2个数据源 一个是mysql 一个是Hbase 2者上 有很多历史数据 这2个数据源上 已经没有数据写入了 都是历史数据
> > 现在要把这2个数据源的某两张张表 进行join 生成之后的数据 存在放在hdfs上 导入到hive上去现在就是不知道
> > 是用datatream还是dataset  没有一个很好的 解决方案 望给与回复
> >
> >
> >
> >
> >
>


回复:flink 历史数据join

2020-05-15 文章 jimandlice
是的 我想用datastrem 来做  join停的话 需要注意什么




| |
jimandlice
|
|
邮箱:jimandl...@163.com
|

Signature is customized by Netease Mail Master

在2020年05月15日 19:36,zhisheng 写道:
所以现在纠结的是使用 DataStream 还是 DataSet ?

可以使用 DataStream,作业 join 完了停掉作业就行了。

小黑  于2020年5月15日周五 下午3:28写道:

>
> 先工作上有一个需求  2个数据源 一个是mysql 一个是Hbase 2者上 有很多历史数据 这2个数据源上 已经没有数据写入了 都是历史数据
> 现在要把这2个数据源的某两张张表 进行join 生成之后的数据 存在放在hdfs上 导入到hive上去现在就是不知道
> 是用datatream还是dataset  没有一个很好的 解决方案 望给与回复
>
>
>
>
>


回复:flink 历史数据join

2020-05-15 文章 shao.hongxiao
底层原理都一样,你要封装接口动态生成映射表,sql等
| |
邵红晓
|
|
邮箱:17611022...@163.com
|
签名由网易邮箱大师定制
在2020年5月15日 15:42,jimandlice 写道:
2个不同源的历史数据同步   需要join  这个不是给开发者用的 是客户用的 客户只要选择2个数据源的2个表 join 结果保存  难道还要用sql来做么




| |
jimandlice
|
|
邮箱:jimandl...@163.com
|

Signature is customized by Netease Mail Master

在2020年05月15日 15:39,shao.hongxiao 写道:
1. 搞hive映射表,直接使用spark或者hive sql


| |
邵红晓
|
|
邮箱:17611022...@163.com
|
签名由网易邮箱大师定制
在2020年5月15日 15:31,jimandlice 写道:
如果要集成公司产品呢




| |
jimandlice
|
|
邮箱:jimandl...@163.com
|

Signature is customized by Netease Mail Master

在2020年05月15日 15:30,shao.hongxiao 写道:
可以直接注册表,然后写sql来弄




| |
邵红晓
|
|
邮箱:17611022...@163.com
|

签名由 网易邮箱大师 定制

在2020年05月15日 13:17,jimandlice 写道:
就是要用api的方式来继承 不是直接操作sql那样来出来




| |
jimandlice
|
|
邮箱:jimandl...@163.com
|

Signature is customized by Netease Mail Master

在2020年05月15日 11:38,jimandlice 写道:
api 做 还是用table sql 来做 谁做比较好集成 因为都要用来join 之后数据写入 hdfs 当中 因为刚刚接手 有很多不太明白 望给予帮助 谢谢




| |
jimandlice
|
|
邮箱:jimandl...@163.com
|

Signature is customized by Netease Mail Master

在2020年05月15日 11:34,Benchao Li 写道:
看起来就是一个异构数据源join的需求吧。
可以直接用Flink SQL尝试一下。Flink SQL现在有batch读取Hbase、Mysql的能力,也有写入Hive的能力。

jimandlice  于2020年5月15日周五 上午11:16写道:

先工作上有一个需求  2个数据源 一个是mysql 一个是Hbase 2者上 有很多历史数据 这2个数据源上 已经没有数据写入了 都是历史数据
现在要把这2个数据源的某两张张表 进行join 生成之后的数据 存在放在hdfs上 导入到hive上去现在就是不知道
是用datatream还是dataset  没有一个很好的 解决方案 望给与回复



| |
jimandlice
|
|
邮箱:jimandl...@163.com
|

Signature is customized by Netease Mail Master



--

Benchao Li
School of Electronics Engineering and Computer Science, Peking University
Tel:+86-15650713730
Email: libenc...@gmail.com; libenc...@pku.edu.cn


回复:flink 历史数据join

2020-05-15 文章 jimandlice
2个不同源的历史数据同步   需要join  这个不是给开发者用的 是客户用的 客户只要选择2个数据源的2个表 join 结果保存  难道还要用sql来做么




| |
jimandlice
|
|
邮箱:jimandl...@163.com
|

Signature is customized by Netease Mail Master

在2020年05月15日 15:39,shao.hongxiao 写道:
1. 搞hive映射表,直接使用spark或者hive sql


| |
邵红晓
|
|
邮箱:17611022...@163.com
|
签名由网易邮箱大师定制
在2020年5月15日 15:31,jimandlice 写道:
如果要集成公司产品呢




| |
jimandlice
|
|
邮箱:jimandl...@163.com
|

Signature is customized by Netease Mail Master

在2020年05月15日 15:30,shao.hongxiao 写道:
可以直接注册表,然后写sql来弄




| |
邵红晓
|
|
邮箱:17611022...@163.com
|

签名由 网易邮箱大师 定制

在2020年05月15日 13:17,jimandlice 写道:
就是要用api的方式来继承 不是直接操作sql那样来出来




| |
jimandlice
|
|
邮箱:jimandl...@163.com
|

Signature is customized by Netease Mail Master

在2020年05月15日 11:38,jimandlice 写道:
api 做 还是用table sql 来做 谁做比较好集成 因为都要用来join 之后数据写入 hdfs 当中 因为刚刚接手 有很多不太明白 望给予帮助 谢谢




| |
jimandlice
|
|
邮箱:jimandl...@163.com
|

Signature is customized by Netease Mail Master

在2020年05月15日 11:34,Benchao Li 写道:
看起来就是一个异构数据源join的需求吧。
可以直接用Flink SQL尝试一下。Flink SQL现在有batch读取Hbase、Mysql的能力,也有写入Hive的能力。

jimandlice  于2020年5月15日周五 上午11:16写道:

先工作上有一个需求  2个数据源 一个是mysql 一个是Hbase 2者上 有很多历史数据 这2个数据源上 已经没有数据写入了 都是历史数据
现在要把这2个数据源的某两张张表 进行join 生成之后的数据 存在放在hdfs上 导入到hive上去现在就是不知道
是用datatream还是dataset  没有一个很好的 解决方案 望给与回复



| |
jimandlice
|
|
邮箱:jimandl...@163.com
|

Signature is customized by Netease Mail Master



--

Benchao Li
School of Electronics Engineering and Computer Science, Peking University
Tel:+86-15650713730
Email: libenc...@gmail.com; libenc...@pku.edu.cn


回复:flink 历史数据join

2020-05-15 文章 shao.hongxiao
1. 搞hive映射表,直接使用spark或者hive sql


| |
邵红晓
|
|
邮箱:17611022...@163.com
|
签名由网易邮箱大师定制
在2020年5月15日 15:31,jimandlice 写道:
如果要集成公司产品呢




| |
jimandlice
|
|
邮箱:jimandl...@163.com
|

Signature is customized by Netease Mail Master

在2020年05月15日 15:30,shao.hongxiao 写道:
可以直接注册表,然后写sql来弄




| |
邵红晓
|
|
邮箱:17611022...@163.com
|

签名由 网易邮箱大师 定制

在2020年05月15日 13:17,jimandlice 写道:
就是要用api的方式来继承 不是直接操作sql那样来出来




| |
jimandlice
|
|
邮箱:jimandl...@163.com
|

Signature is customized by Netease Mail Master

在2020年05月15日 11:38,jimandlice 写道:
api 做 还是用table sql 来做 谁做比较好集成 因为都要用来join 之后数据写入 hdfs 当中 因为刚刚接手 有很多不太明白 望给予帮助 谢谢




| |
jimandlice
|
|
邮箱:jimandl...@163.com
|

Signature is customized by Netease Mail Master

在2020年05月15日 11:34,Benchao Li 写道:
看起来就是一个异构数据源join的需求吧。
可以直接用Flink SQL尝试一下。Flink SQL现在有batch读取Hbase、Mysql的能力,也有写入Hive的能力。

jimandlice  于2020年5月15日周五 上午11:16写道:

先工作上有一个需求  2个数据源 一个是mysql 一个是Hbase 2者上 有很多历史数据 这2个数据源上 已经没有数据写入了 都是历史数据
现在要把这2个数据源的某两张张表 进行join 生成之后的数据 存在放在hdfs上 导入到hive上去现在就是不知道
是用datatream还是dataset  没有一个很好的 解决方案 望给与回复



| |
jimandlice
|
|
邮箱:jimandl...@163.com
|

Signature is customized by Netease Mail Master



--

Benchao Li
School of Electronics Engineering and Computer Science, Peking University
Tel:+86-15650713730
Email: libenc...@gmail.com; libenc...@pku.edu.cn


回复:flink 历史数据join

2020-05-15 文章 jimandlice
如果要集成公司产品呢




| |
jimandlice
|
|
邮箱:jimandl...@163.com
|

Signature is customized by Netease Mail Master

在2020年05月15日 15:30,shao.hongxiao 写道:
可以直接注册表,然后写sql来弄




| |
邵红晓
|
|
邮箱:17611022...@163.com
|

签名由 网易邮箱大师 定制

在2020年05月15日 13:17,jimandlice 写道:
就是要用api的方式来继承 不是直接操作sql那样来出来




| |
jimandlice
|
|
邮箱:jimandl...@163.com
|

Signature is customized by Netease Mail Master

在2020年05月15日 11:38,jimandlice 写道:
api 做 还是用table sql 来做 谁做比较好集成 因为都要用来join 之后数据写入 hdfs 当中 因为刚刚接手 有很多不太明白 望给予帮助 谢谢




| |
jimandlice
|
|
邮箱:jimandl...@163.com
|

Signature is customized by Netease Mail Master

在2020年05月15日 11:34,Benchao Li 写道:
看起来就是一个异构数据源join的需求吧。
可以直接用Flink SQL尝试一下。Flink SQL现在有batch读取Hbase、Mysql的能力,也有写入Hive的能力。

jimandlice  于2020年5月15日周五 上午11:16写道:

> 先工作上有一个需求  2个数据源 一个是mysql 一个是Hbase 2者上 有很多历史数据 这2个数据源上 已经没有数据写入了 都是历史数据
> 现在要把这2个数据源的某两张张表 进行join 生成之后的数据 存在放在hdfs上 导入到hive上去现在就是不知道
> 是用datatream还是dataset  没有一个很好的 解决方案 望给与回复
>
>
>
> | |
> jimandlice
> |
> |
> 邮箱:jimandl...@163.com
> |
>
> Signature is customized by Netease Mail Master



--

Benchao Li
School of Electronics Engineering and Computer Science, Peking University
Tel:+86-15650713730
Email: libenc...@gmail.com; libenc...@pku.edu.cn


回复:flink 历史数据join

2020-05-15 文章 shao.hongxiao
可以直接注册表,然后写sql来弄




| |
邵红晓
|
|
邮箱:17611022...@163.com
|

签名由 网易邮箱大师 定制

在2020年05月15日 13:17,jimandlice 写道:
就是要用api的方式来继承 不是直接操作sql那样来出来




| |
jimandlice
|
|
邮箱:jimandl...@163.com
|

Signature is customized by Netease Mail Master

在2020年05月15日 11:38,jimandlice 写道:
api 做 还是用table sql 来做 谁做比较好集成 因为都要用来join 之后数据写入 hdfs 当中 因为刚刚接手 有很多不太明白 望给予帮助 谢谢




| |
jimandlice
|
|
邮箱:jimandl...@163.com
|

Signature is customized by Netease Mail Master

在2020年05月15日 11:34,Benchao Li 写道:
看起来就是一个异构数据源join的需求吧。
可以直接用Flink SQL尝试一下。Flink SQL现在有batch读取Hbase、Mysql的能力,也有写入Hive的能力。

jimandlice  于2020年5月15日周五 上午11:16写道:

> 先工作上有一个需求  2个数据源 一个是mysql 一个是Hbase 2者上 有很多历史数据 这2个数据源上 已经没有数据写入了 都是历史数据
> 现在要把这2个数据源的某两张张表 进行join 生成之后的数据 存在放在hdfs上 导入到hive上去现在就是不知道
> 是用datatream还是dataset  没有一个很好的 解决方案 望给与回复
>
>
>
> | |
> jimandlice
> |
> |
> 邮箱:jimandl...@163.com
> |
>
> Signature is customized by Netease Mail Master



--

Benchao Li
School of Electronics Engineering and Computer Science, Peking University
Tel:+86-15650713730
Email: libenc...@gmail.com; libenc...@pku.edu.cn


回复:flink 历史数据join

2020-05-14 文章 jimandlice
就是要用api的方式来继承 不是直接操作sql那样来出来




| |
jimandlice
|
|
邮箱:jimandl...@163.com
|

Signature is customized by Netease Mail Master

在2020年05月15日 11:38,jimandlice 写道:
api 做 还是用table sql 来做 谁做比较好集成 因为都要用来join 之后数据写入 hdfs 当中 因为刚刚接手 有很多不太明白 望给予帮助 谢谢




| |
jimandlice
|
|
邮箱:jimandl...@163.com
|

Signature is customized by Netease Mail Master

在2020年05月15日 11:34,Benchao Li 写道:
看起来就是一个异构数据源join的需求吧。
可以直接用Flink SQL尝试一下。Flink SQL现在有batch读取Hbase、Mysql的能力,也有写入Hive的能力。

jimandlice  于2020年5月15日周五 上午11:16写道:

> 先工作上有一个需求  2个数据源 一个是mysql 一个是Hbase 2者上 有很多历史数据 这2个数据源上 已经没有数据写入了 都是历史数据
> 现在要把这2个数据源的某两张张表 进行join 生成之后的数据 存在放在hdfs上 导入到hive上去现在就是不知道
> 是用datatream还是dataset  没有一个很好的 解决方案 望给与回复
>
>
>
> | |
> jimandlice
> |
> |
> 邮箱:jimandl...@163.com
> |
>
> Signature is customized by Netease Mail Master



--

Benchao Li
School of Electronics Engineering and Computer Science, Peking University
Tel:+86-15650713730
Email: libenc...@gmail.com; libenc...@pku.edu.cn


回复:flink 历史数据join

2020-05-14 文章 jimandlice
api 做 还是用table sql 来做 谁做比较好集成 因为都要用来join 之后数据写入 hdfs 当中 因为刚刚接手 有很多不太明白 望给予帮助 谢谢




| |
jimandlice
|
|
邮箱:jimandl...@163.com
|

Signature is customized by Netease Mail Master

在2020年05月15日 11:34,Benchao Li 写道:
看起来就是一个异构数据源join的需求吧。
可以直接用Flink SQL尝试一下。Flink SQL现在有batch读取Hbase、Mysql的能力,也有写入Hive的能力。

jimandlice  于2020年5月15日周五 上午11:16写道:

> 先工作上有一个需求  2个数据源 一个是mysql 一个是Hbase 2者上 有很多历史数据 这2个数据源上 已经没有数据写入了 都是历史数据
> 现在要把这2个数据源的某两张张表 进行join 生成之后的数据 存在放在hdfs上 导入到hive上去现在就是不知道
> 是用datatream还是dataset  没有一个很好的 解决方案 望给与回复
>
>
>
> | |
> jimandlice
> |
> |
> 邮箱:jimandl...@163.com
> |
>
> Signature is customized by Netease Mail Master



--

Benchao Li
School of Electronics Engineering and Computer Science, Peking University
Tel:+86-15650713730
Email: libenc...@gmail.com; libenc...@pku.edu.cn