退订
Px New <15701181132mr@gmail.com> 于2024年7月16日周二 22:52写道:
> 通过老的API 也就是 InputFormatSourceFunction、InputFormat
> 实现了一版,但发现第一批文件(任务启动时也已存在的文件)会正常处理,但我新上传文件后,这里一直为空,有解决思路吗?请问
>
> [image: image.png]
>
> 或者有其他实现 ftp 目录实时读取的实现吗?尽可能满足
> 1. 实时读取 ftp 文件
> 2. 支持持续监测目录及递归子目录与文件3.
> 3.
通过老的API 也就是 InputFormatSourceFunction、InputFormat
实现了一版,但发现第一批文件(任务启动时也已存在的文件)会正常处理,但我新上传文件后,这里一直为空,有解决思路吗?请问
[image: image.png]
或者有其他实现 ftp 目录实时读取的实现吗?尽可能满足
1. 实时读取 ftp 文件
2. 支持持续监测目录及递归子目录与文件3.
3. 支持并行读取以及大文件的切分
4. 文件种类可能有 json、txt、zip 等,支持读取不同类型文件内的数据
5. 支持断点续传以及状态的保存
上面的示例好像使用的旧版本的 kafka connector 参数。
参考文档使用新版本的参数:
https://nightlies.apache.org/flink/flink-docs-master/docs/connectors/table/hive/hive_catalog/#step-4-create-a-kafka-table-with-flink-sql-ddl
需要把 kafka 的 connector [1] 也放入到 lib 目录下。
[1]
lib目录下,需要放置一下flink-sql-connector-hive-3.1.3,这个包是给sql作业用的
--
Best!
Xuyang
在 2024-07-16 13:40:23,"冯奇" 写道:
>我看了下文档,几个包都在,还有一个单独下载依赖的包flink-sql-connector-hive-3.1.3,不知道是使用这个还是下面的?
>// Flink's Hive connector flink-connector-hive_2.12-1.19.1.jar // Hive
>dependencies