Re: [I] [Feature][Connector-v2][Hudi] Support Hudi Source [seatunnel]

via GitHub Mon, 12 Jan 2026 22:21:19 -0800


zhangshenghang commented on issue #10227:
URL: https://github.com/apache/seatunnel/issues/10227#issuecomment-3742187302


   <!-- seatunnel-pr-reviewer -->
   我先搜索一下当前代码库中 Hudi 相关的实现情况，以便给出准确的答复。
   
   让我查看一下 Hudi connector 的具体实现和配置：
   
   让我再检查一下 Hudi connector 的目录结构和是否有任何 Source 相关的代码：
   
   让我查看 Hudi 0.14+ 是否有引入不依赖引擎的读取能力：
   
   根据我对代码库的分析，我现在可以给出回复了。以下是适合直接发布到 Issue 评论区的内容：
   
   ---
   
   感谢关注 Hudi Source 功能！
   
   **当前状况：**
   目前 SeaTunnel 的 Hudi connector (v0.15.0) 仅实现了 Sink 功能，确实没有 Source。历史上移除 Hudi 
Source 的原因是它强依赖 Spark/Spark 引擎，违背了 Connector 不绑定特定引擎的设计原则。
   
   **可行性评估：**
   Hudi 社区已在较新版本中提供了更通用的 Java API（如 `hudi-java-client`），理论上为独立实现 Source 
提供了可能。但主要挑战在于：
   1. 需要基于 Hudi 的 Java Client 实现增量读取、时间旅行查询等核心能力
   2. 要处理不同表类型（COW/MOR）的数据读取逻辑
   3. 需确保与 Spark/Flink 引擎解耦
   
   **建议：**
   如果您有强烈的业务需求，欢迎贡献 PR！建议先参考现有 Sink 的实现（`HudiSinkFactory`、`HudiSink`）和 Hudi 
Java Client API 进行技术预研，评估工作量后再设计 Source 接口。
   
   **请问您的使用场景：**
   - 需要读取哪种 Hudi 表类型（Copy On Write 或 Merge On Read）？
   - 是否需要支持增量读取（CDC）还是仅全量读取？
   
   _1768285269120_


-- 
This is an automated message from the Apache Git Service.
To respond to the message, please log on to GitHub and use the
URL above to go to the specific comment.

To unsubscribe, e-mail: [email protected]

For queries about this service, please contact Infrastructure at:
[email protected]

Re: [I] [Feature][Connector-v2][Hudi] Support Hudi Source [seatunnel]

Reply via email to