【发布时间】:2018-03-18 06:38:25
【问题描述】:
我正在尝试使用 file 作为我的 kafka 生产者。源文件不断增长(比如每秒 20 条记录/行)。以下是与我的问题类似的帖子:
How to write a file to Kafka Producer
但在这种情况下,每次在文件中插入新行时,都会读取整个文件并将其添加到 Kafka 主题中。我只希望将新附加的行发送到主题(即,如果文件已经包含 10 行并且附加了 4 行,则只需将这 4 行发送到主题)。
有没有办法做到这一点??
尝试了其他解决方案:
Apache Flume 使用 source type 作为 'spooldir'。但它没有用,因为它从添加到目录的新文件中读取数据,而不是在将数据附加到已读取文件时读取数据。
我们还尝试将 Flume source type 作为“exec”,将 command 作为“tail –F /path/file-name”。这似乎也不起作用。
也欢迎使用任何其他工具的建议,因为我的目标是实时读取文件中的数据(即,我需要数据一插入文件) .
【问题讨论】:
-
你尝试过来自 Kafka Connect 的 FileSource Connector 吗?
-
感谢黄钦。我不知道连接器。它工作:)
标签: apache-kafka real-time flume