如何使用kafka轮询远程目录中的新文件

java apache-kafka message-queue rsync

1259 观看

1回复

1738 作者的声誉

我在远程位置上有一个文件夹,并且其他一些过程不断在其中放置文件。

我正在编写一个应用程序来下载每个新文件并进行处理。

目前,我正在下载rsync上一个小时创建的文件并进行处理。

但是我需要一个解决方案,将新文件的名称放入队列,然后我的使用者从队列中获取名称,下载文件并进行处理。

在此解决方案中,我可以运行多个生产者,这些生产者仅在kafka队列上进行轮询。

作者: hard coder 的来源 发布者: 2017 年 9 月 15 日

回应 1


3

7545 作者的声誉

您是否考虑过使用Kafka Connect?有一些连接器完全可以满足您的需要:监视目录中的新文件,并将其内容记录直接记录到Kafka中。例如:https : //github.com/jcustenborder/kafka-connect-spooldir

或更简单的连接器仅放置新的/修改的文件元数据:https : //github.com/DataReply/kafka-connect-directory-source

作者: Mariusz 发布者: 2017 年 9 月 16 日
32x32