在 Kafka 和其他流技术中进行过滤
Filtering in Kafka and other streaming technologies
我目前正在研究使用哪种流处理技术。到目前为止,我已经了解了消息队列技术和流式框架。我现在倾向于 Apache Kafka 或 Google Pub/Sub.
我的要求:
- 实时交付、阅读和处理messages/events。
- 坚持 messages/events。
- 无需阅读整个主题即可实时过滤 messages/event 的能力。例如:如果我有一个名为“详细信息”的主题,我希望能够从该主题中过滤掉事件属性等于特定值的 messages/events。
- 能够查看特定主题或队列的生产者是否已完成。
- 能够根据事件中等于特定值的属性删除主题中的 messages/events。
- 在 messages/events 订购。
我的问题是:什么是最适合这些用例的 framework/technology?从我目前所读的内容来看,Kafka 没有为主题中的 messages/events 提供开箱即用的过滤方法,而 Google Pub/Sub 确实有一种过滤方法。
欢迎任何建议和经验。
根据您提到的要求,kafka 似乎很合适,使用 kafka 流或 KSQL 您可以实时执行过滤,这是一个示例 https://kafka-tutorials.confluent.io/filter-a-stream-of-events/confluent.html
您需要的不仅仅是集成和数据传输,您需要类似于所谓的 ETL 工具的东西,在这里您可以找到有关 GCP 中 ETL 和工具的更多信息 https://cloud.google.com/learn/what-is-etl
我目前正在研究使用哪种流处理技术。到目前为止,我已经了解了消息队列技术和流式框架。我现在倾向于 Apache Kafka 或 Google Pub/Sub.
我的要求:
- 实时交付、阅读和处理messages/events。
- 坚持 messages/events。
- 无需阅读整个主题即可实时过滤 messages/event 的能力。例如:如果我有一个名为“详细信息”的主题,我希望能够从该主题中过滤掉事件属性等于特定值的 messages/events。
- 能够查看特定主题或队列的生产者是否已完成。
- 能够根据事件中等于特定值的属性删除主题中的 messages/events。
- 在 messages/events 订购。
我的问题是:什么是最适合这些用例的 framework/technology?从我目前所读的内容来看,Kafka 没有为主题中的 messages/events 提供开箱即用的过滤方法,而 Google Pub/Sub 确实有一种过滤方法。
欢迎任何建议和经验。
根据您提到的要求,kafka 似乎很合适,使用 kafka 流或 KSQL 您可以实时执行过滤,这是一个示例 https://kafka-tutorials.confluent.io/filter-a-stream-of-events/confluent.html
您需要的不仅仅是集成和数据传输,您需要类似于所谓的 ETL 工具的东西,在这里您可以找到有关 GCP 中 ETL 和工具的更多信息 https://cloud.google.com/learn/what-is-etl