pcap 到 Hadoop 上的 Avro

pcap to Avro on Hadoop

我想知道是否有任何方法可以将 pcap 文件转换为 avro ,以便 我可以使用 hadoop 在 avro 数据上编写 map reduce 程序吗?

否则在 hadoop 上处理 pcap 文件的最佳实践是什么?

谢谢

pcap 文件是记录的集合,每个记录都包含时间戳、数据包长度字段、“实际捕获和保存的数据包的数据量”长度字段,以及原始数据包数据的非结构化 blob。

Avro documentation 说:

Avro provides:

  • Rich data structures.

....

“原始数据包数据的非结构化 blob”和“丰富的数据结构”不能并存;你必须解析原始数据包数据,就像数据包中协议的实现方式和其他协议分析器所做的一样 tcpdump/Wireshark/various ,将其转化为结构化数据,这样你就可以拥有数据你可以处理。

所以,首先,您需要弄清楚您要在这里做什么。你想做什么样的分析?你想处理什么包数据?数据包时间戳?源和目标 IP 地址?数据包中的协议?特定协议中的内容?