如何分析来自结构略有不同的两个不同来源的数据？

Question

例如，假设有一个网站显示了未来 2 周内我所在地区的所有活动。但还有另一个网站提供的相同数据的标记略有不同。假设两个网站的数据都以 json 格式提供，看起来像这样：

"Events":{
  "id":1,
  "Name": "Rally",
  "Start time": "5pm"
}

而第二个网站也提供了json中的数据，但该事件不是拉力赛，而是称为拉力赛。这是 json:

"Events":{
  "id":1,
  "Name": "Rallies",
  "Start time": "5pm"
}

很明显这两个事件是同一件事，但我如何将它们映射到一起？我可以使用什么方法将它们识别为同一事物？假设有 1000 个这样的事件。这将如何影响程序的速度？

Answer 1

尝试使用编辑距离 来计算 2 个字符串之间的距离。如果距离小，可以认为它们是一样的，如果距离太大，可以认为它们是不同的。您可能需要尝试不同的值，然后才能确定阈值应该是多少，以确定距离是否过大。

How do I analyze data from two different sources with a little different structers?