如何分析来自结构略有不同的两个不同来源的数据?
How do I analyze data from two different sources with a little different structers?
例如,假设有一个网站显示了未来 2 周内我所在地区的所有活动。但还有另一个网站提供的相同数据的标记略有不同。假设两个网站的数据都以 json 格式提供,看起来像这样:
"Events":{
"id":1,
"Name": "Rally",
"Start time": "5pm"
}
而第二个网站也提供了json中的数据,但该事件不是拉力赛,而是称为拉力赛。这是 json:
"Events":{
"id":1,
"Name": "Rallies",
"Start time": "5pm"
}
很明显这两个事件是同一件事,但我如何将它们映射到一起?我可以使用什么方法将它们识别为同一事物?假设有 1000 个这样的事件。这将如何影响程序的速度?
尝试使用编辑距离 来计算 2 个字符串之间的距离。如果距离小,可以认为它们是一样的,如果距离太大,可以认为它们是不同的。您可能需要尝试不同的值,然后才能确定阈值应该是多少,以确定距离是否过大。
例如,假设有一个网站显示了未来 2 周内我所在地区的所有活动。但还有另一个网站提供的相同数据的标记略有不同。假设两个网站的数据都以 json 格式提供,看起来像这样:
"Events":{
"id":1,
"Name": "Rally",
"Start time": "5pm"
}
而第二个网站也提供了json中的数据,但该事件不是拉力赛,而是称为拉力赛。这是 json:
"Events":{
"id":1,
"Name": "Rallies",
"Start time": "5pm"
}
很明显这两个事件是同一件事,但我如何将它们映射到一起?我可以使用什么方法将它们识别为同一事物?假设有 1000 个这样的事件。这将如何影响程序的速度?
尝试使用编辑距离 来计算 2 个字符串之间的距离。如果距离小,可以认为它们是一样的,如果距离太大,可以认为它们是不同的。您可能需要尝试不同的值,然后才能确定阈值应该是多少,以确定距离是否过大。