我是否遗漏了来自 Twitter API 的正确 geographic/coordinate 信息?

Am I missing the correct geographic/coordinate information from Twitter API?

从 Twitter 中提取信息时,有许多与地理相关的信息 API。这是我的部分代码...

placeHolder = []
placeHolder.append(tweet.author.name.encode('utf8'))

placeHolder.append(tweet.place)
placeHolder.append(tweet.user.location.encode('utf8'))
placeHolder.append(tweet.user.time_zone)
placeHolder.append(tweet.geo)
placeHolder.append(tweet.coordinates)

我有一些具体的问题希望能在这里得到答案:

1) 我是否收集了正确的地理位置信息?特别是tweet.geo 和 tweet.coordinates。或者我的代码中是否缺少任何地理信息?

2) 我应该使用哪个地理变量来定位用户发布推文的位置? "geo" 还是 "coordinates"?有人说"geo"过时了,但是我在资料里看,除了经纬度倒过来外,简直一模一样。

3) 我刚刚查看了我的数据,似乎只有大约 0.35% 的样本推文包含有关 "geo"/"coordinates" 变量的信息,它是太低还是接近正常?我发现 "tweet.user.location" 有更多信息,但没有标准化,合并所有这些地理信息的最佳方式是什么?

1) 我收集的地理位置信息是否正确?特别是tweet.geo 和 tweet.coordinates。或者我的代码中是否缺少任何地理信息?

假设正确的地理位置是该人在发推文时所在的位置,那么 tweet.placetweet.geotweet.coordinates 就是您要查找的内容。 user.* 下的任何人均由用户而非 Twitter 定义。

2) 我应该使用哪个地理变量来定位用户发布推文的位置? "geo" 还是 "coordinates"?有人说"geo"已经过时了,但是我在资料里看,除了经纬度倒过来,简直一模一样。

为此,我也推荐 tweet.coordinates,原因有二:a) 根据推特,它是官方的地理编码字段,b) 它采用正确的 geojson 格式(长、纬度)

3) 我刚刚查看了我的数据,似乎只有大约 0.35% 的示例推文包含有关 "geo"/"coordinates" 变量的信息,是不是太低了还是正常?我发现 "tweet.user.location" 有更多信息,但没有标准化,合并所有这些地理信息的最佳方式是什么?

就像我在“1)”中所说的,user.* 下的任何内容都是用户定义的。因此,例如,您可以说您来自火星,但如果您启用了地理功能并且发了推文,tweet.coordinates 将提供真实位置(很可能不是火星)。

这个百分比很低,但很难说。这完全取决于您定义的位置,如果您谈论的是全世界的推文,则没有具体的数字可以作为依据。根据经验,我可以告诉你(如果不包括单词过滤器)美国大约有 10% 的推文地理信息。我说没有词过滤器的原因是因为一旦你根据词搜索推文,你就会在你的系统中包含有偏见的数据。