我是否遗漏了来自 Twitter API 的正确 geographic/coordinate 信息？

Question

从 Twitter 中提取信息时，有许多与地理相关的信息 API。这是我的部分代码...

placeHolder = []
placeHolder.append(tweet.author.name.encode('utf8'))

placeHolder.append(tweet.place)
placeHolder.append(tweet.user.location.encode('utf8'))
placeHolder.append(tweet.user.time_zone)
placeHolder.append(tweet.geo)
placeHolder.append(tweet.coordinates)

我有一些具体的问题希望能在这里得到答案：

1) 我是否收集了正确的地理位置信息？特别是tweet.geo 和 tweet.coordinates。或者我的代码中是否缺少任何地理信息？

2) 我应该使用哪个地理变量来定位用户发布推文的位置？ "geo" 还是 "coordinates"？有人说"geo"过时了，但是我在资料里看，除了经纬度倒过来外，简直一模一样。

3) 我刚刚查看了我的数据，似乎只有大约 0.35% 的样本推文包含有关 "geo"/"coordinates" 变量的信息，它是太低还是接近正常？我发现 "tweet.user.location" 有更多信息，但没有标准化，合并所有这些地理信息的最佳方式是什么？

Answer 1

1) 我收集的地理位置信息是否正确？特别是tweet.geo 和 tweet.coordinates。或者我的代码中是否缺少任何地理信息？

假设正确的地理位置是该人在发推文时所在的位置，那么 tweet.place、tweet.geo 和 tweet.coordinates 就是您要查找的内容。 user.* 下的任何人均由用户而非 Twitter 定义。

2) 我应该使用哪个地理变量来定位用户发布推文的位置？ "geo" 还是 "coordinates"？有人说"geo"已经过时了，但是我在资料里看，除了经纬度倒过来，简直一模一样。

为此，我也推荐 tweet.coordinates，原因有二：a) 根据推特，它是官方的地理编码字段，b) 它采用正确的 geojson 格式（长、纬度）

3) 我刚刚查看了我的数据，似乎只有大约 0.35% 的示例推文包含有关 "geo"/"coordinates" 变量的信息，是不是太低了还是正常？我发现 "tweet.user.location" 有更多信息，但没有标准化，合并所有这些地理信息的最佳方式是什么？

就像我在“1)”中所说的，user.* 下的任何内容都是用户定义的。因此，例如，您可以说您来自火星，但如果您启用了地理功能并且发了推文，tweet.coordinates 将提供真实位置（很可能不是火星）。

这个百分比很低，但很难说。这完全取决于您定义的位置，如果您谈论的是全世界的推文，则没有具体的数字可以作为依据。根据经验，我可以告诉你（如果不包括单词过滤器）美国大约有 10% 的推文地理信息。我说没有词过滤器的原因是因为一旦你根据词搜索推文，你就会在你的系统中包含有偏见的数据。

我是否遗漏了来自 Twitter API 的正确 geographic/coordinate 信息？

Am I missing the correct geographic/coordinate information from Twitter API?

twitter

geocoding

geolocation

geo

python-2.7