为什么通过 pytrends 下载的数据与使用 Google Trends 网站下载的数据截然不同？

Question

我正在使用 pytrends 按都市地区下载对报纸的搜索兴趣。这是一个都市区（德克萨斯州奥斯汀）的示例：

from pytrends.request import TrendReq
import pandas as pd

code='US-TX-635'
papers=['The Wall Street Journal','New York Post','The New York Times','Boston Herald','San Francisco Chronicle']
pytrend = TrendReq()
pytrend.build_payload(kw_list=papers,cat=408,timeframe='all',geo=code)
test = pytrend.interest_over_time()

我知道 Google 趋势 (referenced in this post) 中存在一些随机性，但我得到的差异比它们应该基于的差异更大，即使我采取了很多，它们仍然存在样本和它们的平均值。例如，当我在 Google Trends 网站上搜索五份报纸时，虽然确切数字各不相同，但报纸的受欢迎程度始终是纽约时报、华尔街日报、纽约Post、旧金山纪事报、波士顿先驱报。我从 pytrends 获得的任何样本都不是这种情况。此外，正如人们所预料的那样，根据该网站的数据，大多数论文的搜索兴趣在金融危机期间达到顶峰，但在 pytrends 数据中也并非如此。

供参考，here is the query I did on the site.

有谁知道为什么会发生这种情况，或者是否还有另一个 API 可能会产生更准确的结果？

Answer 1

我知道你问题的答案，因为我也遇到过类似的问题！面向 public 的 Google Trends 网站向您显示为每份报纸生成的数据作为知识图谱实体（即 topic），而不是字符串查询本身.例如，作为主题的华尔街日报在 Google 趋势网站上由 Freebase ID /m/017b3j 表示。按主题查询包括带有拼写错误和间接描述的相关搜索。这应该可以解释您在数据中看到的差异。

使用 pytrends 时，关键字 'The Wall Street Journal' 被视为文字搜索词而不是主题。如果您将其替换为 '/m/017b3j'，Google 会将查询视为一个主题，您的结果应该与趋势网站上的结果相匹配。

（请注意，在您的链接参考查询中，WSJ 由 %2Fm%2F017b3j 表示，这是 /m/017b3j 的 URL 编码版本）

希望对您有所帮助！

为什么通过 pytrends 下载的数据与使用 Google Trends 网站下载的数据截然不同？

Why is data downloaded via pytrends drastically different from using the Google Trends site?

python

web-scraping

google-trends