为什么通过 pytrends 下载的数据与使用 Google Trends 网站下载的数据截然不同?
Why is data downloaded via pytrends drastically different from using the Google Trends site?
我正在使用 pytrends 按都市地区下载对报纸的搜索兴趣。这是一个都市区(德克萨斯州奥斯汀)的示例:
from pytrends.request import TrendReq
import pandas as pd
code='US-TX-635'
papers=['The Wall Street Journal','New York Post','The New York Times','Boston Herald','San Francisco Chronicle']
pytrend = TrendReq()
pytrend.build_payload(kw_list=papers,cat=408,timeframe='all',geo=code)
test = pytrend.interest_over_time()
我知道 Google 趋势 (referenced in this post) 中存在一些随机性,但我得到的差异比它们应该基于的差异更大,即使我采取了很多,它们仍然存在样本和它们的平均值。例如,当我在 Google Trends 网站上搜索五份报纸时,虽然确切数字各不相同,但报纸的受欢迎程度始终是纽约时报、华尔街日报、纽约Post、旧金山纪事报、波士顿先驱报。我从 pytrends 获得的任何样本都不是这种情况。此外,正如人们所预料的那样,根据该网站的数据,大多数论文的搜索兴趣在金融危机期间达到顶峰,但在 pytrends 数据中也并非如此。
供参考,here is the query I did on the site.
有谁知道为什么会发生这种情况,或者是否还有另一个 API 可能会产生更准确的结果?
我知道你问题的答案,因为我也遇到过类似的问题!面向 public 的 Google Trends 网站向您显示为每份报纸生成的数据作为知识图谱实体(即 topic),而不是字符串查询本身.例如,作为主题的华尔街日报在 Google 趋势网站上由 Freebase ID /m/017b3j
表示。按主题查询包括带有拼写错误和间接描述的相关搜索。这应该可以解释您在数据中看到的差异。
使用 pytrends 时,关键字 'The Wall Street Journal'
被视为文字搜索词而不是主题。如果您将其替换为 '/m/017b3j'
,Google 会将查询视为一个主题,您的结果应该与趋势网站上的结果相匹配。
(请注意,在您的链接参考查询中,WSJ 由 %2Fm%2F017b3j
表示,这是 /m/017b3j
的 URL 编码版本)
希望对您有所帮助!
我正在使用 pytrends 按都市地区下载对报纸的搜索兴趣。这是一个都市区(德克萨斯州奥斯汀)的示例:
from pytrends.request import TrendReq
import pandas as pd
code='US-TX-635'
papers=['The Wall Street Journal','New York Post','The New York Times','Boston Herald','San Francisco Chronicle']
pytrend = TrendReq()
pytrend.build_payload(kw_list=papers,cat=408,timeframe='all',geo=code)
test = pytrend.interest_over_time()
我知道 Google 趋势 (referenced in this post) 中存在一些随机性,但我得到的差异比它们应该基于的差异更大,即使我采取了很多,它们仍然存在样本和它们的平均值。例如,当我在 Google Trends 网站上搜索五份报纸时,虽然确切数字各不相同,但报纸的受欢迎程度始终是纽约时报、华尔街日报、纽约Post、旧金山纪事报、波士顿先驱报。我从 pytrends 获得的任何样本都不是这种情况。此外,正如人们所预料的那样,根据该网站的数据,大多数论文的搜索兴趣在金融危机期间达到顶峰,但在 pytrends 数据中也并非如此。
供参考,here is the query I did on the site.
有谁知道为什么会发生这种情况,或者是否还有另一个 API 可能会产生更准确的结果?
我知道你问题的答案,因为我也遇到过类似的问题!面向 public 的 Google Trends 网站向您显示为每份报纸生成的数据作为知识图谱实体(即 topic),而不是字符串查询本身.例如,作为主题的华尔街日报在 Google 趋势网站上由 Freebase ID /m/017b3j
表示。按主题查询包括带有拼写错误和间接描述的相关搜索。这应该可以解释您在数据中看到的差异。
使用 pytrends 时,关键字 'The Wall Street Journal'
被视为文字搜索词而不是主题。如果您将其替换为 '/m/017b3j'
,Google 会将查询视为一个主题,您的结果应该与趋势网站上的结果相匹配。
(请注意,在您的链接参考查询中,WSJ 由 %2Fm%2F017b3j
表示,这是 /m/017b3j
的 URL 编码版本)
希望对您有所帮助!