维基百科缺少信息的问题 API
Problem with missing info from the wikipedia API
这是我在 Whosebug 上的第一个问题所以如果我做错了什么请告诉我...
我一直在做一些网络抓取,特别是在寻找属于维基百科的所有 "Categories" 某些音乐团体。我仍然是新手,所以我可能会忽略一些非常基本的东西......
为此,我正在使用维基百科 API。它适用于某些乐队。例如,如果我寻找 Maroon 5
r = http.get("https://en.wikipedia.org/w/api.php?action=query&format=json&prop=categories&titles=Maroon_5")
r.json()
它returns这个JSON文件
{'continue': {'clcontinue': '512449|Articles_with_permanently_dead_external_links',
'continue': '||'},
'query': {'normalized': [{'from': 'Maroon_5', 'to': 'Maroon 5'}],
'pages': {'512449': {'pageid': 512449,
'ns': 0,
'title': 'Maroon 5',
'categories': [{'ns': 14,
'title': 'Category:1994 establishments in California'},
{'ns': 14, 'title': 'Category:222 Records artists'},
{'ns': 14, 'title': 'Category:A&M Records artists'},
{'ns': 14, 'title': 'Category:Adam Levine'},
{'ns': 14,
'title': 'Category:All Wikipedia articles needing words, phrases or quotes attributed'},
{'ns': 14, 'title': 'Category:All articles with dead external links'},
{'ns': 14, 'title': 'Category:American pop rock music groups'},
{'ns': 14, 'title': 'Category:American soul musical groups'},
{'ns': 14,
'title': 'Category:Articles with dead external links from February 2020'},
{'ns': 14, 'title': 'Category:Articles with hCards'}]}}}}
但对于许多其他波段,例如 "Active Child",返回此文件:
r = requests.get("https://en.wikipedia.org/w/api.php?action=query&format=json&prop=categories&titles=Acid_Casuals")
r.json()
{'batchcomplete': '',
'query': {'pages': {'-1': {'ns': 0, 'title': 'Acid Casuals', 'missing': ''}}}}
我尝试用“_”替换“%20”,但没有任何变化。谁能告诉我这是怎么回事以及如何解决?
在旁注中,我还注意到,即使对于 Maroon 5,json 中也缺少很多类别。我猜这可能是一个相关的问题。
如果所有其他方法都失败了,我会尝试深入研究 Beautifulsoup,但我仍然希望让这个方法起作用。
非常感谢您的帮助
英语维基百科确实有一篇名为 Maroon 5 but does not have any article titled Acid Casuals 的文章。响应中的 'missing'
键就是一个指示器。没有文章,没有分类。
这是我在 Whosebug 上的第一个问题所以如果我做错了什么请告诉我...
我一直在做一些网络抓取,特别是在寻找属于维基百科的所有 "Categories" 某些音乐团体。我仍然是新手,所以我可能会忽略一些非常基本的东西......
为此,我正在使用维基百科 API。它适用于某些乐队。例如,如果我寻找 Maroon 5
r = http.get("https://en.wikipedia.org/w/api.php?action=query&format=json&prop=categories&titles=Maroon_5")
r.json()
它returns这个JSON文件
{'continue': {'clcontinue': '512449|Articles_with_permanently_dead_external_links',
'continue': '||'},
'query': {'normalized': [{'from': 'Maroon_5', 'to': 'Maroon 5'}],
'pages': {'512449': {'pageid': 512449,
'ns': 0,
'title': 'Maroon 5',
'categories': [{'ns': 14,
'title': 'Category:1994 establishments in California'},
{'ns': 14, 'title': 'Category:222 Records artists'},
{'ns': 14, 'title': 'Category:A&M Records artists'},
{'ns': 14, 'title': 'Category:Adam Levine'},
{'ns': 14,
'title': 'Category:All Wikipedia articles needing words, phrases or quotes attributed'},
{'ns': 14, 'title': 'Category:All articles with dead external links'},
{'ns': 14, 'title': 'Category:American pop rock music groups'},
{'ns': 14, 'title': 'Category:American soul musical groups'},
{'ns': 14,
'title': 'Category:Articles with dead external links from February 2020'},
{'ns': 14, 'title': 'Category:Articles with hCards'}]}}}}
但对于许多其他波段,例如 "Active Child",返回此文件:
r = requests.get("https://en.wikipedia.org/w/api.php?action=query&format=json&prop=categories&titles=Acid_Casuals")
r.json()
{'batchcomplete': '',
'query': {'pages': {'-1': {'ns': 0, 'title': 'Acid Casuals', 'missing': ''}}}}
我尝试用“_”替换“%20”,但没有任何变化。谁能告诉我这是怎么回事以及如何解决?
在旁注中,我还注意到,即使对于 Maroon 5,json 中也缺少很多类别。我猜这可能是一个相关的问题。
如果所有其他方法都失败了,我会尝试深入研究 Beautifulsoup,但我仍然希望让这个方法起作用。
非常感谢您的帮助
英语维基百科确实有一篇名为 Maroon 5 but does not have any article titled Acid Casuals 的文章。响应中的 'missing'
键就是一个指示器。没有文章,没有分类。