如何按贡献者解析维基百科讨论页内容?
How to parse Wikipedia talk page content by contributor?
我想解析维基百科讨论页(例如,https://en.wikipedia.org/wiki/Talk:Elon_Musk)。我想按 contributors/editors 遍历文本。不知道我该怎么做。现在,我有以下代码:
import pywikibot as pw
wikiPage="elon_musk"
page = pw.Page(pw.Site('en'), wikiPage)
talkpage = page.toggleTalkPage()
s=talkpage.text
cs=talkpage.contributors()
似乎很难解析文本(即 s)并找到每个贡献者制作的谈话文本。不确定贡献者的谈话从哪里开始和结束,以及对其他人制作的谈话文本的回应是什么谈话文本。有没有一种方法可以让我循环浏览讨论页 returns 部分?
非常感谢您的帮助!
我不知道 pywikibot,但你可以通过正常的 API 来做到这一点。这将获取修订:https://en.wikipedia.org/w/api.php?action=query&prop=revisions&titles=Talk:Elon%20Musk&rvlimit=500&rvprop=timestamp|user|comment|ids
然后您可以传递修订 ID 以获取每次编辑中的更改:例如https://en.wikipedia.org/w/api.php?action=compare&fromrev=944235185&torev=944237256
我想解析维基百科讨论页(例如,https://en.wikipedia.org/wiki/Talk:Elon_Musk)。我想按 contributors/editors 遍历文本。不知道我该怎么做。现在,我有以下代码:
import pywikibot as pw
wikiPage="elon_musk"
page = pw.Page(pw.Site('en'), wikiPage)
talkpage = page.toggleTalkPage()
s=talkpage.text
cs=talkpage.contributors()
似乎很难解析文本(即 s)并找到每个贡献者制作的谈话文本。不确定贡献者的谈话从哪里开始和结束,以及对其他人制作的谈话文本的回应是什么谈话文本。有没有一种方法可以让我循环浏览讨论页 returns 部分?
非常感谢您的帮助!
我不知道 pywikibot,但你可以通过正常的 API 来做到这一点。这将获取修订:https://en.wikipedia.org/w/api.php?action=query&prop=revisions&titles=Talk:Elon%20Musk&rvlimit=500&rvprop=timestamp|user|comment|ids
然后您可以传递修订 ID 以获取每次编辑中的更改:例如https://en.wikipedia.org/w/api.php?action=compare&fromrev=944235185&torev=944237256