检索所有关于人的维基百科文章
Retrieving all Wikipedia articles about people
我正在尝试从维基百科中检索所有关于人的文章。更具体地说,我正在寻找:
- 仅页面标题(可能还有页面 ID)
- 篇关于 人的文章、
- 以性别分隔(为简单起见,男性和女性),
- 来自当前英文维基百科。
我尝试了几种方法,none 成功了:
维基百科 API 让我 search for all pages in a given category。但是,在 "Men" 或 "Women" 中搜索主要是获取子类别页面,而关于真实人物的页面则隐藏在子类别层次结构的更下方。我找不到 auto-traverse 层次结构的方法。
PetScan 允许我指定层次结构深度,但请求超时深度超过 3。此外,与维基百科 API 一样,结果包含的文章不关于人。
Wikidata 让我可以编写 SPARQL 查询来搜索性别为 "male" 或 "female" 的实体。 This example seems to work,但是一旦我在查询中包含实体名称,它就会超时。另外,我不确定这个数据与维基百科文章的对应程度——这个数据保证与维基百科上的相同吗?
实现我的目标的最佳方式是什么?
我创建了一个 SPARQL 查询来完成这项工作。保持查询尽可能简单很重要(查询优化阅读:https://www.wikidata.org/wiki/Wikidata:SPARQL_query_service/query_optimization). Here is the query for SPARQL: https://w.wiki/JhK
对于女性文章,这可能与维基数据查询服务 (WQS) 一起使用,尽管它很难在超时的边缘。所以对于男性文章(还有更多)你需要添加一个LIMIT
并通过添加一个递增的OFFSET
来逐步完成它。 WQS 接缝仍然超时,但维基数据还有其他端点,这个限制为 100.000 个结果,但随着 OFFSET
的增加而工作:https://wikidata.demo.openlinksw.com/sparql
生成的 SPARQL 查询是这样的:
SELECT ?sitelink
WHERE {
?item wdt:P21 wd:Q6581097;
wdt:P31 wd:Q5.
?sitelink schema:about ?item;
schema:isPartOf <https://en.wikipedia.org/>.
}
LIMIT 100000 OFFSET 100000
我正在尝试从维基百科中检索所有关于人的文章。更具体地说,我正在寻找:
- 仅页面标题(可能还有页面 ID)
- 篇关于 人的文章、
- 以性别分隔(为简单起见,男性和女性),
- 来自当前英文维基百科。
我尝试了几种方法,none 成功了:
维基百科 API 让我 search for all pages in a given category。但是,在 "Men" 或 "Women" 中搜索主要是获取子类别页面,而关于真实人物的页面则隐藏在子类别层次结构的更下方。我找不到 auto-traverse 层次结构的方法。
PetScan 允许我指定层次结构深度,但请求超时深度超过 3。此外,与维基百科 API 一样,结果包含的文章不关于人。
Wikidata 让我可以编写 SPARQL 查询来搜索性别为 "male" 或 "female" 的实体。 This example seems to work,但是一旦我在查询中包含实体名称,它就会超时。另外,我不确定这个数据与维基百科文章的对应程度——这个数据保证与维基百科上的相同吗?
实现我的目标的最佳方式是什么?
我创建了一个 SPARQL 查询来完成这项工作。保持查询尽可能简单很重要(查询优化阅读:https://www.wikidata.org/wiki/Wikidata:SPARQL_query_service/query_optimization). Here is the query for SPARQL: https://w.wiki/JhK
对于女性文章,这可能与维基数据查询服务 (WQS) 一起使用,尽管它很难在超时的边缘。所以对于男性文章(还有更多)你需要添加一个LIMIT
并通过添加一个递增的OFFSET
来逐步完成它。 WQS 接缝仍然超时,但维基数据还有其他端点,这个限制为 100.000 个结果,但随着 OFFSET
的增加而工作:https://wikidata.demo.openlinksw.com/sparql
生成的 SPARQL 查询是这样的:
SELECT ?sitelink
WHERE {
?item wdt:P21 wd:Q6581097;
wdt:P31 wd:Q5.
?sitelink schema:about ?item;
schema:isPartOf <https://en.wikipedia.org/>.
}
LIMIT 100000 OFFSET 100000