Python wikipedia.page 去掉字母 h

Python wikipedia.page drops letter h

所以我目前正在尝试找出给定数量的单词的相似之处。为此,我想获取相应维基百科页面的内容并搜索所有这些页面共有的词(当然减去文章等词)。

我在德语维基百科页面上搜索,其中一个词是“Rhein”(莱茵河)。但出于某种原因,wikipedia.page("Rhein") 为我提供了“rein”的消歧页面。 wikipedia.search("Rhein") 显示正确的页面,但 .page() 或 .content() 不显示。

有什么解释吗?

import wikipedia

wikipedia.set_lang("de")

try:
  print(wikipedia.page("Rhein"))
except wikipedia.exceptions.DisambiguationError as e:
  print(e.options)

我的 Jupyter notbeook 中的输出:

['Rein AG', 'Rein (Gemeinde Gratwein-Straßengel)', 'Stift Rein', 'Rein in Taufers', 'Rein (Adelsgeschlecht)', 'Reinheit', 'Reiner Reim', 'Adolf Rein', 'Andrew Rein', 'Anette Rein', 'Anna Rein-Wuhrmann', 'Antje von Rein', 'Bernhard Rein', 'Christian Rein', 'Conrad Rein', 'Daniel Rein', 'Dorothea Rein', 'Emil Rein', 'Erich Rein', 'Ernst Rein', 'Friedrich Karl Rein', 'Gerhard Rein (Mineraloge)', 'Gerhard Rein (Journalist)', 'Gerhard Rein (Mathematiker)', 'Hans Rein (Elektrotechniker)', 'Hans Rein (Kanute)', 'Hans Rein', 'Harald Rein', 'Heinz Rein', 'Herbert Rein', 'Hermann Rein', 'Hermann von Rein', 'Jewgeni Borissowitsch Rein', 'Johannes Justus Rein', 'Jonas Rein', 'Karl Rein', 'Kathrin Claudia Rein', 'Kurt Rein', 'Manfred Rein', 'Marianne Rein', 'Martin Rein', 'Paul Rein', 'Siegfried Rein', 'Steffen Rein', 'Torald Rein', 'Torolf Rein', 'Trine Rein', 'Udo Rein', 'Walter Rein', 'Wilhelm Rein', 'Wilhelm Rein (Philologe)', 'Rain', 'Reyn', 'Rhein (Begriffsklärung)']

很有趣:wikipedia.page("Rhine") 工作正常。

维基百科包中存在错误。如果您调用 wikipedia.page("Rhein"),它首先检查是否可以找到替代拼写。对于“Rhein”,它会找到“Rein”,然后 returns 你会找到“Rein”的结果。 寻找替代拼写是一个不错的选择,但如果仅在找不到原始拼写的结果时才启用它会更好。

您可以通过以下方式避免此问题:

wikipedia.page("Rhein", auto_suggest=False)