获取 sgml 允许 "example.xom/page/200/" 的正则表达式

get sgml allow regex for "example.xom/page/200/"

我正在尝试获取“example.com/page/200/”的正则表达式。

这是我目前所做的:

rules = (Rule (SgmlLinkExtractor(
  allow=("//page/\d+",),
  restrict_xpaths=('xxxxx',)),
  callback="details", follow= True),
)

你们谁能给我一个解决方案吗?谢谢。

你有一个额外的斜杠,你需要使用原始字符串。而且,由于只有一个表达式,您不需要将元组传递给 allow:

rules = (Rule(SgmlLinkExtractor(allow=r"/page/\d+", restrict_xpath=('xxxxx',)), 
              callback="details", follow= True),)