我需要使用正则表达式在 HTML 页面中查找特定单词吗?

I need to use RegEx to find a speciffic word in HTML page?

我正在尝试提取位于永久表达式之后的特定单词(可能会更改)。我想在此代码中提取名称 Taldor

<h4 class="t-16 t-black t-normal">
    <span class="visually-hidden">Company Name</span>
    <span class="pv-entity__secondary-title">Taldor</span>
</h4>

现在我可以使用这个正则表达式找到 <h4 class="t-16 t-black t-normal">

(?<=<h4 class="t-16 t-black t-normal">).*

很高兴收到任何建议。

我建议您使用 HTML 解析库,例如 Jsoup in Java or beautifulsoup in Python to parse HTML instead of using regex for this reason

以下是可以为您完成这项工作的代码,

String s = "<h4 class=\"t-16 t-black t-normal\">\r\n" + 
        "    <span class=\"visually-hidden\">Company Name</span>\r\n" + 
        "    <span class=\"pv-entity__secondary-title\">Taldor</span>\r\n" + 
        "  </h4>";
Document doc = Jsoup.parse(s);
for (Element element : doc.getElementsByClass("pv-entity__secondary-title")) {
    System.out.println(element.text());
    break;
}

打印,

Taldor

在最坏的情况下,如果您正在做一些快速而肮脏的工作,您可以使用正则表达式来做这个临时解决方案,但肯定不推荐这样做。

<span class="pv-entity__secondary-title">(.*?)<\/span>

使用此正则表达式并从组 1 捕获数据。

Demo