我需要使用正则表达式在 HTML 页面中查找特定单词吗?
I need to use RegEx to find a speciffic word in HTML page?
我正在尝试提取位于永久表达式之后的特定单词(可能会更改)。我想在此代码中提取名称 Taldor
:
<h4 class="t-16 t-black t-normal">
<span class="visually-hidden">Company Name</span>
<span class="pv-entity__secondary-title">Taldor</span>
</h4>
现在我可以使用这个正则表达式找到 <h4 class="t-16 t-black t-normal">
:
(?<=<h4 class="t-16 t-black t-normal">).*
很高兴收到任何建议。
我建议您使用 HTML 解析库,例如 Jsoup in Java or beautifulsoup in Python to parse HTML instead of using regex for this reason
以下是可以为您完成这项工作的代码,
String s = "<h4 class=\"t-16 t-black t-normal\">\r\n" +
" <span class=\"visually-hidden\">Company Name</span>\r\n" +
" <span class=\"pv-entity__secondary-title\">Taldor</span>\r\n" +
" </h4>";
Document doc = Jsoup.parse(s);
for (Element element : doc.getElementsByClass("pv-entity__secondary-title")) {
System.out.println(element.text());
break;
}
打印,
Taldor
在最坏的情况下,如果您正在做一些快速而肮脏的工作,您可以使用正则表达式来做这个临时解决方案,但肯定不推荐这样做。
<span class="pv-entity__secondary-title">(.*?)<\/span>
使用此正则表达式并从组 1 捕获数据。
我正在尝试提取位于永久表达式之后的特定单词(可能会更改)。我想在此代码中提取名称 Taldor
:
<h4 class="t-16 t-black t-normal">
<span class="visually-hidden">Company Name</span>
<span class="pv-entity__secondary-title">Taldor</span>
</h4>
现在我可以使用这个正则表达式找到 <h4 class="t-16 t-black t-normal">
:
(?<=<h4 class="t-16 t-black t-normal">).*
很高兴收到任何建议。
我建议您使用 HTML 解析库,例如 Jsoup in Java or beautifulsoup in Python to parse HTML instead of using regex for this reason
以下是可以为您完成这项工作的代码,
String s = "<h4 class=\"t-16 t-black t-normal\">\r\n" +
" <span class=\"visually-hidden\">Company Name</span>\r\n" +
" <span class=\"pv-entity__secondary-title\">Taldor</span>\r\n" +
" </h4>";
Document doc = Jsoup.parse(s);
for (Element element : doc.getElementsByClass("pv-entity__secondary-title")) {
System.out.println(element.text());
break;
}
打印,
Taldor
在最坏的情况下,如果您正在做一些快速而肮脏的工作,您可以使用正则表达式来做这个临时解决方案,但肯定不推荐这样做。
<span class="pv-entity__secondary-title">(.*?)<\/span>
使用此正则表达式并从组 1 捕获数据。