从 HTML 文件中提取信息的正则表达式

Regular expression to extract info from HTML file

我想使用正则表达式从 HTML 文件中提取以下文本:">ABCDE</A></td><td>

我需要提取:ABCDE

有人可以帮我解决我应该使用的正则表达式吗?

您可以尝试在您的具体示例中使用此正则表达式:

/">(.*)<\/A><\/td><td>/g

测试字符串:

Lorem ipsum">ABCDE</A></td><td>Lorem ipsum<td></td>Lorem ipsum

摘录:

">ABCDE</A></td><td>

然后就是使用任何编程语言从每个匹配项中提取子字符串。这可以通过从正则表达式的匹配字符串中删除前2个字符和最后13个字符来完成,所以您只能提取 ABCDE

我也试过:

/">([^<]*)<\/A><\/td><td>/g

它具有相同的效果,但它不会包含包含额外 HTML 代码的匹配项。据我了解,([^<]*) 是一个否定集,不会匹配该区域中的 < 个字符,因此它不会捕获该区域内的其他标记元素。如果您正在尝试搜索某些特定文本并且需要过滤嵌套的 HTML 代码,这可能有助于更好地控制。

以此为依托,

(?<=(<A>))[A-Za-z]+(?=(<\/A>))

使用该表达式,假设您的标签是 <A> </A>,工作正常。

这另一个与您输入的表格匹配。

(?<=(>))[A-Za-z]+(?=(<\/A>))