从 HTML 文件中提取信息的正则表达式

Question

我想使用正则表达式从 HTML 文件中提取以下文本：">ABCDE</A></td><td>

我需要提取：ABCDE

有人可以帮我解决我应该使用的正则表达式吗？

Answer 1

您可以尝试在您的具体示例中使用此正则表达式：

/">(.*)<\/A><\/td><td>/g

测试字符串：

Lorem ipsum">ABCDE</A></td><td>Lorem ipsum<td></td>Lorem ipsum

摘录：

">ABCDE</A></td><td>

然后就是使用任何编程语言从每个匹配项中提取子字符串。这可以通过从正则表达式的匹配字符串中删除前2个字符和最后13个字符来完成，所以您只能提取 ABCDE。

我也试过：

/">([^<]*)<\/A><\/td><td>/g

它具有相同的效果，但它不会包含包含额外 HTML 代码的匹配项。据我了解，([^<]*) 是一个否定集，不会匹配该区域中的 < 个字符，因此它不会捕获该区域内的其他标记元素。如果您正在尝试搜索某些特定文本并且需要过滤嵌套的 HTML 代码，这可能有助于更好地控制。

Answer 2

以此为依托，

(?<=(<A>))[A-Za-z]+(?=(<\/A>))

使用该表达式，假设您的标签是 <A> </A>，工作正常。

这另一个与您输入的表格匹配。

(?<=(>))[A-Za-z]+(?=(<\/A>))

Regular expression to extract info from HTML file