从 HTML 文件中提取信息的正则表达式
Regular expression to extract info from HTML file
我想使用正则表达式从 HTML 文件中提取以下文本:">ABCDE</A></td><td>
我需要提取:ABCDE
有人可以帮我解决我应该使用的正则表达式吗?
您可以尝试在您的具体示例中使用此正则表达式:
/">(.*)<\/A><\/td><td>/g
测试字符串:
Lorem ipsum">ABCDE</A></td><td>Lorem ipsum<td></td>Lorem ipsum
摘录:
">ABCDE</A></td><td>
然后就是使用任何编程语言从每个匹配项中提取子字符串。这可以通过从正则表达式的匹配字符串中删除前2个字符和最后13个字符来完成,所以您只能提取 ABCDE
。
我也试过:
/">([^<]*)<\/A><\/td><td>/g
它具有相同的效果,但它不会包含包含额外 HTML 代码的匹配项。据我了解,([^<]*)
是一个否定集,不会匹配该区域中的 <
个字符,因此它不会捕获该区域内的其他标记元素。如果您正在尝试搜索某些特定文本并且需要过滤嵌套的 HTML 代码,这可能有助于更好地控制。
以此为依托,
(?<=(<A>))[A-Za-z]+(?=(<\/A>))
使用该表达式,假设您的标签是 <A> </A>
,工作正常。
这另一个与您输入的表格匹配。
(?<=(>))[A-Za-z]+(?=(<\/A>))
我想使用正则表达式从 HTML 文件中提取以下文本:">ABCDE</A></td><td>
我需要提取:ABCDE
有人可以帮我解决我应该使用的正则表达式吗?
您可以尝试在您的具体示例中使用此正则表达式:
/">(.*)<\/A><\/td><td>/g
测试字符串:
Lorem ipsum">ABCDE</A></td><td>Lorem ipsum<td></td>Lorem ipsum
摘录:
">ABCDE</A></td><td>
然后就是使用任何编程语言从每个匹配项中提取子字符串。这可以通过从正则表达式的匹配字符串中删除前2个字符和最后13个字符来完成,所以您只能提取 ABCDE
。
我也试过:
/">([^<]*)<\/A><\/td><td>/g
它具有相同的效果,但它不会包含包含额外 HTML 代码的匹配项。据我了解,([^<]*)
是一个否定集,不会匹配该区域中的 <
个字符,因此它不会捕获该区域内的其他标记元素。如果您正在尝试搜索某些特定文本并且需要过滤嵌套的 HTML 代码,这可能有助于更好地控制。
以此为依托,
(?<=(<A>))[A-Za-z]+(?=(<\/A>))
使用该表达式,假设您的标签是 <A> </A>
,工作正常。
这另一个与您输入的表格匹配。
(?<=(>))[A-Za-z]+(?=(<\/A>))