删除 EPUB 文件 <p> 标签内嵌套的 HTML 标签

Question

我有一个 html 标准文件 header

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.1//EN" "http://www.w3.org/TR/xhtml11/DTD/xhtml11.dtd">
<html xmlns="http://www.w3.org/1999/xhtml"><head><title></title><link href="../Styles/stylesheet.css" type="text/css" rel="stylesheet" /></head><body><h1>Chapter 17</h1><div class="entry-content_wrap">

和p-tags中的一些div和大量普通文本，我的问题是这些标签内部是另一个带有属于句子

的文本的标签

<p> Some text bla bla bla <other important text> bla.</p>

我有很多文件，我一直在寻找一个正则表达式，它可以删除周围的标签并保持其他任何东西完好无损。我使用的 Sigil 提供 Find/Replace 和正则表达式。

我现在有 (\<[^p]+\>) 可以匹配 <other important text> 但也有很多 HTML header 并且我不知何故无法只捕捉周围的 <> other important text

Answer 1

如果我对问题的理解正确，你想删除所有不属于段落标记的尖括号。在 Javascript 中，我会像这样替换两次：

'your text'.replace(/<(?!(p>|\/p))/g, '').replace(/(?<!(<p|\/p))>/g, '')

我正在使用否定前瞻和否定回顾功能。

删除 EPUB 文件 <p> 标签内嵌套的 HTML 标签

Remove nested HTML tag inside <p> tags of an EPUB file

html

regex

epub