使用 Notepad++ 和 Excel 正则表达式从混合的中英文句子中删除英文文本?

Regex remove english text from mixed chinese-english sentences using Notepad++ and Excel?

我使用 Notepad++ 和 Excel。 我有包含英文和中文文本的数据。

数据结构如下:

<p> chinese text</p>
<p> english text</p>
<p> chinese text</p>
<p> english text</p>
<p> chinese text</p>
<p> english text</p>

如何删除所有英文文本以及

之间的符号?

所以只留下

之间的中文

所以结果是这样的:

<p> chinese text</p>
<p> chinese text</p>
<p> chinese text</p>

我试图通过使用正则表达式删除 ascii 字符来删除英文文本,但是遗漏了一个英文文本。

看这张照片: 请帮助我,谢谢

您应该可以使用 Notepad++ 执行此操作:

  • <p>[a-zA-Z"].*$替换为空字符串(正则表达式替换模式)
  • \n\n 替换为 \n(扩展替换模式)
  • <p>|</p>替换为空字符串(正则表达式替换模式)

试试这个:https://regex101.com/r/TGrW27/1

这个正则表达式基本上会匹配并删除:

  • <p>:匹配起始标签
  • (\w|"|'):匹配任意英文字母或"'
  • .+: 任意次数
  • <\/p>: 并注意关闭标签

如果存在延伸 1 行的段落模型,则上述大多数解决方案仅适用于第一段。当我尝试时,这不适用于延长一行的段落

如果你的数据总是第一行中文第二行英文?然后你可以使用下面的技术解决这个问题。
查找内容:(.*\n?)(.*\n?)
替换为:</code>→将return中文<br /> <code>Or if
替换为: → will return English

https://regex101.com/r/VIPS0s/1