将 headers 中的 HTML 中的粗体替换为 python
Replace headers by bold in HTML with python
我有一些 HTML 像这样的文字:
'<H1 LANG="es-ES" CLASS="western" STYLE="text-indent: -0.5cm; line-height: 100%"><FONT FACE="Arial, sans-serif"><FONT SIZE=3>some_text_here</FONT></FONT></H1>'
在较大的 HTML 文本中。我想自动识别所有这些 headers 并将它们更改为简单的粗体文本:
'<B LANG="es-ES" CLASS="western" STYLE="text-indent: -0.5cm; line-height: 100%"><FONT FACE="Arial, sans-serif"><FONT SIZE=3>some_text_here</FONT></FONT></B>'
使用正则表达式不是最好的,因为有时 header 开始和结束在不同的行上。
您可以使用 BeautifulSoup
,但一种简单的方法是按以下形式使用 re.sub()
:
html_content = re.sub("<H\d", "<B", html_content)
html_content = re.sub("<\/H\d>", "</B>", html_content)
我有一些 HTML 像这样的文字:
'<H1 LANG="es-ES" CLASS="western" STYLE="text-indent: -0.5cm; line-height: 100%"><FONT FACE="Arial, sans-serif"><FONT SIZE=3>some_text_here</FONT></FONT></H1>'
在较大的 HTML 文本中。我想自动识别所有这些 headers 并将它们更改为简单的粗体文本:
'<B LANG="es-ES" CLASS="western" STYLE="text-indent: -0.5cm; line-height: 100%"><FONT FACE="Arial, sans-serif"><FONT SIZE=3>some_text_here</FONT></FONT></B>'
使用正则表达式不是最好的,因为有时 header 开始和结束在不同的行上。
您可以使用 BeautifulSoup
,但一种简单的方法是按以下形式使用 re.sub()
:
html_content = re.sub("<H\d", "<B", html_content)
html_content = re.sub("<\/H\d>", "</B>", html_content)