为什么 pandoc 在将 html 转换为 markdown 时保留 span 和 div 标签?
Why pandoc keeps span and div tags when converting html to markdown?
我是 pandoc 的新手,所以我肯定遗漏了一些明显的东西。
我正在尝试将 MS Word 生成的 HTML 文件转换为降价文件。
这是一个测试 html:
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<title></title>
</head>
<body>
<div class="Section1">
<p class="Question"><span style="FONT-SIZE: 10pt">Today</span> <span style=
"FONT-SIZE: 10pt">is</span> <span lang="HR" style=
"FONT-SIZE: 10pt; mso-ansi-language: HR">a</span><span style=
"FONT-SIZE: 10pt">nice</span> <span style="FONT-SIZE: 10pt">day</span>
</p>
</div>
</body>
</html>
我尝试将其转换为:
pandoc -f html -t markdown test.html -o test.md
我期待 "Today is a nice day",但得到了:
<div class="Section1">
<span style="FONT-SIZE: 10pt">Today</span> <span
style="FONT-SIZE: 10pt">is</span> <span lang="HR"
style="FONT-SIZE: 10pt; mso-ansi-language: HR">a</span><span
style="FONT-SIZE: 10pt">nice</span> <span
style="FONT-SIZE: 10pt">day</span>
</div>
为什么要保留 div?
为什么要保留跨度?
您需要关闭一些 extensions。在 HTML 输入端:
$ pandoc -f html-native_divs-native_spans -t markdown test.html -o test.md
或者markdown输出端:
$ pandoc -f html -t markdown-raw_html-native_divs-native_spans-fenced_divs-bracketed_spans test.html -o test.md
我是 pandoc 的新手,所以我肯定遗漏了一些明显的东西。 我正在尝试将 MS Word 生成的 HTML 文件转换为降价文件。 这是一个测试 html:
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<title></title>
</head>
<body>
<div class="Section1">
<p class="Question"><span style="FONT-SIZE: 10pt">Today</span> <span style=
"FONT-SIZE: 10pt">is</span> <span lang="HR" style=
"FONT-SIZE: 10pt; mso-ansi-language: HR">a</span><span style=
"FONT-SIZE: 10pt">nice</span> <span style="FONT-SIZE: 10pt">day</span>
</p>
</div>
</body>
</html>
我尝试将其转换为:
pandoc -f html -t markdown test.html -o test.md
我期待 "Today is a nice day",但得到了:
<div class="Section1">
<span style="FONT-SIZE: 10pt">Today</span> <span
style="FONT-SIZE: 10pt">is</span> <span lang="HR"
style="FONT-SIZE: 10pt; mso-ansi-language: HR">a</span><span
style="FONT-SIZE: 10pt">nice</span> <span
style="FONT-SIZE: 10pt">day</span>
</div>
为什么要保留 div? 为什么要保留跨度?
您需要关闭一些 extensions。在 HTML 输入端:
$ pandoc -f html-native_divs-native_spans -t markdown test.html -o test.md
或者markdown输出端:
$ pandoc -f html -t markdown-raw_html-native_divs-native_spans-fenced_divs-bracketed_spans test.html -o test.md