docx to markdown 错误换行
docx to markdown wrong line wrapping
我正在尝试将 docx 文件(最初是从 Rmarkdown 文件编织而成)转换回 Rmarkdown 文件,但结果换行时遇到问题。原始 Rmarkdown 文件如下所示
---
title: "test"
author: "N."
date: "3/27/2020"
output: word_document2
---
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```
# Some title
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut id hendrerit urna. Pellentesque gravida rhoncus felis, id lacinia ligula feugiat vitae. Aenean faucibus quam ut turpis varius tincidunt. Integer mollis sem id massa porttitor, et eleifend augue laoreet. Morbi placerat posuere libero, bibendum iaculis velit mattis non. Duis quam enim, pretium vel laoreet eget, volutpat non diam. Duis consequat aliquet dignissim. In lacus orci, interdum ac sem eu, placerat venenatis lacus. Nulla facilisi. Nulla non sem ullamcorper, porttitor velit vitae, placerat ipsum. Etiam a quam at nisi condimentum ultricies. Fusce volutpat enim nec est cursus maximus. Aliquam rhoncus nibh nec risus feugiat, vel cursus felis ullamcorper. Aenean enim urna, iaculis in venenatis porta, elementum eget felis.
编织的docx文档看起来不错,并且换行保留在原始Rmarkdown文件中。但是,然后我使用以下 R 代码将 docx 文件转换回 Rmarkdown:
pandoc_convert(input = 'docx_file.docx', to="markdown", output = "new.Rmd")
我得到了很多额外的换行符。像这样:
Some title
==========
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut id hendrerit
urna. Pellentesque gravida rhoncus felis, id lacinia ligula feugiat
vitae. Aenean faucibus quam ut turpis varius tincidunt. Integer mollis
sem id massa porttitor, et eleifend augue laoreet. Morbi placerat
posuere libero, bibendum iaculis velit mattis non. Duis quam enim,
pretium vel laoreet eget, volutpat non diam. Duis consequat aliquet
dignissim. In lacus orci, interdum ac sem eu, placerat venenatis lacus.
Nulla facilisi. Nulla non sem ullamcorper, porttitor velit vitae,
placerat ipsum. Etiam a quam at nisi condimentum ultricies. Fusce
volutpat enim nec est cursus maximus. Aliquam rhoncus nibh nec risus
feugiat, vel cursus felis ullamcorper. Aenean enim urna, iaculis in
venenatis porta, elementum eget felis.
这个新的换行是(我猜)文本在 docx 文档中的显示方式的结果。因为如果您在 Office 中打开它,这个新的额外换行符与 docx 文件的外观相匹配,但是该文档中没有换行符。此外,无论我编织成 word_document
还是 bookdown::word_document2
,以及我是否转换回 .Rmd
或 .md
。
都是如此
这是正常行为吗?如果是这样,是否可以保持原来的换行?
好的,我实际上发现它在搜索其他内容。以下产生我的预期输出。
pandoc_convert(input = 'docx_file.docx', to="markdown", output = "new.Rmd", options = c('--wrap=none'))
我正在尝试将 docx 文件(最初是从 Rmarkdown 文件编织而成)转换回 Rmarkdown 文件,但结果换行时遇到问题。原始 Rmarkdown 文件如下所示
---
title: "test"
author: "N."
date: "3/27/2020"
output: word_document2
---
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```
# Some title
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut id hendrerit urna. Pellentesque gravida rhoncus felis, id lacinia ligula feugiat vitae. Aenean faucibus quam ut turpis varius tincidunt. Integer mollis sem id massa porttitor, et eleifend augue laoreet. Morbi placerat posuere libero, bibendum iaculis velit mattis non. Duis quam enim, pretium vel laoreet eget, volutpat non diam. Duis consequat aliquet dignissim. In lacus orci, interdum ac sem eu, placerat venenatis lacus. Nulla facilisi. Nulla non sem ullamcorper, porttitor velit vitae, placerat ipsum. Etiam a quam at nisi condimentum ultricies. Fusce volutpat enim nec est cursus maximus. Aliquam rhoncus nibh nec risus feugiat, vel cursus felis ullamcorper. Aenean enim urna, iaculis in venenatis porta, elementum eget felis.
编织的docx文档看起来不错,并且换行保留在原始Rmarkdown文件中。但是,然后我使用以下 R 代码将 docx 文件转换回 Rmarkdown:
pandoc_convert(input = 'docx_file.docx', to="markdown", output = "new.Rmd")
我得到了很多额外的换行符。像这样:
Some title
==========
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut id hendrerit
urna. Pellentesque gravida rhoncus felis, id lacinia ligula feugiat
vitae. Aenean faucibus quam ut turpis varius tincidunt. Integer mollis
sem id massa porttitor, et eleifend augue laoreet. Morbi placerat
posuere libero, bibendum iaculis velit mattis non. Duis quam enim,
pretium vel laoreet eget, volutpat non diam. Duis consequat aliquet
dignissim. In lacus orci, interdum ac sem eu, placerat venenatis lacus.
Nulla facilisi. Nulla non sem ullamcorper, porttitor velit vitae,
placerat ipsum. Etiam a quam at nisi condimentum ultricies. Fusce
volutpat enim nec est cursus maximus. Aliquam rhoncus nibh nec risus
feugiat, vel cursus felis ullamcorper. Aenean enim urna, iaculis in
venenatis porta, elementum eget felis.
这个新的换行是(我猜)文本在 docx 文档中的显示方式的结果。因为如果您在 Office 中打开它,这个新的额外换行符与 docx 文件的外观相匹配,但是该文档中没有换行符。此外,无论我编织成 word_document
还是 bookdown::word_document2
,以及我是否转换回 .Rmd
或 .md
。
这是正常行为吗?如果是这样,是否可以保持原来的换行?
好的,我实际上发现它在搜索其他内容。以下产生我的预期输出。
pandoc_convert(input = 'docx_file.docx', to="markdown", output = "new.Rmd", options = c('--wrap=none'))