PDF 转换为 CSV R
PDF conversion to CSV R
我正在尝试将以下 PDF 加载到 R 中,并将 table 转换为 CSV 文件。
我已经尝试了 library(pdftools) 和 library(tabulizer),并且我花了一个下午的时间浏览各种论坛,但我似乎没有找到适合我的答案。我可以使用以下代码将 PDF 加载到 R
x <- pdf_text("~/Desktop/PlantTraitAsia.pdf")
它上传得很好,但它根本不是我可以使用的 table 中的 table。
这里是 link PDF 文件:
http://vege1.kan.ynu.ac.jp/traits/PlantTraitAsia.pdf
我只想将 table 上传到 R,保留 header,并能够将其导出到 TXT、CSV 或 XLS 文件。
感谢您的帮助
这在我的机器上运行良好:
zz <- tabulizer::extract_tables("http://vege1.kan.ynu.ac.jp/traits/PlantTraitAsia.pdf", pages = 2)
head(zz[[1]])
这会产生:
[,1] [,2] [,3]
[1,] "ID" "Category\rof\rpermissio" "Species"
[2,] "83" "A" "Abies mariesii Masters"
[3,] "155" "A" "Abies mariesii Masters"
[4,] "225" "A" "Abies mariesii Masters"
[5,] "297" "A" "Abies mariesii Masters"
[6,] "369" "A" "Abies mariesii Masters"
[,4] [,5] [,6]
[1,] "Traits" "Value" "Notes"
[2,] "Maximum heighyt (m)" "18.17" ""
[3,] "Shade tolerance (min. relative\rlight intensity, %), Anderson\r1964. J. Ecol." "1.15" ""
[4,] "Length of fruit (mm)" "8" ""
[5,] "Pollination mode" "Anemophily" ""
[6,] "Type of fruit" "Wing-hair" ""
只得到headers(你的table的第一行):
zz[[1]][1,]
我正在尝试将以下 PDF 加载到 R 中,并将 table 转换为 CSV 文件。
我已经尝试了 library(pdftools) 和 library(tabulizer),并且我花了一个下午的时间浏览各种论坛,但我似乎没有找到适合我的答案。我可以使用以下代码将 PDF 加载到 R
x <- pdf_text("~/Desktop/PlantTraitAsia.pdf")
它上传得很好,但它根本不是我可以使用的 table 中的 table。
这里是 link PDF 文件:
http://vege1.kan.ynu.ac.jp/traits/PlantTraitAsia.pdf
我只想将 table 上传到 R,保留 header,并能够将其导出到 TXT、CSV 或 XLS 文件。
感谢您的帮助
这在我的机器上运行良好:
zz <- tabulizer::extract_tables("http://vege1.kan.ynu.ac.jp/traits/PlantTraitAsia.pdf", pages = 2)
head(zz[[1]])
这会产生:
[,1] [,2] [,3]
[1,] "ID" "Category\rof\rpermissio" "Species"
[2,] "83" "A" "Abies mariesii Masters"
[3,] "155" "A" "Abies mariesii Masters"
[4,] "225" "A" "Abies mariesii Masters"
[5,] "297" "A" "Abies mariesii Masters"
[6,] "369" "A" "Abies mariesii Masters"
[,4] [,5] [,6]
[1,] "Traits" "Value" "Notes"
[2,] "Maximum heighyt (m)" "18.17" ""
[3,] "Shade tolerance (min. relative\rlight intensity, %), Anderson\r1964. J. Ecol." "1.15" ""
[4,] "Length of fruit (mm)" "8" ""
[5,] "Pollination mode" "Anemophily" ""
[6,] "Type of fruit" "Wing-hair" ""
只得到headers(你的table的第一行):
zz[[1]][1,]