来自 html 个表的 R 个特殊字符
R special characters from html tables
我正在编写一个简单的脚本来从 HTML table 中抓取数据。问题是 table 包含特殊字符,即使它说它是作为 utf-8 下载的。
library(XML)
webpage.Name <- "http://www.registeruz.sk/cruz-public/domain/financialreport/show/4817607"
webpage.Name.table <- readHTMLTable(webpage.Name, header=T, which=1,stringsAsFactors=F)
抓取的数据示例:
V1 V2
1 Mimoriadna <NA>
2 <NA>
3 Ă<U+009A>ÄŤtovná jednotka: malá
4 DaĹ<U+0088>ovĂ© identifikaÄŤnĂ© ÄŤĂslo: 2023790373
我尝试使用 gsub 并更改某些模式,但它似乎不起作用。与从 utf-8 到 latin1 的 iconv 相同。抓取后的数据是否包含特殊字符无关紧要
在readHTMLTable()
中使用encoding = "UTF-8"
df <- readHTMLTable(webpage.Name,
header = TRUE, which = 1, stringsAsFactors = FALSE, encoding = "UTF-8")
head(df, 4)
# V1 V2
# 1 Mimoriadna <NA>
# 2 <NA>
# 3 Účtovná jednotka: malá
# 4 Daňové identifikačné číslo: 2023790373
我正在编写一个简单的脚本来从 HTML table 中抓取数据。问题是 table 包含特殊字符,即使它说它是作为 utf-8 下载的。
library(XML)
webpage.Name <- "http://www.registeruz.sk/cruz-public/domain/financialreport/show/4817607"
webpage.Name.table <- readHTMLTable(webpage.Name, header=T, which=1,stringsAsFactors=F)
抓取的数据示例:
V1 V2
1 Mimoriadna <NA>
2 <NA>
3 Ă<U+009A>ÄŤtovná jednotka: malá
4 DaĹ<U+0088>ovĂ© identifikaÄŤnĂ© ÄŤĂslo: 2023790373
我尝试使用 gsub 并更改某些模式,但它似乎不起作用。与从 utf-8 到 latin1 的 iconv 相同。抓取后的数据是否包含特殊字符无关紧要
在readHTMLTable()
encoding = "UTF-8"
df <- readHTMLTable(webpage.Name,
header = TRUE, which = 1, stringsAsFactors = FALSE, encoding = "UTF-8")
head(df, 4)
# V1 V2
# 1 Mimoriadna <NA>
# 2 <NA>
# 3 Účtovná jednotka: malá
# 4 Daňové identifikačné číslo: 2023790373