在 R 的 rvest 包中写哪个选择器?
Which selector to write in rvest package in R?
我正在尝试从特定网站的源代码中提取信息
源代码中有几行:
# [[4]]
# <script type="text/javascript">
# <![CDATA[
# <!-- // <![CDATA[
# var wp_dot_addparams = {
# "cid": "148938",
# "ctype": "article",
# "ctags": "dziejesiewkulturze,piraci z karaibów,Charlie Hebdo,Scorpions",
# "cauthor": "",
# "csource": "film.wp.pl",
# "cpageno": 1,
# "cpagemax": 1,
# "cdate": "2015-02-18"
# };
# // ]]]]><![CDATA[> -->
# ]]>
# </script>
我想从中提取:
"ctags": "dziejesiewkulturze,piraci z karaibów,Charlie Hebdo,Scorpions",
有谁知道我应该如何在 R 中的 rvest
包中的 html_nodes
函数中指定选择器?
html("http://film.wp.pl/id,148938,title,dziejesiewkulturze-Codzienna-dawka-informacji-kulturalnych-180215-WIDEO,wiadomosc.html") %>%
html_nodes("script")
从元素的文本中提取 JSON 对象(整理选择器)
使用 jsonlite 的 fromJSON() 函数将其解析为列表。
您可以直接使用“$ctags”访问它
library(jsonlite)
json <- html("http://film.wp.pl/id,148938,title,dziejesiewkulturze-Codzienna-dawka-informacji-kulturalnych-180215-WIDEO,wiadomosc.html") %>%
html_nodes("script:contains('var wp_dot_addparams')") %>%
gsub(x=., pattern=".*var wp_dot_addparams = (\{.*\});.*",replacement="\1") %>%
fromJSON()
json$ctags
[1] "dziejesiewkulturze,piraci z karaibów,Charlie Hebdo,Scorpions"
我正在尝试从特定网站的源代码中提取信息
源代码中有几行:
# [[4]]
# <script type="text/javascript">
# <![CDATA[
# <!-- // <![CDATA[
# var wp_dot_addparams = {
# "cid": "148938",
# "ctype": "article",
# "ctags": "dziejesiewkulturze,piraci z karaibów,Charlie Hebdo,Scorpions",
# "cauthor": "",
# "csource": "film.wp.pl",
# "cpageno": 1,
# "cpagemax": 1,
# "cdate": "2015-02-18"
# };
# // ]]]]><![CDATA[> -->
# ]]>
# </script>
我想从中提取:
"ctags": "dziejesiewkulturze,piraci z karaibów,Charlie Hebdo,Scorpions",
有谁知道我应该如何在 R 中的 rvest
包中的 html_nodes
函数中指定选择器?
html("http://film.wp.pl/id,148938,title,dziejesiewkulturze-Codzienna-dawka-informacji-kulturalnych-180215-WIDEO,wiadomosc.html") %>%
html_nodes("script")
从元素的文本中提取 JSON 对象(整理选择器)
使用 jsonlite 的 fromJSON() 函数将其解析为列表。
您可以直接使用“$ctags”访问它
library(jsonlite) json <- html("http://film.wp.pl/id,148938,title,dziejesiewkulturze-Codzienna-dawka-informacji-kulturalnych-180215-WIDEO,wiadomosc.html") %>% html_nodes("script:contains('var wp_dot_addparams')") %>% gsub(x=., pattern=".*var wp_dot_addparams = (\{.*\});.*",replacement="\1") %>% fromJSON() json$ctags [1] "dziejesiewkulturze,piraci z karaibów,Charlie Hebdo,Scorpions"