有没有办法计算在 R 的浏览器应用程序中打开的网页上的字符

Question

我已经将页面网页保存为文本（作为 .txt 文件），其中很多。这些是来自社交媒体网站的 public 个个人资料页面。我想粗略衡量一下这些个人资料页面上有多少东西。当我将这些文本文件保存为 .html，然后在浏览器中打开它们时，我可以看到显示的配置文件。但是文本文件并不能很好地说明个人资料页面上内容的开发程度。如果我以此为依据进行字符计数，则它与可查看配置文件的开发程度完全无关（因此我了解到 html 文件不能很好地代表您查看文件时显示的内容，因为有很多文本无法在浏览器中呈现 windows)。

从 r 中提取的典型解析函数。html 文件似乎删除了很多内容 - 我认为这些配置文件页面的结构不是很好。

我可以在 R 中的 chrome 等应用程序中打开这些文件。但是有没有办法（以编程方式从 R 中）将 Chrome 中呈现的文本 cut/paste 到另一个文件，作为衡量这些配置文件中出现的文本的一种方式？我想从 R 创建一些自动化的东西，然后循环它。

我将在此处放置一个用于示例文件（输入和输出）的保管箱 link -> https://www.dropbox.com/sh/4fqxwbj74tnfaxq/AACtexD7OVYYrMoTDrudbacba?dl=0。在文件“test2_simple_pagecode.txt”中，它包含示例配置文件的页面源代码。可以将其更改为 .html 扩展名，然后在浏览器中打开并查看页面。我想要做的是在浏览器 window 中打开该文件，然后将整个页面的文本剪切并粘贴到一个单独的文件中，如“test2_simple_cutpaste.txt”中的示例。这样，新文件只有在配置文件中实际看到的单词。

Answer 1

此页面严重依赖 javascript 来呈现页面。我建议研究 rselenium 来处理页面。 RSelenium 将能够处理 javascript 并且您将能够使用“rvest”包来提取感兴趣的信息。

这是提取个人资料中存储的信息的一种非常快速且非常肮脏的方法，但那里也存储了很多无关的信息。

配置文件中的信息似乎在 html 代码的注释中存储为 JSON 数据。下面的示例提取该注释，删除 unicode 字符并解析 JSON 数据。

lines <-readLines("test2_simple_pagecode.txt")
alllines <- paste(lines, collapse = " ")

library(stringr)

output<-stringr::str_extract(alllines, "<!--\{\"content\"\:\{\"Notes\".+?-->")
nchar(output)

output2<-gsub("\\u002d", " ", output)
jsonlite::parse_json(substr(output2, 5, nchar(output2)-3))

有没有办法计算在 R 的浏览器应用程序中打开的网页上的字符

Is there a way to count characters on a web page opened in a browser application from R

selenium

r

web-scraping

headless-browser

rselenium