使用 Cheerio 从 HTML 中提取正文

Extract main text from HTML using Cheerio

如何使用 cheerio 只提取正文? 我希望访问未知站点,并仅使用 nodeJS 和 Cheerio 获取正文(或所有文本)。

使用名为 boilerpipe 的 npm 模块解决

使用请求库,您会得到 HTML 文本。检查站点以查看它是否未使用虚拟 DOM 或影子 DOM 即。反应。如果是,Cheerio 的方法将不起作用,您会得到一个无法使用的圆形对象。