PHP Curl(或类似的东西)只检索渲染结果而不是所有 HTML 标签

PHP Curl (Or something like it) only retrieve rendered results not all the HTML tags

我一直在寻找一种方法来提取人们在 PHP 网页上看到的所有单词。我知道我可以使用 curl 或 filegetcontents,但是 returns 所有 HTML,我只想要呈现的文本(而不是它的格式或图像或其他任何东西)。有人能指出我正确的方向吗?

嗯,curl 不是 html 处理器。 Lynx 是 html 处理器 您可以使用 lynx -dump Https://

dumps the formatted output of the default document or those specified on the command line to standard output. Unlike interactive mode, all documents are processed.

Lynx manual

您可以 运行 Linux/Windows 在 php 中使用 proc_open() 函数执行命令,link 手动: php proc_open