PHP Curl(或类似的东西)只检索渲染结果而不是所有 HTML 标签

PHP Curl (Or something like it) only retrieve rendered results not all the HTML tags

我一直在寻找一种方法来提取人们在 PHP 网页上看到的所有单词。我知道我可以使用 curl 或 filegetcontents,但是 returns 所有 HTML,我只想要呈现的文本(而不是它的格式或图像或其他任何东西)。有人能指出我正确的方向吗?

嗯,curl 不是 html 处理器。 Lynx 是 html 处理器 您可以使用 lynx -dump Https://whosebug.com

dumps the formatted output of the default document or those specified on the command line to standard output. Unlike interactive mode, all documents are processed.

Lynx manual

您可以 运行 Linux/Windows 在 php 中使用 proc_open() 函数执行命令,link 手动: php proc_open