尽管满足内存限制,但简单 html dom 未获取或加载完整的 html 文件

Simple html dom not fetching or loading the full html file despite meeting the memory limits

我是 运行 本地主机上的爬虫,在抓取存储在我计算机网站目录中的 2.50MB html 文件时遇到问题。

现在我有


error_reporting(E_ALL);
ini_set('display_errors', '1');

require_once 'simplehtmldom-2rc2/HtmlWeb.php';
use simplehtmldom\HtmlWeb;
$doc = new HtmlWeb();
$html = $doc->load('http://localhost/onetab/test.html');

我有一个名为 test.html 的文件,当我向其中添加 1 个字符时,我的抓取工具无法获取该文件。

鉴于上述内存限制和内存使用情况,如何向 test.html 添加一个额外的字符导致 ->load 函数失败,从而 $html 为空(或空)?

我正在使用 Simple HTML Dom version 2 RC2

使用以下行没有帮助。

set_time_limit(0); // 0 is infinite, or it could be 5000
ini_set('max_input_time', 5000 );
ini_set('max_execution_time', 5000 );
ini_set('max_input_vars', 5000 );
ini_set('max_input_nesting_level', 5000 );

在 Simple HTML DOM 版本 2 RC2 库中有一个 constants.php 文件,其中包含一些需要更改的设置。其中 MAX_FILE_SIZE 常量(一种变量)必须更改。

为了让它接受 9MB 的文件,我将值设置为 1024 * 1024 * 9。您可以将值更改为您想要的数字或数字总和,或者您甚至可能希望将其设为

之类的变量
$chosenvalue = 1024 * 1024 * 9; //9mb file (bytes --> kilobytes --> megabytes)

manual/api/constants.md 文件中提到了这些说明。但由于该库在等待最终稳定版本发布期间仍处于发布候选阶段,因此文档作为离线文件并未以清晰的方式完整编写。您可以在线阅读the relevant documentation web page