我在 php xpath 抓取中遇到错误试图获取 属性 非对象
i got an error in php xpath scraping Trying to get property of non-object
我正在尝试为我的网站制作一个简单的抓取代码,但是当我 运行 它
时出现错误
我得到了这个错误代码
注意:正在尝试获取 属性 的非对象
这是我的代码
function get_web_page( $url )
{
$options = array(
CURLOPT_RETURNTRANSFER => true, // return web page
CURLOPT_HEADER => false, // don't return headers
CURLOPT_FOLLOWLOCATION => true, // follow redirects
CURLOPT_ENCODING => "", // handle all encodings
CURLOPT_USERAGENT => "spider", // who am i
CURLOPT_AUTOREFERER => true, // set referer on redirect
CURLOPT_CONNECTTIMEOUT => 120, // timeout on connect
CURLOPT_TIMEOUT => 120, // timeout on response
CURLOPT_MAXREDIRS => 10, // stop after 10 redirects
CURLOPT_SSL_VERIFYPEER => false // Disabled SSL Cert checks
);
$ch = curl_init( $url );
curl_setopt_array( $ch, $options );
$content = curl_exec( $ch );
$err = curl_errno( $ch );
$errmsg = curl_error( $ch );
$header = curl_getinfo( $ch );
curl_close( $ch );
$header['errno'] = $err;
$header['errmsg'] = $errmsg;
$header['content'] = $content;
return $header;
}
libxml_use_internal_errors(true);
$url = 'https://www.mourjan.com/ae/abu-dhabi/lands';
$amer=get_web_page($url);
$html= $amer['content'];
$dom = new DOMDocument();
@$dom->loadHTML($html);
$xpath = new DOMXPath($dom);
$dom = new DOMDocument;
$dom->loadHTML($html);
foreach ($dom->getElementsByTagName('p') as $td) {
if ($td->hasAttribute('onclick')) {
$links= $td->getAttribute('onclick');
$links = str_replace("wo('/","",$links);
$links = str_replace("/')","",$links);
$url = 'https://www.mourjan.com/ae/abu-dhabi/lands/'.$links.'';
$amer=get_web_page($url);
$html= $amer['content'];
$dom = new DOMDocument();
$dom->loadHTML($html);
$xpath = new DOMXPath($dom);
$name = $xpath->query('*[@id="results"]/div[2]/div[2]/p');
$phone= $xpath->query('*[@id="results"]/div[2]/div[2]/p/span');
echo $name->item(0)->nodeValue;
echo '<br />';
echo str_replace(' ','',$phone->item(0)->nodeValue);
}
}
我希望有人能帮我解决这个问题,我使用这个 xpath 是因为它比另一个更有用
问候
阿米尔
也许查询
$name = $xpath->query('*[@id="results"]/div[2]/div[2]/p');
没有结果。那你就在这里
echo $name->item(0)->nodeValue;
对空节点列表 (length($name) = 0) 的调用。因此 "item(0)" 不存在。所以 属性 "nodeValue" 无法请求。
如果 Xpath 表达式 return 是一个空节点列表,那么访问 ->item(0)
将 return NULL
- 因此会出现错误消息。
您可以使用 ->length > 0
来验证这是列表中的一个节点,然后再访问该项目。
另一种可能性是使用 DOMXpath::evaluate()
并将节点列表转换为 Xpath 表达式中的字符串。空列表将导致空字符串:
$dom = new DOMDocument();
$dom->loadHTML($html);
$xpath = new DOMXPath($dom);
$name = $xpath->evaluate('string(*[@id="results"]/div[2]/div[2]/p)');
$phone = $xpath->evaluate('string(*[@id="results"]/div[2]/div[2]/p/span)');
echo $name;
echo '<br />';
echo str_replace(' ','',$phone);
我正在尝试为我的网站制作一个简单的抓取代码,但是当我 运行 它
时出现错误我得到了这个错误代码
注意:正在尝试获取 属性 的非对象
这是我的代码
function get_web_page( $url )
{
$options = array(
CURLOPT_RETURNTRANSFER => true, // return web page
CURLOPT_HEADER => false, // don't return headers
CURLOPT_FOLLOWLOCATION => true, // follow redirects
CURLOPT_ENCODING => "", // handle all encodings
CURLOPT_USERAGENT => "spider", // who am i
CURLOPT_AUTOREFERER => true, // set referer on redirect
CURLOPT_CONNECTTIMEOUT => 120, // timeout on connect
CURLOPT_TIMEOUT => 120, // timeout on response
CURLOPT_MAXREDIRS => 10, // stop after 10 redirects
CURLOPT_SSL_VERIFYPEER => false // Disabled SSL Cert checks
);
$ch = curl_init( $url );
curl_setopt_array( $ch, $options );
$content = curl_exec( $ch );
$err = curl_errno( $ch );
$errmsg = curl_error( $ch );
$header = curl_getinfo( $ch );
curl_close( $ch );
$header['errno'] = $err;
$header['errmsg'] = $errmsg;
$header['content'] = $content;
return $header;
}
libxml_use_internal_errors(true);
$url = 'https://www.mourjan.com/ae/abu-dhabi/lands';
$amer=get_web_page($url);
$html= $amer['content'];
$dom = new DOMDocument();
@$dom->loadHTML($html);
$xpath = new DOMXPath($dom);
$dom = new DOMDocument;
$dom->loadHTML($html);
foreach ($dom->getElementsByTagName('p') as $td) {
if ($td->hasAttribute('onclick')) {
$links= $td->getAttribute('onclick');
$links = str_replace("wo('/","",$links);
$links = str_replace("/')","",$links);
$url = 'https://www.mourjan.com/ae/abu-dhabi/lands/'.$links.'';
$amer=get_web_page($url);
$html= $amer['content'];
$dom = new DOMDocument();
$dom->loadHTML($html);
$xpath = new DOMXPath($dom);
$name = $xpath->query('*[@id="results"]/div[2]/div[2]/p');
$phone= $xpath->query('*[@id="results"]/div[2]/div[2]/p/span');
echo $name->item(0)->nodeValue;
echo '<br />';
echo str_replace(' ','',$phone->item(0)->nodeValue);
}
}
我希望有人能帮我解决这个问题,我使用这个 xpath 是因为它比另一个更有用
问候 阿米尔
也许查询
$name = $xpath->query('*[@id="results"]/div[2]/div[2]/p');
没有结果。那你就在这里
echo $name->item(0)->nodeValue;
对空节点列表 (length($name) = 0) 的调用。因此 "item(0)" 不存在。所以 属性 "nodeValue" 无法请求。
如果 Xpath 表达式 return 是一个空节点列表,那么访问 ->item(0)
将 return NULL
- 因此会出现错误消息。
您可以使用 ->length > 0
来验证这是列表中的一个节点,然后再访问该项目。
另一种可能性是使用 DOMXpath::evaluate()
并将节点列表转换为 Xpath 表达式中的字符串。空列表将导致空字符串:
$dom = new DOMDocument();
$dom->loadHTML($html);
$xpath = new DOMXPath($dom);
$name = $xpath->evaluate('string(*[@id="results"]/div[2]/div[2]/p)');
$phone = $xpath->evaluate('string(*[@id="results"]/div[2]/div[2]/p/span)');
echo $name;
echo '<br />';
echo str_replace(' ','',$phone);