包含 Unicode 字符的 DOMXPath 查询属性

DOMXPath query attribute that contains Unicode character

是否可以访问包含 Unicode class 名称的元素?

我实际上是 accessing this site,但他们的 class 名称以 Unicode 字符 U+1F41D HONEYBEE

为前缀
$html = file_get_contents('https://www.honestbee.my/en/groceries/stores/bens-independent-grocer/products/720365');
$doc = new \DOMDocument();
$doc->loadHTML($html);

$xpath = new \DOMXpath($doc);

$elements = $xpath->query("//[@class='ap0']");
if (!is_null($elements)) {
    foreach ($elements as $element) {
        echo "<br/>[". $element->nodeName. "]";

        $nodes = $element->childNodes;
        foreach ($nodes as $node) {
            echo $node->nodeValue. "\n";
        }
    }
}

不幸的是它抛出错误

ErrorException  : DOMXPath::query(): Invalid expression                                                                                                     
 at /paht/to/test-dom.php:83                                                                        
   79|         $doc->loadHTML($html);                                       
   80|                                                                      
   81|         $xpath = new \DOMXpath($doc);                                
   82|                                                                      
 > 83|         $elements = $xpath->query("//[@class='ap0']");             
   84|         if (!is_null($elements)) {                                   
   85|             foreach ($elements as $element) {                        
   86|                 echo "<br/>[". $element->nodeName. "]";              
   87|                                                                      

Exception trace:

1   DOMXPath::query("//[@class='ap0']")                                  
    /paht/to/test-dom.php:83

我指的是 emoji code here,尝试过 \uD83Dap0 也不起作用

好吧,在尝试 $doc->saveHTML() 并注意到所有 Unicode 字符都已损坏之前,我陷入了字符编码和诸如此类的问题。我的猜测是 DOMDocument::loadHTML 将所有内容都视为 ISO-8859-1,这是 HTML 4 的默认编码。因此,通过添加 XML 序言,我们可以将其解析为 UTF -8。这允许您按 class 名称搜索,无论它使用什么字符:

<?php
$html = file_get_contents('https://www.honestbee.my/en/groceries/stores/bens-independent-grocer/products/720365');
$prologue = '<?xml encoding="UTF-8">';
$doc = new \DOMDocument();
$doc->loadHTML($prologue . $html);
$xpath = new \DOMXpath($doc);
$elements = $xpath->query("//div[@class='ap0']");
foreach ($elements as $element) {
    echo "<br/>[". $element->nodeName. "]";
    $nodes = $element->childNodes;
    foreach ($nodes as $node) {
        echo $node->nodeValue. " \n";
    }
}

还值得注意的是,您的 "invalid expression" 错误不是由于蜜蜂造成的,而是因为您的查询中没有元素名称。在我的回答中我使用了 div,如果你想搜索你可以使用的所有元素 *.

实际上我正在使用 Rct567/DomQuery。作者已经修复了这个问题。

对于遇到同样问题的人,我推荐使用这个包。

一种解决方法是用 ASCII 字符串替换特定的已知 unicode 字符属性。在执行 XPATH 查询之前即时执行此操作。

示例:$html = preg_replace("/ap0/u", 'Beeap0123456', $html);

或者,str_replace 函数应该能够用映射的 ASCII 属性名称数组替换 unicode 属性名称数组。

那么 XPATH 查询表达式将是一个直接的 ASCII 表达式:'//*[@class="Beeap0123456"]'

(在替换的 ASCII 字符串中添加一个唯一的字符串可能会减少当文档包含其他类似属性时混淆的可能性。)