PHP DOM 解析器 - 获取两个已知 XPath 之间的所有节点
PHP DOM Parser - get all nodes between two known XPaths
如何 select 2 个已知 XPath 之间的所有 DOM 节点?
Xpath1 = html/body/div[2]/p
Xpath2 = html/body/div[2]/p/a[3]
DOM结构:
<html>
<body>
<div id="id3">
<p id="p3">
text1
<a href="#">
goal
</a>
text2
<a href="#">
Crowdrise
</a>.
</p>
</div>
</body>
</html>
解析器:
$dom = new DOMDocument();
$dom->loadHTML($domain);
$x = new DOMXPath($dom);
$el = $x->query("....??");
所以,基本上是在寻找一种查询方法 select 两个 XPath 之间的所有节点。
我看到了几个类似的问题,但它们似乎与 XSLT 案例有关。
问得好。
没有通用的方法,因为它取决于第二个元素相对于第一个元素的位置。我的意思是,如果第二个元素是第一个元素的后代,或者它在另一个分支中——这两个元素是完全不同的。
所以我们需要做一个假设:
- 假设第二条路径定义的第二个元素始终是第一条路径定义的第一个元素的后代。
我们的目标是获取第一个元素的所有后代元素(没有文本节点),而不是第二个元素的共享后代。
为此,我们需要一个表达式:
el1 = All element 1 descendants.
el2 = All element 2 descendants including self.
result = el1 [position() <= count( el1 ) - count( el2 )]
如您所见,我们正在构建一组前 N 个元素,直到我们到达第二个元素。
这是一个例子:
<?php
$dom = new DOMDocument();
$dom->loadHTML('<html>'
. ' <body>'
. ' <div>'
. ' <h1>shlomi</h1>'
. ' <p>'
. ' <span>goal1</span>'
. ' text1'
. ' <a href="#">goal2</a>'
. ' text2'
. ' <a href="#"><span></span>Crowdrise</a>'
. ' .'
. ' </p>'
. ' </div>'
. ' </body>'
. ' </html>');
$x = new DOMXPath($dom);
$path1 = "/html/body/div/p/descendant::*"; // all descendant elements without text
$path2 = "/html/body/div/p/a[2]/descendant-or-self::*"; // all descendant elements without text including self
$path3 = $path1."[position() <= count(".$path1.") - count(".$path2.")]";
$elList = $x->query($path3);
foreach ($elList as $node) {
echo $node->nodeName." -> text: ".$node->textContent."<br />";
}
这将打印:
span -> text: goal1
a -> text: goal2
注意 我正在使用 *
仅针对没有文本节点的元素 - 如果您希望所有节点都将其替换为 node()
.
如何 select 2 个已知 XPath 之间的所有 DOM 节点?
Xpath1 = html/body/div[2]/p
Xpath2 = html/body/div[2]/p/a[3]
DOM结构:
<html>
<body>
<div id="id3">
<p id="p3">
text1
<a href="#">
goal
</a>
text2
<a href="#">
Crowdrise
</a>.
</p>
</div>
</body>
</html>
解析器:
$dom = new DOMDocument();
$dom->loadHTML($domain);
$x = new DOMXPath($dom);
$el = $x->query("....??");
所以,基本上是在寻找一种查询方法 select 两个 XPath 之间的所有节点。 我看到了几个类似的问题,但它们似乎与 XSLT 案例有关。
问得好。 没有通用的方法,因为它取决于第二个元素相对于第一个元素的位置。我的意思是,如果第二个元素是第一个元素的后代,或者它在另一个分支中——这两个元素是完全不同的。 所以我们需要做一个假设:
- 假设第二条路径定义的第二个元素始终是第一条路径定义的第一个元素的后代。
我们的目标是获取第一个元素的所有后代元素(没有文本节点),而不是第二个元素的共享后代。
为此,我们需要一个表达式:
el1 = All element 1 descendants.
el2 = All element 2 descendants including self.
result = el1 [position() <= count( el1 ) - count( el2 )]
如您所见,我们正在构建一组前 N 个元素,直到我们到达第二个元素。
这是一个例子:
<?php
$dom = new DOMDocument();
$dom->loadHTML('<html>'
. ' <body>'
. ' <div>'
. ' <h1>shlomi</h1>'
. ' <p>'
. ' <span>goal1</span>'
. ' text1'
. ' <a href="#">goal2</a>'
. ' text2'
. ' <a href="#"><span></span>Crowdrise</a>'
. ' .'
. ' </p>'
. ' </div>'
. ' </body>'
. ' </html>');
$x = new DOMXPath($dom);
$path1 = "/html/body/div/p/descendant::*"; // all descendant elements without text
$path2 = "/html/body/div/p/a[2]/descendant-or-self::*"; // all descendant elements without text including self
$path3 = $path1."[position() <= count(".$path1.") - count(".$path2.")]";
$elList = $x->query($path3);
foreach ($elList as $node) {
echo $node->nodeName." -> text: ".$node->textContent."<br />";
}
这将打印:
span -> text: goal1
a -> text: goal2
注意 我正在使用 *
仅针对没有文本节点的元素 - 如果您希望所有节点都将其替换为 node()
.