从特定 table 中提取链接
Extract links from specific table
我有一个包含许多 html 表的 html 代码。我想从上面具有特定 div 的特定链接中提取链接。
这是我的示例代码:
<div class="boxuniwersal_header">Table 1</div>
<img src="img/boxuniwersal_top.gif" width="210" height="18" alt="" style="margin-top: 5px" />
<div class="boxuniwersal_content">
<div class="boxuniwersal_subcontent">
<div class='menu_m1'><table cellpadding="3"><tr><td><a href="http://link.com"><img src="some.jpg" width="45" /></a></td><td><a href="http://link.com">Some text</a></td></tr></table></div>
<br />
</div>
</div>
<!-- /box -->
<!-- box -->
<div class="boxuniwersal_header">Table 2</div>
<img src="img/boxuniwersal_top.gif" width="210" height="18" alt="" style="margin-top: 5px" />
<div class="boxuniwersal_content">
<div class="boxuniwersal_subcontent">
<div class='menu_m1'><table cellpadding="3"><tr><td><a href="http://link2.com"><img src="some2.jpg" width="45" /></a></td><td><a href="http://link2.com">Some text2</a></td></tr></table></div>
<br />
</div>
</div>
$domXPath = new DOMXPath($domDocument);
$results = $domXPath->query("//div/div/table/tr/td/a|//table//tr/td//a"); //querying domdocument
foreach($results as $result)
{
$links[]=$result->getAttribute("href");
}
此代码returns所有链接。我只想从 Table1 中获取链接。可能吗?
您的主要问题只是将 XPath 表达式调整为 select 正确的 XML。
如果您将 XPath 更改为
//div[text()="Table 1"]/following-sibling::div[1]//table//a
它所做的是首先找到 <div>
元素,其文本就是您要查找的文本。
following-sibling::div[1]
部分将查看第一个 <div>
元素,该元素与已经 select 编辑的 <div>
元素处于同一级别(这是 [= =15=] 是)。
最后一部分只查找封闭 <table>
.
内的所有 <a>
元素
我有一个包含许多 html 表的 html 代码。我想从上面具有特定 div 的特定链接中提取链接。
这是我的示例代码:
<div class="boxuniwersal_header">Table 1</div>
<img src="img/boxuniwersal_top.gif" width="210" height="18" alt="" style="margin-top: 5px" />
<div class="boxuniwersal_content">
<div class="boxuniwersal_subcontent">
<div class='menu_m1'><table cellpadding="3"><tr><td><a href="http://link.com"><img src="some.jpg" width="45" /></a></td><td><a href="http://link.com">Some text</a></td></tr></table></div>
<br />
</div>
</div>
<!-- /box -->
<!-- box -->
<div class="boxuniwersal_header">Table 2</div>
<img src="img/boxuniwersal_top.gif" width="210" height="18" alt="" style="margin-top: 5px" />
<div class="boxuniwersal_content">
<div class="boxuniwersal_subcontent">
<div class='menu_m1'><table cellpadding="3"><tr><td><a href="http://link2.com"><img src="some2.jpg" width="45" /></a></td><td><a href="http://link2.com">Some text2</a></td></tr></table></div>
<br />
</div>
</div>
$domXPath = new DOMXPath($domDocument);
$results = $domXPath->query("//div/div/table/tr/td/a|//table//tr/td//a"); //querying domdocument
foreach($results as $result)
{
$links[]=$result->getAttribute("href");
}
此代码returns所有链接。我只想从 Table1 中获取链接。可能吗?
您的主要问题只是将 XPath 表达式调整为 select 正确的 XML。
如果您将 XPath 更改为
//div[text()="Table 1"]/following-sibling::div[1]//table//a
它所做的是首先找到 <div>
元素,其文本就是您要查找的文本。
following-sibling::div[1]
部分将查看第一个 <div>
元素,该元素与已经 select 编辑的 <div>
元素处于同一级别(这是 [= =15=] 是)。
最后一部分只查找封闭 <table>
.
<a>
元素