使用Enlive匹配一组TD标签中的特定TD标签
Use Enlive to match a specific TD tag in a group of TD tags
我刚开始使用 Elive 进行 HTML 屏幕抓取任务。如果我想要下面table的第二个和第四个TD节点的文本,我将如何指定选择器?我通读了教程,但没有找到任何有关如何在 XPath 中指定内容的示例:
html/body/table/tr/td[2] 和 /td[4](假设一个基于一的索引)
<html>
<body>
<table width="100%" border="0" cellspacing="3" cellpadding="2">
<tr>
<td width="15%" class="labels">Part No</td>
<td class="datafield">I2013-00007</td>
<td class="labels"><div align="right">Parcel No</div></td>
<td colspan="3" class="datafield">07-220-12-03-01-2-00-000</td>
</tr>
</table>
</body>
</html>
我需要从这两个 TD 节点捕获文本值。
您可以这样使用 nth-of-type
:
user> (require '[net.cgrand.enlive-html :as html])
nil
user> (def test-html
"<html><body><table width='100%' border='0' cellspacing='3' cellpadding='2'><tr><td width='15%' class='labels'>Part No</td><td class='datafield'>I2013-00007</td><td class='labels'><div align='right'>Parcel No</div></td><td colspan='3' class='datafield'>07-220-12-03-01-2-00-000</td></tr></table></body></html>")
#'user/test-html
user> (:content (first (html/select (html/html-resource (java.io.StringReader. test-html)) [[:td (html/nth-of-type 2)]])))
("I2013-00007")
我刚开始使用 Elive 进行 HTML 屏幕抓取任务。如果我想要下面table的第二个和第四个TD节点的文本,我将如何指定选择器?我通读了教程,但没有找到任何有关如何在 XPath 中指定内容的示例:
html/body/table/tr/td[2] 和 /td[4](假设一个基于一的索引)
<html>
<body>
<table width="100%" border="0" cellspacing="3" cellpadding="2">
<tr>
<td width="15%" class="labels">Part No</td>
<td class="datafield">I2013-00007</td>
<td class="labels"><div align="right">Parcel No</div></td>
<td colspan="3" class="datafield">07-220-12-03-01-2-00-000</td>
</tr>
</table>
</body>
</html>
我需要从这两个 TD 节点捕获文本值。
您可以这样使用 nth-of-type
:
user> (require '[net.cgrand.enlive-html :as html])
nil
user> (def test-html
"<html><body><table width='100%' border='0' cellspacing='3' cellpadding='2'><tr><td width='15%' class='labels'>Part No</td><td class='datafield'>I2013-00007</td><td class='labels'><div align='right'>Parcel No</div></td><td colspan='3' class='datafield'>07-220-12-03-01-2-00-000</td></tr></table></body></html>")
#'user/test-html
user> (:content (first (html/select (html/html-resource (java.io.StringReader. test-html)) [[:td (html/nth-of-type 2)]])))
("I2013-00007")