XQuery 表达式 - 屏幕抓取 - Saxon / JTidy

Question

我正在开发 Java Web Scraper，它使用 Jtidy/Saxon。 Tidy Parsed DOM 使用 XQuery 表达式发送到 Saxon 以提取数据。我在使用 XQuery 表达式时遇到困难。

网站是http://www.pacra.com.pk/reports.php。我想提取所有 table 数据，必须使用 XQuery 才能与旧系统一起使用。

基本上我想要的是在这个 XPath //*[@id="mainDiv"]/div/table/tbody

遍历所有 tr 标签

return tr 标签遍历每个 tr 中的所有 td 标签 return 前 6 个 td 标签中的文本 1、2、3、4、5、6

到目前为止我想出的是

for $tr in //table/tbody
    for $row in $tr/child::tbody/child::tr
        return <tr><td>{data($row/td[1])}</td>
            <td>{data($row/td[1])}</td>
            <td>{data($row/td[2])}</td> 
            <td>{data($row/td[3])}</td>
            <td>{data($row/td[4])}</td>
            <td>{data($row/td[6])}</td>

我的语法显然有误我正在尝试学习 XQuery，但发现该网站与教程示例有很大不同 XML。如果有人能提供帮助，将不胜感激！

Answer 1

该网站的 HTML 无效可能对您没有帮助，例如：

<table align="center" width="1024px">
    <tr>
        <td align="center" ><div id="mainDiv"><!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title></title>
</head>
<body>
<table>

请注意新的 html 页面出现在 <div id="main"> 标签内。另外我不认为你想要的数据实际上在 div 和 id="main"!

无论如何，您应该可以通过以下方式查询它：

declare namespace h = "http://www.w3.org/1999/xhtml";

for $tr in /h:html/h:html[2]/h:body/h:div/h:table/h:tr
return
    <tr>{
        $tr/h:td[position() le 6]
    }</tr>

我使用 EXPath HTTP 客户端检索 HTML 并将其整理为 XML，因此以下对我有用：

import module namespace http = "http://expath.org/ns/http-client";
declare namespace h = "http://www.w3.org/1999/xhtml";

for $tr in http:send-request(<http:request href="http://www.pacra.com.pk/reports.php" method="get"/>)[2]/h:html/h:html[2]/h:body/h:div/h:table/h:tr
return
    <tr>{
        $tr/h:td[position() le 6]
    }</tr>

XQuery 表达式 - 屏幕抓取 - Saxon / JTidy

XQuery Expression - Screen scraping - Saxon / JTidy

java

xml

xpath

xquery

saxon