使用连接器使用 sitemap.xml 抓取内容

Using a connector to crawl content using a sitemap.xml

我们有一个研究出版物的 dspace 存储库,gsa 正在通过网络抓取对其进行索引,即从主页开始并跟踪所有链接。

我认为使用连接器提交 url 以从 sitemap.xml 文件建立索引可能更有效。然后 gsa 只需要索引和重新抓取站点地图上的 url,并且可以忽略站点的结果。

gsa 文档的建议是,这并不是连接器的真正目标,因为所有内容都可以通过网络爬网发现。

你怎么看?

谢谢, 乔治娜.

您可以从 /bin 目录生成站点地图 "dspace generate-sitemaps"。它将为 dspace 中的所有项目生成一个带有 link 的站点地图目录。

输出示例:

   <html><head><title>URL List</title></head><body><ul><li><a href="http://localhost:8080//handle/123456789/1">http://localhost:8080//handle/123456789/1</a></li>
    <li><a href="http://localhost:8080//handle/123456789/2">http://localhost:8080//handle/123456789/2</a></li>
    <li><a href="http://localhost:8080//handle/123456789/3">http://localhost:8080//handle/123456789/3</a></li>
    <li><a href="http://localhost:8080//handle/123456789/5">http://localhost:8080//handle/123456789/5</a></li>
</ul></body></html>

您可以轻松创建一个 GSA "Feed" 来列出您要抓取的网址。但是,由于您的 "Follow" 模式必须包含您网站的主机名,因此抓取工具将跟踪从您的 Feed 中的页面链接的所有页面。

如果您真的只想索引 "Site Map" 中的项目,那么您可能应该考虑编写一个 Adaptor (4.x)。然后您将负责编写逻辑来解析您的 sitemap.xml 文件以提取您想要抓取的 URL。

这可能已过时(所以我不确定它是否仍然有效),但有一个 python 连接器的示例,它将解析 sitemap.xml 并将其作为内容提要发送或元数据提要。 这里有 2 个链接可以帮助您 https://github.com/google/gsa-admin-toolkit/blob/master/connectormanager/sitemap_connector.py

https://github.com/google/gsa-admin-toolkit/wiki/ConnectorManagerDocumentation

如果有的话,如果您编写自己的连接器 3.x 或适配器 4.x

,这将使您了解要实现的逻辑