使用连接器使用 sitemap.xml 抓取内容
Using a connector to crawl content using a sitemap.xml
我们有一个研究出版物的 dspace 存储库,gsa 正在通过网络抓取对其进行索引,即从主页开始并跟踪所有链接。
我认为使用连接器提交 url 以从 sitemap.xml 文件建立索引可能更有效。然后 gsa 只需要索引和重新抓取站点地图上的 url,并且可以忽略站点的结果。
gsa 文档的建议是,这并不是连接器的真正目标,因为所有内容都可以通过网络爬网发现。
你怎么看?
谢谢,
乔治娜.
您可以从 /bin 目录生成站点地图 "dspace generate-sitemaps"。它将为 dspace 中的所有项目生成一个带有 link 的站点地图目录。
输出示例:
<html><head><title>URL List</title></head><body><ul><li><a href="http://localhost:8080//handle/123456789/1">http://localhost:8080//handle/123456789/1</a></li>
<li><a href="http://localhost:8080//handle/123456789/2">http://localhost:8080//handle/123456789/2</a></li>
<li><a href="http://localhost:8080//handle/123456789/3">http://localhost:8080//handle/123456789/3</a></li>
<li><a href="http://localhost:8080//handle/123456789/5">http://localhost:8080//handle/123456789/5</a></li>
</ul></body></html>
您可以轻松创建一个 GSA "Feed" 来列出您要抓取的网址。但是,由于您的 "Follow" 模式必须包含您网站的主机名,因此抓取工具将跟踪从您的 Feed 中的页面链接的所有页面。
如果您真的只想索引 "Site Map" 中的项目,那么您可能应该考虑编写一个 Adaptor (4.x)。然后您将负责编写逻辑来解析您的 sitemap.xml 文件以提取您想要抓取的 URL。
这可能已过时(所以我不确定它是否仍然有效),但有一个 python 连接器的示例,它将解析 sitemap.xml 并将其作为内容提要发送或元数据提要。
这里有 2 个链接可以帮助您
https://github.com/google/gsa-admin-toolkit/blob/master/connectormanager/sitemap_connector.py
https://github.com/google/gsa-admin-toolkit/wiki/ConnectorManagerDocumentation
如果有的话,如果您编写自己的连接器 3.x 或适配器 4.x
,这将使您了解要实现的逻辑
我们有一个研究出版物的 dspace 存储库,gsa 正在通过网络抓取对其进行索引,即从主页开始并跟踪所有链接。
我认为使用连接器提交 url 以从 sitemap.xml 文件建立索引可能更有效。然后 gsa 只需要索引和重新抓取站点地图上的 url,并且可以忽略站点的结果。
gsa 文档的建议是,这并不是连接器的真正目标,因为所有内容都可以通过网络爬网发现。
你怎么看?
谢谢, 乔治娜.
您可以从 /bin 目录生成站点地图 "dspace generate-sitemaps"。它将为 dspace 中的所有项目生成一个带有 link 的站点地图目录。
输出示例:
<html><head><title>URL List</title></head><body><ul><li><a href="http://localhost:8080//handle/123456789/1">http://localhost:8080//handle/123456789/1</a></li>
<li><a href="http://localhost:8080//handle/123456789/2">http://localhost:8080//handle/123456789/2</a></li>
<li><a href="http://localhost:8080//handle/123456789/3">http://localhost:8080//handle/123456789/3</a></li>
<li><a href="http://localhost:8080//handle/123456789/5">http://localhost:8080//handle/123456789/5</a></li>
</ul></body></html>
您可以轻松创建一个 GSA "Feed" 来列出您要抓取的网址。但是,由于您的 "Follow" 模式必须包含您网站的主机名,因此抓取工具将跟踪从您的 Feed 中的页面链接的所有页面。
如果您真的只想索引 "Site Map" 中的项目,那么您可能应该考虑编写一个 Adaptor (4.x)。然后您将负责编写逻辑来解析您的 sitemap.xml 文件以提取您想要抓取的 URL。
这可能已过时(所以我不确定它是否仍然有效),但有一个 python 连接器的示例,它将解析 sitemap.xml 并将其作为内容提要发送或元数据提要。 这里有 2 个链接可以帮助您 https://github.com/google/gsa-admin-toolkit/blob/master/connectormanager/sitemap_connector.py
https://github.com/google/gsa-admin-toolkit/wiki/ConnectorManagerDocumentation
如果有的话,如果您编写自己的连接器 3.x 或适配器 4.x
,这将使您了解要实现的逻辑